原標(biāo)題:用AI追熱點(diǎn),自動(dòng)化編輯新聞,路透社已經(jīng)這么做了(附論文)

編者按: 本文來自量子位(公眾號:QbitAI) ,李杉 編譯自 MIT技術(shù)評論,36氪經(jīng)授權(quán)發(fā)布。

“互聯(lián)網(wǎng)的出現(xiàn)和隨后的信息爆炸導(dǎo)致記者越來越難以準(zhǔn)確、迅速地獲取新聞?!甭吠干绲难邪l(fā)團(tuán)隊(duì)本周在arXiv的一篇論文的開場白中如此寫道。

對于路透社來說,假新聞的出現(xiàn)導(dǎo)致這個(gè)問題變得更加尖銳,因?yàn)檫@些假新聞扭曲了人們對事件的感知。

然而,美聯(lián)社等新聞機(jī)構(gòu)已經(jīng)開始使用自動(dòng)化的新聞寫作服務(wù)。他們會(huì)采用標(biāo)準(zhǔn)的模式,例如,在報(bào)道財(cái)經(jīng)新聞和體育比賽結(jié)果時(shí),直接將數(shù)據(jù)粘貼到預(yù)先編寫的模板中:“X公司第三季度實(shí)現(xiàn)利潤Y萬美元,超出華爾街預(yù)期……”

因此,其他新聞機(jī)構(gòu)也面臨壓力,必須啟用自動(dòng)化新聞制作技術(shù)。今天,路透社闡述了它是如何在時(shí)間發(fā)生后先進(jìn)時(shí)間完全通過自動(dòng)化技術(shù)識(shí)別突發(fā)新聞的。

劉小沫(XIaomo Liu,音譯)他的在路透社研發(fā)部門及阿里巴巴的同事表示,這套新系統(tǒng)運(yùn)行良好。事實(shí)上,它有可能徹底改變新聞行業(yè)。但這也引發(fā)了人們的擔(dān)憂,他們擔(dān)心這樣一套系統(tǒng)可能被心懷惡意的人控制。

這個(gè)新系統(tǒng)被稱為路透社追蹤器(Reuters Tracer)。它使用Twitter作為一種全球傳感器,記錄新聞事件的發(fā)生。系統(tǒng)之后使用各種類型的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)來挑選出最相關(guān)的事件,確定它們的主題,排列它們的優(yōu)先級,寫出標(biāo)題和摘要。之后,這些新聞就會(huì)發(fā)布在該公司的全球新聞專線上。

流程的先進(jìn)步是吸收Twitter的數(shù)據(jù)流。追蹤器每天查看大約1200萬條推文,占總數(shù)的2%。其中一半是隨機(jī)抽樣,另外一半來自路透社記者的Twitter帳號列表,包括其他新聞機(jī)構(gòu)的帳號、重要的公司、有影響力的個(gè)人等。

下一步是確定新聞事件發(fā)生的時(shí)間。追蹤器這樣做的前提假設(shè)是:如果幾個(gè)人同時(shí)開始談?wù)撨@件事,這個(gè)事件就已經(jīng)發(fā)生。因此它使用聚類算法來尋找這些對話。

當(dāng)然,這些聚類包括垃圾信息、廣告、普通聊天等。只有一部分涉及有新聞價(jià)值的事件。所以下一個(gè)步是對事件進(jìn)行分類和排序。追蹤器使用許多算法來完成這項(xiàng)工作。

先進(jìn)個(gè)算法負(fù)責(zé)確定對話主題。之后將此與路透社團(tuán)隊(duì)從31個(gè)官方新聞帳號收集的推文進(jìn)行對比,包括@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新聞聚合器。

在這個(gè)階段,這套算法還會(huì)使用一個(gè)包含城市和地理位置的關(guān)鍵詞數(shù)據(jù)庫來判斷事件發(fā)生的地點(diǎn)。

一旦一段談話或謠言被認(rèn)為可能是新聞,關(guān)鍵就是要確認(rèn)它的真實(shí)性。為了確定這一點(diǎn),追蹤器需要找出對話中提到的最早的推文和它所指向的網(wǎng)站,以此來尋找來源。然后,它會(huì)查詢了一個(gè)數(shù)據(jù)庫,其中列出了已知的虛假新聞制作者,如《National Report》,或者諷刺新聞網(wǎng)站《The Onion》

最后,該系統(tǒng)會(huì)寫出標(biāo)題和摘要,并在整個(gè)路透社中分發(fā)新聞。

路透社的團(tuán)隊(duì)表示,在試驗(yàn)過程中,該系統(tǒng)運(yùn)行良好。他們說:“追蹤器能夠在新聞探測和傳播上實(shí)現(xiàn)有競爭力的準(zhǔn)確度和時(shí)效性?!?/p>

他們有統(tǒng)計(jì)數(shù)據(jù)來支持這一點(diǎn)。該系統(tǒng)每天處理1200萬條推文,大約80%的都是噪音。剩下的大約會(huì)歸入6000個(gè)聚類,系統(tǒng)將其視作不同類型的新聞事件。這都是由13個(gè)運(yùn)行10個(gè)不同算法的服務(wù)器完成的。

相比之下,路透社在世界各地雇傭了大約2500名新聞?dòng)浾?,他們每天都使用包括Twitter在內(nèi)的各種來源制作大約3000條新聞提示。其中大約有250條是新聞故事。

路透社將追蹤器識(shí)別的新聞與BBC和CNN等機(jī)構(gòu)新聞的信息流中出現(xiàn)的新聞進(jìn)行對比。劉小沫和他的同事說:“結(jié)果顯示,追蹤器可以用2%的Twitter數(shù)據(jù)覆蓋70%的新聞報(bào)道。”

這套系統(tǒng)的運(yùn)行速度很快。該團(tuán)隊(duì)舉了一個(gè)例子:2017年10月,拉斯維加斯槍擊案導(dǎo)致58人死亡。有目擊者在凌晨1點(diǎn)22分報(bào)告了這一事件,觸發(fā)了一個(gè)追蹤器聚類。

然而,這個(gè)聚類不符合系統(tǒng)給事件制定的標(biāo)準(zhǔn),因而直到凌晨1點(diǎn)39分才被包含到信息流中。“路透社在凌晨1點(diǎn)49分報(bào)道了此事?!眲⑿∧退耐抡f。

這是一項(xiàng)有趣的工作,但也引發(fā)了許多問題,特別是關(guān)于系統(tǒng)的易用性。不難想象,心懷不軌的人會(huì)設(shè)計(jì)專門的Twitter消息來欺騙追蹤器。

不過,這套系統(tǒng)是否比現(xiàn)有的系統(tǒng)更容易欺騙,恐怕還很難判斷。畢竟,人類記者也經(jīng)常被各種假消息欺騙。

此外,人類在新聞行業(yè)仍要扮演自己的角色。未來的新聞肯定會(huì)越來越自動(dòng)化,人類如何融入其中仍然無法確定。

論文地址: