sub newsletter

打敗記者,機(jī)器人成最佳寫手

在2014年3月17日的黎明時(shí)分,洛杉磯居民被輕微的震顫驚醒。不到三分鐘的時(shí)間內(nèi),洛杉磯時(shí)報(bào)的網(wǎng)站上就發(fā)布了一篇相關(guān)的實(shí)時(shí)新聞。乍一看,這篇文章像是某通訊社匆忙起草的:

打敗記者,機(jī)器人成最佳寫手

毫無疑問,算法的作者是時(shí)報(bào)的職員,不過他享有雙重身份——既是記者,也是程序員。地震那天早上,USGS從服務(wù)器的各種地震儀接收到數(shù)據(jù),經(jīng)過編輯轉(zhuǎn)化后發(fā)至這名時(shí)報(bào)記者的個(gè)人電腦中。數(shù)據(jù)一經(jīng)傳輸入他所編寫的軟件中,便立刻自動(dòng)被篩選出相關(guān)的信息,并用日常語(yǔ)言寫作出一篇新聞稿。而這名從夢(mèng)中被震顫驚醒的記者只是稍微檢查了一下整篇文章,即點(diǎn)擊了“發(fā)送”。不過實(shí)際上,這種文本基本可以達(dá)到無需任何人為修改即可公布的程度。下次地震發(fā)生時(shí),即便這名記者仍然躺在床上,時(shí)報(bào)的讀者們也可以閱讀到這篇稿子。

這一事件引起了美國(guó)媒體的關(guān)注,近年來由于財(cái)政原因,洛杉磯時(shí)報(bào)解雇了不少編輯記者。結(jié)合這次的新聞,有人猜想,這些記者是不是被機(jī)器人取代了呢?在實(shí)踐中,具有不同復(fù)雜性和自主性的“機(jī)器人記者”已經(jīng)開始逐漸投入使用,尤其是媒體和那些需要出產(chǎn)大量重復(fù)性文稿的行業(yè)。

打敗記者,機(jī)器人成最佳寫手

輕輕松松,四步出稿

在美國(guó),自動(dòng)寫作技術(shù)的發(fā)展在很大程度上是基于伊利諾伊州西北大學(xué)的人工智能領(lǐng)域?qū)<覀兊难芯砍晒V悄苄畔?shí)驗(yàn)室的聯(lián)合負(fù)責(zé)人拉里?伯恩鮑姆( Larry Birnbaum)教授任教于麥迪爾新聞學(xué)院(Medill School of Journalism),作為這個(gè)全新領(lǐng)域的領(lǐng)頭人,他是奎爾系統(tǒng)( Quill system)的研發(fā)人員之一。雖然奎爾具有較高的性能,但在普通PC機(jī)的Linux下運(yùn)行完全沒問題。為了解釋它的工作原理,伯恩鮑姆將整個(gè)步驟分為了四步——盡管在實(shí)際工作過程中,它們是重疊的。

首先,奎爾需要通過其他軟件導(dǎo)入數(shù)據(jù)(表格,列表,圖形)。“近期來,這些信息的很大一部分都可以由人類生產(chǎn),例如包含公司賬目的電子表格或描述一場(chǎng)足球比賽的博文,” 伯恩鮑姆說。不過在開始第一步之前,其他智能系統(tǒng)需要把各種形式的信息轉(zhuǎn)化為機(jī)器可以識(shí)別的結(jié)構(gòu)化的數(shù)據(jù),這樣,機(jī)器人作家可以獲取人類的知識(shí)。

奎爾下一步的工作就是進(jìn)行敘事分析。“收集到的數(shù)據(jù)會(huì)被分類,并按照能夠形成一篇新聞稿的敘述方式來進(jìn)行排序,” 伯恩鮑姆補(bǔ)充說,“它會(huì)選擇某些事實(shí),如強(qiáng)調(diào)行動(dòng),突出人物?!?/p>

第三也是最有創(chuàng)意的一步——形成文本。“算法會(huì)選擇一個(gè)有一系列事實(shí)描述的模板,” 伯恩鮑姆解釋說,“然后就是一個(gè)模式化的過程,它只需要選擇合適的編輯角度即可。在實(shí)際過程中,這一步所得到的結(jié)果會(huì)是文字、代碼和圖表的混合物——一種只有機(jī)器可以理解的呈現(xiàn)方式?!?/p>

在這一基礎(chǔ)上就到了第四步——具化文字。“奎爾有一個(gè)數(shù)據(jù)庫(kù),其從日常用語(yǔ)和專業(yè)學(xué)術(shù)期刊中收集了很多英語(yǔ)語(yǔ)法、單詞、關(guān)聯(lián)詞,用以在最后步驟形成文本時(shí)組織語(yǔ)言?!?伯恩鮑姆說。對(duì)于外行人來說,最后一步是最壯觀也是最驚人的,但實(shí)際上這并不是整個(gè)過程中最復(fù)雜的部分?!坝?jì)算機(jī)早在多年前就已經(jīng)學(xué)會(huì)如何用英文寫作,但它們?yōu)槭裁床粚懩兀恳驗(yàn)樗鼈儧]很么內(nèi)容可寫——它們?nèi)狈懽餍枰淖銐虻男畔?。”他笑著補(bǔ)充說,現(xiàn)在它們終于可以為人類寫作有趣的文章了。

機(jī)器人會(huì)取代記者么?

為了充分利用奎爾帶來的商機(jī),研究所的研究員克里斯?哈蒙德(Kris Hammond)在芝加哥創(chuàng)辦了一家名為 Narrative Science的公司。哈蒙德確信好的敘述要比簡(jiǎn)潔的素描要有價(jià)值得多,因?yàn)槿说拇竽X總是傾向于去理解那些用優(yōu)美文字表達(dá)的敘述?!岸嗵澚丝鼱枴?,他說,“在‘不到幾年’的時(shí)間里,就不會(huì)再有人花費(fèi)大量時(shí)間去閱讀Excel工作表或費(fèi)力地區(qū)分X軸Y軸……奎爾和它的改進(jìn)版將讀取大量難以理解的數(shù)據(jù)并將其轉(zhuǎn)換為清晰簡(jiǎn)單的文字,這會(huì)使我們每個(gè)人都能自然地通過語(yǔ)言文字獲取信息。

哈蒙德稱,到2025年,大概有90%的新聞將由機(jī)器寫作。但這并不意味著機(jī)器人將取代90%的記者,僅僅代表內(nèi)容出產(chǎn)量會(huì)有大幅提升,他解釋說。“以小型業(yè)余棒球比賽為例,媒體對(duì)他們并不感興趣,但是還是有一群觀眾會(huì)觀看每一場(chǎng)的比賽??鼱柺占@幾千場(chǎng)比賽的數(shù)據(jù),然后可以幾乎立刻寫出幾千篇稿件,而且和體育記者寫出的稿件一樣——他們的寫作實(shí)在太容易模仿了?!?Narrative Science目前在這一領(lǐng)域已經(jīng)有不少客戶,包括一些關(guān)注本地體育賽事或青少年兒童的新聞網(wǎng)站。

為你寫作專屬新聞

奎爾同時(shí)也在金融領(lǐng)域大展所長(zhǎng)——金融是另一個(gè)人工稿件可被大量模仿的領(lǐng)域。“多年來,福布斯雜志一直在最終年報(bào)數(shù)據(jù)出來之前就為一些企業(yè)做盈利預(yù)測(cè)和分析?,F(xiàn)在有了奎爾,它可以為超過5000家企業(yè)提供服務(wù),”哈蒙德說。福布斯網(wǎng)站目前會(huì)上傳一些經(jīng)過Narrative Science授權(quán)的材料,通常如“華爾街對(duì)克魯格公司前景樂觀,將于下周二公布其第一季度季報(bào)。分析師預(yù)測(cè)每股收益將達(dá)到1.05美元,同比增長(zhǎng)92%?!?無數(shù)類似的匿名銀行、券商和評(píng)級(jí)機(jī)構(gòu)都開始利用奎爾來草擬聯(lián)邦政府和監(jiān)管機(jī)構(gòu)所要求的各種數(shù)不清的報(bào)道?!澳壳?,奎爾寫作的報(bào)道在遞送前仍會(huì)經(jīng)過人工審查,因?yàn)槲覀內(nèi)蕴幱谠囼?yàn)階段。但幾個(gè)月后,它們就可以實(shí)現(xiàn)直接自動(dòng)發(fā)放至客戶?!惫傻卵a(bǔ)充說。

除此之外,哈蒙德相信,當(dāng)自動(dòng)化寫作與先進(jìn)科技結(jié)合時(shí),將很快在生活的其他領(lǐng)域顯示其巨大的潛力:如根據(jù)消費(fèi)記錄、網(wǎng)絡(luò)瀏覽習(xí)慣和移動(dòng)通信記錄等實(shí)現(xiàn)為每一互聯(lián)網(wǎng)用戶的個(gè)性定位。“奧巴馬曾經(jīng)通過媒體告訴市民,如果他們確保輪胎適當(dāng)充氣,那么就可以省下7%的燃油費(fèi)用。不過這種說法并沒有獲得預(yù)期效果,因?yàn)槿藗儾幌矚g做數(shù)學(xué)題。但在未來,你所鐘愛的新聞網(wǎng)站會(huì)告訴你:它知道你是誰,你車的型號(hào),你買車花了多少錢,你每周的行駛里程是多少,你所用的是什么燃料等等。它會(huì)專門為你寫一篇文章,告訴你如果你給輪胎適當(dāng)充氣,每周將可以省下多少錢?!惫傻抡f。同樣的方法也可以在其他各個(gè)領(lǐng)域使用,從醫(yī)療保險(xiǎn)到政治等。總有一天,所有的文章都會(huì)只有一名讀者。

打敗記者,機(jī)器人成最佳寫手

新聞、游戲、房產(chǎn)、財(cái)經(jīng):已經(jīng)成為機(jī)器人的天下

現(xiàn)在,將機(jī)器人寫作運(yùn)用于日常新聞采寫的媒體遠(yuǎn)不止剛剛提到的洛杉磯時(shí)報(bào)一家,福布斯、ProPublica 和 InvestorPlace 等都是Narrative Science的忠實(shí)用戶。例如,ProPublica曾利用奎爾為其數(shù)據(jù)庫(kù)內(nèi)的五萬多所學(xué)校生成專屬的介紹性文稿,福布斯則更不用說了,在各種收益報(bào)表和財(cái)經(jīng)新聞中,我們?cè)絹碓蕉嗟每吹搅藱C(jī)器人的影子。紐約時(shí)報(bào)雖然在這一領(lǐng)域有些落后,但據(jù)今年七月的最新報(bào)道,其也即將于新聞編輯室內(nèi)引入機(jī)器人,暫時(shí)承擔(dān)為稿件篩選關(guān)鍵詞、制作標(biāo)簽的工作。

Narrative Science并不是機(jī)器人寫作市場(chǎng)里的唯一玩家,競(jìng)爭(zhēng)者一直在源源不斷出現(xiàn)??偛吭诒笨_來納州的Automated Insights公司使用的是另一個(gè)叫做語(yǔ)言大師(Wordsmith的自動(dòng)寫作系統(tǒng),它被描述為一個(gè)“自然語(yǔ)言生成平臺(tái)”。公司負(fù)責(zé)銷售和市場(chǎng)的副總裁亞當(dāng)?斯密(Adam Smith)稱公司在2013年就已經(jīng)生產(chǎn)了三億多篇文本,2014年破十億,目前有包括美聯(lián)社、甘乃特報(bào)業(yè)集團(tuán)在內(nèi)的十幾個(gè)客戶。 美聯(lián)社和Automated Insights公司合作采用機(jī)器寫稿系統(tǒng)來撰寫收益報(bào)告后,一季度內(nèi)出產(chǎn)了超過三千篇相關(guān)報(bào)道,較其原來產(chǎn)量增長(zhǎng)了十倍之多,而且令人稱贊的是,由機(jī)器出產(chǎn)的稿件不僅量大,而且比之前由記者寫作的稿件錯(cuò)處要少得多。除此之外,體育新聞亦是美聯(lián)社內(nèi)機(jī)器人發(fā)揮巨大作用的領(lǐng)域。美聯(lián)社最開始和AI公司合作,除了為寫作收益報(bào)表外,另一主要目的就是報(bào)道體育聯(lián)賽。合作達(dá)成后,美聯(lián)社不僅輕輕松松報(bào)道了美國(guó)NCAA(全國(guó)大學(xué)生體育協(xié)會(huì))組織的大學(xué)賽事,還將國(guó)內(nèi)各類運(yùn)動(dòng)如棒球、橄欖球比賽的報(bào)道范圍由男子一級(jí)賽事延伸至女子比賽、二級(jí)、三級(jí)賽事。

雅虎同樣使用語(yǔ)言大師為游戲“Fantasy Sport”來寫作文本。這個(gè)游戲是玩家選取真實(shí)的足球運(yùn)動(dòng)員來組建自己的球隊(duì),然后和其他玩家的球隊(duì)比賽。“這一系統(tǒng)通過分析運(yùn)動(dòng)員在真實(shí)比賽的表現(xiàn),然后決定哪一支虛擬團(tuán)隊(duì)獲得勝利。當(dāng)然,它的特別之處在于會(huì)提供實(shí)時(shí)的比賽解說?!笔访芩菇忉尩?。

語(yǔ)言大師同樣也可以用來起草房地產(chǎn)廣告、市場(chǎng)報(bào)告、商業(yè)活動(dòng)和財(cái)報(bào)等。“使用同一份數(shù)據(jù),如股票市場(chǎng)價(jià)格,我們可以寫出數(shù)百萬不同的文章,每篇都重點(diǎn)關(guān)注一個(gè)特定投資組合的變化。”

同時(shí),法國(guó)公司Yseop也開發(fā)了一個(gè)可以寫作英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、日語(yǔ)的系統(tǒng)。公司網(wǎng)站上有一篇作為范本展示的金融新聞,用戶在工具欄內(nèi)更改數(shù)據(jù)后,文章就會(huì)自動(dòng)更新。最初這篇報(bào)道的標(biāo)題是“存款余額的積極前景”,但如果你輸入一個(gè)較低的數(shù)值,文本就會(huì)修正為:“存款余額的急劇下降”。

Yseop CEO讓?勞舍爾(Jean Rauscher)稱,Yseop適用于銀行、電信公司的客戶服務(wù)部門以及財(cái)經(jīng)新聞網(wǎng)站,當(dāng)然,它同樣也可為研究股票市場(chǎng)交易的機(jī)構(gòu)提供高級(jí)服務(wù):“想要了解一家企業(yè)的負(fù)責(zé)人也很容易,我們的系統(tǒng)會(huì)掃描包括犯罪記錄等在內(nèi)的大約30個(gè)數(shù)據(jù)庫(kù),然后就可以自動(dòng)生成一份簡(jiǎn)歷?!?/p>

編輯記者反成機(jī)器人助手

機(jī)器人寫作很快就會(huì)司空見慣。除公開版外,Yseop還推出了一個(gè)供內(nèi)部使用版的系統(tǒng),所有可能需要對(duì)大量數(shù)據(jù)分析已完成冗長(zhǎng)報(bào)告的機(jī)構(gòu)都可能成為他們的潛在客戶。勞舍爾已經(jīng)在想象工作人員和機(jī)器人一起工作的效率: “Yseop可以寫作一篇包含基本數(shù)據(jù)和精確數(shù)據(jù)的初稿,他建議,然后由編輯記者進(jìn)行后續(xù)的工作,如對(duì)稿件進(jìn)行重組或潤(rùn)色,加入一些評(píng)論和價(jià)值判斷等。

該系統(tǒng)同樣也可以和工作人員交流,事實(shí)上人反而成了機(jī)器的助手?!叭绻惴òl(fā)現(xiàn)缺少數(shù)據(jù),它會(huì)自動(dòng)停止并提出需求。一旦滿足它所需,就會(huì)自動(dòng)繼續(xù)工作。”因此,也許編輯記者們很快就要開始學(xué)習(xí)一些如何與計(jì)算機(jī)相處的技能。

或許在不那么遙遠(yuǎn)的將來,機(jī)器人會(huì)成為記者工作過程中的最佳拍檔,為所有的讀者量身打造獨(dú)一無二的新聞。

來源:微信公眾號(hào) 傳媒狐(media-fox)

編譯者:思斯

本文由搜狐傳媒獨(dú)家編譯,授權(quán)美通社轉(zhuǎn)載,文章原載于搜狐傳媒微信公眾號(hào)傳媒狐(media-fox)。

打敗記者,機(jī)器人成最佳寫手

原創(chuàng)文章,作者:Stella,如若轉(zhuǎn)載,請(qǐng)注明出處:http://bcouya.cn/blog/archives/17101

China-PRNewsire-300-300