7月8日,由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)全程承辦的AI盛會(huì)「全球人工智能與機(jī)器人峰會(huì)」(CCF-GAIR)進(jìn)入火熱的第二天。各分會(huì)會(huì)場人頭不減,大家在細(xì)分領(lǐng)域深入探討交流的激情更盛。

作為AI+專場的開場嘉賓,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員萬小軍發(fā)表了主題為《機(jī)器寫稿技術(shù)與應(yīng)用》的演講。會(huì)后,不少媒體朋友上前與萬小軍交流,期望能將“機(jī)器寫稿技術(shù)”引入自家媒體。
機(jī)器人寫稿并不是一個(gè)全新的話題了。2016年8月,萬小軍帶領(lǐng)的北大計(jì)算機(jī)所與今日頭套實(shí)驗(yàn)室聯(lián)合推出新一代AI寫稿機(jī)器人——奧運(yùn)AI小記者Xiaomingbot。2017年1月,萬小軍與南方都市報(bào)合作研發(fā)寫稿機(jī)器人“小南”。“小明”和“小南”備受關(guān)注,引發(fā)很多爭論,正如鄰居小朋友每次考了高分都會(huì)讓你緊張一樣,機(jī)器人在智能上的每一次進(jìn)步,都讓人類擔(dān)心自己的飯碗不保,不少小編“哭暈在廁所”。
當(dāng)南方都市報(bào)將“小南”看作自己的“新同事”的時(shí)候,萬小軍卻對(duì)雷鋒網(wǎng)編輯說,“在我眼里,寫稿機(jī)器人就是一個(gè)程序,目前看到的更多的還是不足。”十幾年前,萬小軍就開始做自然語言處理,開始關(guān)注其在新聞上的應(yīng)用,寫稿機(jī)器人并不是一個(gè)憑空跳出來的擁有華麗簡歷的神同事,而是技術(shù)不斷推進(jìn)和媒體環(huán)境變化的產(chǎn)物。在雷鋒網(wǎng)對(duì)萬小軍的專訪中,我們拋開人工智能何時(shí)能超越人類, 機(jī)器人能不能自主思考這樣漫漫而談的終極話題,一起來看看這個(gè)專注于新聞?lì)I(lǐng)域的計(jì)算機(jī)教授究竟在做什么。
新聞是做自然語言處理最規(guī)范的文本雷鋒網(wǎng):您專注的自然語言處理技術(shù)主要有哪些應(yīng)用場景?
萬小軍:自然語言處理在很多方面都有應(yīng)用價(jià)值,現(xiàn)在的智能問答、人機(jī)交互都需要語言的處理,比如說現(xiàn)在的語音交互就需要機(jī)器對(duì)語言的理解,執(zhí)行使用者的指令。另外機(jī)器翻譯、機(jī)器寫稿都是可應(yīng)用的方面,機(jī)器寫稿更側(cè)重于自然語言的生成,是說根據(jù)語義數(shù)據(jù)去生成自然語言文本,機(jī)器的語言理解和語言生成是兩個(gè)相反的過程。
人機(jī)對(duì)話中也會(huì)用到自然語言的生成,機(jī)器理解用戶的問話之后,要生成語言來回答。在文化娛樂方面,也可以用自然語言生成技術(shù)來生成詩詞、對(duì)聯(lián)等。
雷鋒網(wǎng):同樣都是自然語言生成,人機(jī)對(duì)話中的語言生成和機(jī)器人寫稿的語言生成有什么不一樣?
萬小軍:首先是長短不一樣,人機(jī)對(duì)話中生成的回復(fù)文本一般比較短,多數(shù)情況下只生成一個(gè)句子,而機(jī)器人寫稿則要生成包含多句話的完整文章,寫稿過程中需要重點(diǎn)考慮篇章結(jié)構(gòu)組織以及語句之間的連貫性。另一方面,對(duì)話的生成要重點(diǎn)考慮跟多輪上下文的銜接,也就是“語境”,而寫稿的時(shí)候沒有這種考慮,能夠把一件事情說清楚就行了。最后,人機(jī)對(duì)話的語言表達(dá)可以比較口語化,但機(jī)器寫稿傾向于使用比較規(guī)范和正式的語言表達(dá)。
雷鋒網(wǎng):您如何評(píng)價(jià)微軟小冰和度秘這一類的語音助手或者說聊天機(jī)器人?
萬小軍:做聊天機(jī)器人如果不限領(lǐng)域的話其實(shí)很難做,如果限定一個(gè)領(lǐng)域的話就可以做的相對(duì)較好,例如專注于天氣、體育或者財(cái)經(jīng)。如果允許天馬行空地發(fā)問,機(jī)器人回復(fù)的難度就很大。一般來說,針對(duì)一個(gè)狹窄的領(lǐng)域則可以做得很精細(xì),比如就是針對(duì)某類產(chǎn)品的客服機(jī)器人。現(xiàn)在的“問答機(jī)器人”回答的是相對(duì)簡單的事實(shí)型問題,但是像“百度知道”里絕大部分問題都是復(fù)雜型問題,問的是怎么樣安裝Windows, 托福怎么樣考高分,怎么樣上北大清華這樣的問題,這些問題機(jī)器不好回答。你要問中國的首都在哪兒,就很好回答,wiki里都有,抽取出來放到知識(shí)庫就可以了?,F(xiàn)在的智能問答聊天系統(tǒng)還不能回答復(fù)雜的問題,解釋事情的原委以及對(duì)比。我們得一步一步來,先解決簡單的然后再考慮復(fù)雜的,如果一開始就把復(fù)雜的情況都考慮進(jìn)來那就沒法做了。
雷鋒網(wǎng):您在2004年就有論文關(guān)注新聞?wù)崛。匀徽Z言處理的應(yīng)用領(lǐng)域很多,為什么選擇并且一直專注在新聞?lì)I(lǐng)域?
萬小軍:自然語言處理的各項(xiàng)研究最早都是針對(duì)新聞?wù)Z料開始做的,因?yàn)樾侣勈亲钜?guī)范的文本。如果一開始就在微博、微信和用戶評(píng)論這樣的不規(guī)范的文本去做,挑戰(zhàn)會(huì)很大。所以像“自動(dòng)分詞”、“句法分析”、“語義分析”、“自動(dòng)摘要”這些自然語言處理任務(wù)一開始的測試語料都是新聞文本。我們先看在新聞文本上能不能做好,再去考慮其它的,因?yàn)樾侣勏鄬?duì)于其他文本來說是最簡單的。
雷鋒網(wǎng):用在新聞上的算法能夠應(yīng)用在別的文本嗎?
萬小軍:應(yīng)該是可以的,但是在精度上肯定是有變化的。比如說“分詞”這個(gè)事情,你在新聞上面分可以達(dá)到95%以上,在微博上可能會(huì)降幾個(gè)點(diǎn),因?yàn)殡y度會(huì)更高,但是方法是可以用的。也可以進(jìn)一步做些針對(duì)性處理,提高精度。
雷鋒網(wǎng):您從事新聞文本挖掘已久,您怎么看待新聞這種文字體裁?機(jī)器人的新聞寫稿得符合哪些基本的要求?(還需要傳統(tǒng)的新聞五要素、客觀性、準(zhǔn)確性這些標(biāo)準(zhǔn)嗎?)萬小軍:在互聯(lián)網(wǎng)時(shí)代,新聞的定義已經(jīng)跟原來不一樣了。以前要求新聞要客觀準(zhǔn)確,而目前網(wǎng)絡(luò)上標(biāo)題黨橫行,很吸引眼球,很多人看。自媒體時(shí)代,人人都可以寫稿,新聞不再只是由專業(yè)寫稿人生產(chǎn)?,F(xiàn)在更重要的是實(shí)時(shí)、有趣。自媒體時(shí)代每個(gè)人都在發(fā)聲,機(jī)器將微博內(nèi)容和評(píng)論整合起來就能出一篇新聞,這在以前是沒有的。新聞的定義在互聯(lián)網(wǎng)時(shí)代發(fā)生了變化。

雷鋒網(wǎng):新媒體時(shí)代的新聞已經(jīng)發(fā)生了變化,您在與新媒體和傳統(tǒng)媒體公司合作“寫稿機(jī)器人”的時(shí)候,感受到新媒體與傳統(tǒng)媒體哪些不同?
萬小軍:他們對(duì)機(jī)器人寫稿的看法有不一樣。今日頭條會(huì)將Xiaomingbot生產(chǎn)的內(nèi)容直接發(fā)布,但是南都還是比較傳統(tǒng)一點(diǎn),在發(fā)布到自己的app上時(shí)還是會(huì)經(jīng)過人工審核。從傳統(tǒng)媒體的立場,他們希望發(fā)布的信息要很準(zhǔn)確。而自媒體更注重量大,側(cè)重時(shí)效,吸引用戶閱讀。
雷鋒網(wǎng):您與今日頭條Xiaomingbot寫稿機(jī)器人的合作是如何開始的?
萬小軍:剛開始也是機(jī)緣巧合。我們團(tuán)隊(duì)當(dāng)時(shí)在ACL上發(fā)表了一篇論文(《Towards Constructing Sports News from Live Text Commentary》),是一篇關(guān)于利用體育直播文字進(jìn)行新聞稿寫作的論文,我們當(dāng)時(shí)已經(jīng)做出了DEMO。當(dāng)時(shí)正是2016年里約奧運(yùn),他們看到了我們的論文,邀請(qǐng)我們?nèi)プ鰣?bào)告,然后在兩周內(nèi),我們就將寫稿機(jī)器人產(chǎn)品做出來了。我們這次的研究離實(shí)用很近,雙方的對(duì)接也很簡單。