8月12日消息,奧運(yùn)會(huì)開(kāi)幕后,眾多用戶都通過(guò)新聞客戶端第一時(shí)間了解比賽的賽況。比如,你可能看到了這樣一條有關(guān)乒乓球女單比賽的新聞:
“丁寧本輪的對(duì)手是現(xiàn)世界排名第7的韓英,實(shí)力不俗。但經(jīng)過(guò)4場(chǎng)大戰(zhàn)的激烈較量,最終,丁寧還是以總比分4:0戰(zhàn)勝對(duì)手,笑到了最后,為中國(guó)延續(xù)了在這個(gè)系列賽事中最終奪冠的機(jī)會(huì)。”

值得注意的是,這條超過(guò)5.4萬(wàn)閱讀量的新聞并不是出自記者、編輯之手,而是由機(jī)器人寫成。這個(gè)機(jī)器人名叫“張小明”,由今日頭條實(shí)驗(yàn)室推出,其“寫稿”模塊是由頭條實(shí)驗(yàn)室與北京大學(xué)計(jì)算所(萬(wàn)小軍團(tuán)隊(duì))聯(lián)合研發(fā)而成。可以通過(guò)兩種文本生成技術(shù)產(chǎn)出新聞:一是針對(duì)數(shù)據(jù)庫(kù)中表格數(shù)據(jù)和知識(shí)庫(kù)生成自然語(yǔ)言的比賽結(jié)果報(bào)道,即簡(jiǎn)訊;二是利用體育比賽文字直播精煉合成比賽過(guò)程的總結(jié)報(bào)道,即資訊。
據(jù)了解,張小明主要報(bào)道乒乓球、網(wǎng)球、羽毛球和女足的比賽,以2秒種的生成時(shí)間,發(fā)布著每一場(chǎng)賽事的新聞稿,6天共生成超200篇簡(jiǎn)訊和資訊。
此前,國(guó)內(nèi)也有了一些機(jī)器人寫稿的嘗試,張小明的寫稿技術(shù)已經(jīng)進(jìn)入是第二代寫稿水平。與第一代機(jī)器人相比 ,張小明特征包括:速度快、樣式多、自適應(yīng)、自動(dòng)配圖等。
今日頭條相關(guān)人士對(duì)TechWeb表示,張小明最大的意義在于,面對(duì)奧運(yùn)會(huì)這樣同時(shí)舉行上百場(chǎng)比賽的綜合賽事,記者很難關(guān)注到每一場(chǎng)比賽,而機(jī)器人可以任勞任怨的為每一場(chǎng)比賽報(bào)道,無(wú)論這場(chǎng)比賽多么冷門和不重要。“傳統(tǒng)新聞理論并不認(rèn)為這些冷門比賽或者熱門比賽(比如乒乓球)的前幾輪小組賽有新聞價(jià)值,可是通過(guò)我們的平臺(tái)測(cè)試,我們發(fā)現(xiàn)對(duì)冷門場(chǎng)次的報(bào)道任然有可觀的閱讀量,這個(gè)閱讀量非常長(zhǎng)尾,而新聞機(jī)器人可以彌補(bǔ)對(duì)這種長(zhǎng)尾的新聞需求。”