前段時(shí)間,光明日?qǐng)?bào)客戶端上線“小明AI兩會(huì)”功能,首次將人工智能技術(shù)應(yīng)用于兩會(huì)報(bào)道中。用戶通過手機(jī)拍一張全國(guó)兩會(huì)代表委員或光明日?qǐng)?bào)刊載的照片,小明就能識(shí)別出照片中的人物或刊載的照片,并展示這名代表委員在履職期間關(guān)注的主要領(lǐng)域,同時(shí)以人物圖譜的形式,展示與其關(guān)注同樣領(lǐng)域的其他代表委員。
小明AI兩會(huì)功能,最直接的體現(xiàn)是改變傳統(tǒng)的交互模式,主要以照片、語音形式進(jìn)行交互,同時(shí)也提供了文字輸入方式。
專訪光明日?qǐng)?bào)、三角獸和碼隆科技,看中央機(jī)關(guān)報(bào)如何利用 AI 完成升級(jí)
我們了解到,“小明AI兩會(huì)”的后臺(tái)技術(shù)主要由三角獸科技以及碼隆科技提供。
據(jù)悉,為快速識(shí)別代表委員,AI小明項(xiàng)目組抓取了數(shù)萬張照片對(duì)小明進(jìn)行模型訓(xùn)練;與此同時(shí),三角獸科技為了讓“小明”了解代表委員的履職情況,分析了 40 多萬篇有關(guān)媒體報(bào)道和官方報(bào)告對(duì)其進(jìn)行訓(xùn)練,從 29 萬個(gè)詞匯中挖掘出近 5000 個(gè)與兩會(huì)相關(guān)的關(guān)鍵詞,并據(jù)此整理出針對(duì)每一位代表委員的個(gè)性化報(bào)道。
光明日?qǐng)?bào)為何要嘗試人工智能?
當(dāng)下不少媒體面臨內(nèi)容再消化問題,文章發(fā)出后的時(shí)效性往往較短。光明網(wǎng)希望借助 AI 的能力不斷把過往的經(jīng)典內(nèi)容再次挖掘出來,并在合適的場(chǎng)景中重現(xiàn)。其中小明 AI 兩會(huì)就是一個(gè)讓過往兩會(huì)內(nèi)容再消化的典型案例。
小明AI兩會(huì)功能是光明日?qǐng)?bào)小明在人臉識(shí)別、圖像識(shí)別、大數(shù)據(jù)方面的一次探索與自身技能的完善,小明還具備語音溝通、天氣查詢、機(jī)票預(yù)訂等功能。小明是光明日?qǐng)?bào)在 2016 年 11 月推出的國(guó)內(nèi)首款人工智能新聞信息服務(wù)平臺(tái),項(xiàng)目開始之初,無論是人員還是資源投入都非常之多。大力招收相關(guān)人才,同時(shí)廣泛聯(lián)系人工智能領(lǐng)域公司展開合作。
“AI 與媒體相結(jié)合的產(chǎn)品以什么樣的形式呈現(xiàn)給讀者和用戶會(huì)比較好?”這個(gè)棘手的問題擺在了光明網(wǎng)面前。
媒體的首要任務(wù)是提供信息服務(wù),即便是推出新興的 AI 產(chǎn)品,也一定不能離開媒體的信息服務(wù)本身。光明網(wǎng)認(rèn)為,不管產(chǎn)品與多少新技術(shù)結(jié)合,其核心功能仍舊是提供新聞,AI 只是一種輔助手段幫助他們獲得更好的新聞閱讀體驗(yàn)和交互方式。
如果把新聞資訊集成在聊天機(jī)器人里面,用戶不僅可通過小明直接查看新聞,同時(shí)也可與機(jī)器人聊天,豐富與用戶溝通。
在經(jīng)過一段時(shí)間開發(fā)后,于 2016 年光明小明問世。
當(dāng)用戶用文本或語音的形式對(duì)小明說“我要看時(shí)政新聞”,它便會(huì)提供當(dāng)天的時(shí)政要聞。此外,“光明小明”還能為用戶提供查天氣、訂機(jī)票、搜電影等生活信息服務(wù),也可以完成閑聊形式的陪聊。
兩會(huì)前夕對(duì) AI 的新需求
兩會(huì)期間,各家媒體要從較為同質(zhì)的相關(guān)報(bào)道以及內(nèi)容分發(fā)中脫穎而出并不容易。在內(nèi)容創(chuàng)新難度較大的前提下,形式上的創(chuàng)新便成了提升競(jìng)爭(zhēng)力的重要因素。如南方日?qǐng)?bào)在兩會(huì)期間采用了非常炫酷的 H5 做宣傳,在視覺呈現(xiàn)效果上與此前火熱的 H5 《吳亦凡即將入伍》相似。
專訪光明日?qǐng)?bào)、三角獸和碼隆科技,看中央機(jī)關(guān)報(bào)如何利用 AI 完成升級(jí)
光明網(wǎng)也早早開始籌備兩會(huì)報(bào)道的創(chuàng)新形式。去年年底,光明網(wǎng)同三角獸進(jìn)行“小明AI兩會(huì)”功能的對(duì)接,三角獸CTO亓超說,第一次與光明網(wǎng)碰面時(shí),他們對(duì)兩會(huì)功能提出了自己的想法。三角獸根據(jù) AI 技術(shù)的現(xiàn)狀和兩會(huì)話題,對(duì)提出的需求做出一定修剪。
2 月 6 號(hào)開始,AI小明項(xiàng)目組開始著手開發(fā)“小明AI兩會(huì)”功能。
通過輸入自然語言或圖像識(shí)別的方式跳轉(zhuǎn)到代表和委員的詳細(xì)頁面。
下圖為兩會(huì)委員和代表的頁面,主要技術(shù)均由三角獸提供,這里以雷軍為例:
專訪光明日?qǐng)?bào)、三角獸和碼隆科技,看中央機(jī)關(guān)報(bào)如何利用 AI 完成升級(jí)
亓超介紹到,人物圖譜是把人物屬性比較相近的群體進(jìn)行計(jì)算,通過語料和個(gè)人資料來計(jì)算他們之間的關(guān)系。除了雷軍的關(guān)系圖之外,也有其他人之間的關(guān)系網(wǎng)絡(luò)。
專訪光明日?qǐng)?bào)、三角獸和碼隆科技,看中央機(jī)關(guān)報(bào)如何利用 AI 完成升級(jí)
下圖則為通過算法挖掘的雷軍關(guān)注領(lǐng)域的關(guān)鍵詞。
專訪光明日?qǐng)?bào)、三角獸和碼隆科技,看中央機(jī)關(guān)報(bào)如何利用 AI 完成升級(jí)
第三部分是相關(guān)新聞和熱點(diǎn)新聞。該功能背后的本質(zhì)新聞搜索,根據(jù)人物關(guān)鍵詞和自己所關(guān)注的領(lǐng)域挖掘人物跟兩會(huì)相關(guān)的報(bào)道。
專訪光明日?qǐng)?bào)、三角獸和碼隆科技,看中央機(jī)關(guān)報(bào)如何利用 AI 完成升級(jí)
兩會(huì)熱點(diǎn)通過對(duì)熱點(diǎn)詞和相關(guān)報(bào)告進(jìn)行挖掘,除了今年兩會(huì)的報(bào)道外,還包括往年所有兩會(huì)的上百萬篇報(bào)道和百科資料以及政府網(wǎng)站報(bào)告??偣餐诰虻脑~有幾十萬,通過數(shù)據(jù)清洗和迭代把有用的數(shù)據(jù)保存。
在談到“光明AI兩會(huì)”功能的最大難點(diǎn)在哪里時(shí),亓超主要提到兩點(diǎn):準(zhǔn)確和有力,尤其是兩會(huì)相關(guān)的報(bào)道一定要匹配準(zhǔn)確,容不得半點(diǎn)差錯(cuò)。在“有力”層面,AI 抓取的內(nèi)容盡量做到要和人為采編有所不同,發(fā)揮機(jī)器的優(yōu)勢(shì)。
而背后幾十萬篇報(bào)道的篩選,這內(nèi)部涉及到一個(gè)排序問題。排序方式與根據(jù)傳統(tǒng)搜素中的“焦點(diǎn)”、“關(guān)鍵詞”、“位置”、“權(quán)重”、“時(shí)間”、“來源”類似,同時(shí)內(nèi)容必須緊扣兩會(huì)主題。整個(gè)過程純粹靠機(jī)器來完成,然后靠人力來抽查。當(dāng)然,在面對(duì)大量數(shù)據(jù)時(shí)也不可避免地會(huì)遇到格式錯(cuò)誤和抓取失敗等問題。經(jīng)過大量的技術(shù)研究和溝通,對(duì)面臨的問題進(jìn)行了解決。
AI 賦予“小明”未來
光明網(wǎng)產(chǎn)生對(duì)于光明日?qǐng)?bào)刊載圖片識(shí)別的需求后,找到了在圖像識(shí)別領(lǐng)域有著深厚積累的碼隆科技。
碼隆科技 CEO 黃鼎隆向雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))透露:碼隆和三角獸都是微軟創(chuàng)投加速器孵化的企業(yè),彼此前期就有所了解,因此三角獸向《光明日?qǐng)?bào)》推薦了我們,合力開發(fā)這個(gè)功能。
在問到這個(gè)功能“小明AI兩會(huì)”功能如何時(shí),黃鼎隆說到:
我對(duì)它最滿意的地方是易用性。因?yàn)檎麄€(gè)酷炫識(shí)別功能的實(shí)現(xiàn),是光明網(wǎng)的同事自己在我們的人工智能平臺(tái)上搭建起來的,并不需要我們進(jìn)行過多定制化的開發(fā)。其實(shí)人工智能技術(shù)要想落地、商業(yè)化,很重要的是要使普通人,也就是不一定懂得高深科技的人也能輕松使用。我們創(chuàng)造 ProductAI 這個(gè)平臺(tái)的初衷就是希望把領(lǐng)先的深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù),通過搭建這個(gè)云端平臺(tái),使開發(fā)者們不需要懂得很復(fù)雜的技術(shù)原理,只需要進(jìn)行很簡(jiǎn)單的對(duì)接,就可以把最先進(jìn)的人工智能技術(shù)植入到他們的產(chǎn)品中。小明AI兩會(huì)的案例就充分說明了這一點(diǎn)。
在面對(duì)中央機(jī)關(guān)報(bào)擁抱 AI 這件事上,黃鼎隆也不禁感慨到 AI 的影響力已經(jīng)開始滲透到傳統(tǒng)企業(yè)當(dāng)中,而且此次兩會(huì)政府也把“人工智能”寫進(jìn)工作報(bào)告當(dāng)中,可見 AI 已不僅僅是一個(gè)純粹的科技話題了。包括很多傳統(tǒng)領(lǐng)域的大機(jī)構(gòu)、大企業(yè),比如說中國(guó)紡織信息中心、《光明日?qǐng)?bào)》都是非常積極地?fù)肀Ш蛧L試最新技術(shù)。
小明AI兩會(huì)功能成功推出后,多家媒體找到了碼隆科技,也想體驗(yàn)這樣的圖像識(shí)別服務(wù)。根據(jù)黃鼎隆介紹,此次合作,從開發(fā)到提供服務(wù),只花了一個(gè)周末,這在以往如果是客戶方自己開發(fā)相關(guān)功能,成本非常高昂,而現(xiàn)在以 API 的形式接入服務(wù),顯然要?jiǎng)澦愫芏唷?/div>
傳媒將如何深化 AI 的應(yīng)用
光明網(wǎng)方面表示:小明 AI 兩會(huì)功能,是光明網(wǎng)在推出小明機(jī)器人后的進(jìn)一步探索,也是對(duì)小明技能、本領(lǐng)的進(jìn)一步完善,接下來還將不斷優(yōu)化,持續(xù)發(fā)現(xiàn)類似的新功能。
亓超在采訪過程中提出:傳統(tǒng)機(jī)構(gòu)對(duì)人工智能了解程度可能不夠深入,但這完全不妨礙他們提出一些非常妥當(dāng)?shù)穆涞毓δ芎蛨?chǎng)景。同時(shí)也會(huì)同光明網(wǎng)展開更多的合作,其中包括內(nèi)容體系和對(duì)話系統(tǒng)的升級(jí)。
內(nèi)容分發(fā)形式的升級(jí)
針對(duì)不同類型的文章如科技、軍事、時(shí)政等板塊進(jìn)行深度挖掘,從而完成可定制的、個(gè)性化的內(nèi)容分發(fā)。分發(fā)的內(nèi)容不僅僅局限于文本,還包括圖像、音頻、視頻等形式。
對(duì)話系統(tǒng)的升級(jí)
三角獸也將會(huì)對(duì)光明日?qǐng)?bào)小明的對(duì)話系統(tǒng)進(jìn)行再升級(jí)。
在對(duì)話系統(tǒng)方面,由于當(dāng)下聊天機(jī)器人給用戶回復(fù)的話語內(nèi)容并不是非常嚴(yán)謹(jǐn)和正統(tǒng),且機(jī)器回復(fù)內(nèi)容過于零散,因此三角獸接下來需要做的事情就是把機(jī)器給人回復(fù)的每一句話都進(jìn)行更嚴(yán)格篩選和訓(xùn)練。
亓超說到,這里面臨最大的挑戰(zhàn)是,在接下來的項(xiàng)目中,對(duì)話機(jī)器人給用戶回答的所有話語均來自專業(yè)的媒體報(bào)道和官方報(bào)告,而非傳統(tǒng)的對(duì)話語料庫。這其中涉及到純文本理解。
新聞和報(bào)告是一種純文本的、非結(jié)構(gòu)化數(shù)據(jù),這類嚴(yán)肅的報(bào)道中沒有“某人問一個(gè)問題,另外一個(gè)人回復(fù)”這樣現(xiàn)成的問答數(shù)據(jù)。
這種情況下需要給機(jī)器喂一些文章,讓它去自動(dòng)消化,然后把它轉(zhuǎn)化成對(duì)話式數(shù)據(jù)。
我們知道,一篇新聞里由很多句話組成,每句話周圍的文本信息,其實(shí)都是用來表述這句話使用的背景。因此在線上對(duì)話時(shí),第一步都需要用線上對(duì)話的文本跟新聞中這句話周圍的文本去做計(jì)算,把它應(yīng)用在適合它的場(chǎng)景中。
第二步是將每句輸出的話都和上下文做計(jì)算,計(jì)算出回復(fù)這樣一句話是否合適。
舉個(gè)例子,以純聊天為例,當(dāng)對(duì)方回答“謝謝”兩字,我們一定要回復(fù)與謝謝相等或約等的對(duì)話如:謝謝、非常感謝、謝謝你。傳統(tǒng)對(duì)話中,我們通過抓取人為語料庫中的對(duì)話數(shù)據(jù)來實(shí)現(xiàn),在面對(duì)“謝謝你”時(shí)可能反應(yīng)的是不用謝、不客氣。這時(shí)候就會(huì)把謝謝你和不用謝、不客氣做一個(gè)計(jì)算,看兩者可否做一個(gè)語義一致性的回復(fù)。
回到從新聞中抓取信息然后應(yīng)用在對(duì)話系統(tǒng)中的應(yīng)用,每句話周圍的話代表問題,周圍那句話是否合適,需要經(jīng)過上述兩個(gè)步驟進(jìn)行計(jì)算。
以小孩子學(xué)習(xí)舉例,小孩學(xué)習(xí)語言是通過兩個(gè)渠道完成的:在他不認(rèn)字的初始階段,需要靠聽父母以及別人之間的對(duì)話來進(jìn)行學(xué)習(xí)。長(zhǎng)大以后他通過閱讀的方式去消化內(nèi)容,從而把閱讀中獲取的內(nèi)容轉(zhuǎn)化成自己的一種表達(dá)。
通過周圍環(huán)境中人物的對(duì)話進(jìn)行學(xué)習(xí),可以理解為傳統(tǒng)的聊天機(jī)器人做法:去拿一問一答的數(shù)據(jù),然后應(yīng)用在對(duì)話系統(tǒng)中。
而通過閱讀的方式來學(xué)習(xí),其實(shí)就屬于剛才提到的新聞消化和周邊語句計(jì)算。
亓超對(duì)說到:目前市場(chǎng)上很少有這樣的對(duì)話系統(tǒng),雖然極具挑戰(zhàn),但非常有意思。
就在采訪結(jié)束后,光明日?qǐng)?bào)客戶端又解決了“深度鏈接”的問題,不得不再次感慨這家機(jī)關(guān)報(bào)對(duì)新技術(shù)的接受度遠(yuǎn)高于同類機(jī)構(gòu)。
更多>相關(guān)資訊
0 條相關(guān)評(píng)論