国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

【深度】機器人為什么能寫稿,以及它們能拿普利策獎嗎?

   日期:2016-09-01     來源:機器之心    作者:zy     評論:0    
標(biāo)簽:
   導(dǎo)讀: 里約奧運會期間,寫稿機器人「Xiaomingbot」通過對接奧組委的數(shù)據(jù)庫信息,可以進(jìn)行實時撰寫新聞稿件,在16天內(nèi)發(fā)布了456篇資訊報道,平均新聞生成到發(fā)布時間為2秒鐘,幾乎達(dá)到電視直播的傳播速度。
 
  里約奧運會期間,寫稿機器人「Xiaomingbot」通過對接奧組委的數(shù)據(jù)庫信息,可以進(jìn)行實時撰寫新聞稿件,在16天內(nèi)發(fā)布了456篇資訊報道,平均新聞生成到發(fā)布時間為2秒鐘,幾乎達(dá)到電視直播的傳播速度。Xiaomingbot是今日頭條實驗室研發(fā)的AI機器人,可以通過兩種文本生成技術(shù)產(chǎn)出新聞:一是針對數(shù)據(jù)庫中表格數(shù)據(jù)和知識庫生成自然語言的比賽結(jié)果報道,即簡訊;二是利用體育比賽文字直播精煉合成比賽過程的總結(jié)報道,即資訊。
 

 
  隨著自然語言處理、知識庫等人工智能技術(shù)的發(fā)展,許多媒體已經(jīng)開始了機器人報道的探索。《紐約時報》數(shù)字部門開發(fā)了機器人編輯 Blossomblot,每天推送300篇文章,每篇文章的平均閱讀量是普通文章的38倍。此外,《紐約時報》還會在財報季、運動比賽報道的時候使用機器人來寫稿;美聯(lián)社在過去一年多時間里使用Wordsmith系統(tǒng)編發(fā)企業(yè)財報;在華爾街引起巨大反響的Kensho可以通過接入美國勞工部等數(shù)據(jù)源來自行創(chuàng)造投資分析報告;電訊社也計劃使用雅虎在報導(dǎo)夢幻橄欖球聯(lián)賽時用到的技術(shù),用來發(fā)布一些美式橄欖球回顧;AutomatedInsights的寫作軟件去年寫了150億篇文章,宣稱自己是世界上最大的內(nèi)容生產(chǎn)者;路透社也在發(fā)表機器撰寫的文章,該系統(tǒng)的負(fù)責(zé)人認(rèn)為「在一次盲測中,機器的作品表現(xiàn)得比人類作品更具可讀性?!梗淮送?,還有專門提供「標(biāo)題黨」服務(wù)的Click-o-Tron公司。
 
  媒體領(lǐng)域出現(xiàn)這種趨勢的原因在于相關(guān)技術(shù)已經(jīng)達(dá)到了一定的成熟度,而且這種成熟度是和新聞媒體的要求很好的匹配在了一起。在卡斯韋爾的「結(jié)構(gòu)化故事」系統(tǒng)中,所謂的「故事」完全不是個故事,而是一個信息網(wǎng),我們可以像對待文案、信息圖表或者其它表達(dá)形式一樣去組裝它,閱讀它,就像我們擺弄音樂音符一樣。任何一類信息——從法院報道到天氣預(yù)報——都能夠最終能放入到這個數(shù)據(jù)庫中。這樣的系統(tǒng)的潛力是巨大的。
 
  「大多數(shù)自然語言系統(tǒng)都是在簡單地描述一個事件。但是大多數(shù)新聞都是描繪性的,甚至是事件驅(qū)動的」來自密蘇里大學(xué)DonaldWReynolds新聞機構(gòu)的大衛(wèi)·卡斯韋爾說。「事件們在不同的地點發(fā)生,這些事件之間的因果關(guān)系是這些事件的核心敘述結(jié)構(gòu)?!剐枰阉鼈兎诺焦爬系男侣勑g(shù)語中:誰,發(fā)生了什么,在哪里,什么時候。
 
  根據(jù) DonaldWReynolds的說法,人工智能系統(tǒng)在進(jìn)行新聞創(chuàng)作時需要解決非常多的技術(shù)難題,包括自然語言處理中的自動摘要、文本分類等,還有知識庫和知識發(fā)現(xiàn)(KDD)等相關(guān)技術(shù),比如實體定義、關(guān)系抽取、問答系統(tǒng)等。簡單來說,就是機器首先需要理解自然語言,然后通過知識管理弄明白新聞中各個要素(各類知識)之間的關(guān)系。
 
  自然處理技術(shù)所有信息密集型處理過程的核心,也是今年以來谷歌、Facebook和微軟等科技巨頭都最為重視的研究方向,在剛剛結(jié)束的語言學(xué)頂級會議ACL上,他們也都發(fā)表了眾多重磅論文。谷歌開源了SyntaxNet,將神經(jīng)網(wǎng)絡(luò)和搜索技術(shù)結(jié)合起來,在解決歧義問題上取得顯著進(jìn)展——能像訓(xùn)練有素的語言學(xué)家一樣分析簡單句法;Facebook推出了文本理解引擎DeepText,每秒能理解幾千篇博文內(nèi)容,語言種類多達(dá)20多種,準(zhǔn)確度近似人類水平。
 
  其中,閱讀和理解人類語言對機器來說是一項極具挑戰(zhàn)性的任務(wù),這需要對自然語言的理解以及根據(jù)多種線索推理的能力。閱讀理解是現(xiàn)實世界中的一個普通問題,其目的是閱讀和理解給定的文章或語境,并基于此回答問題。在多種類型的閱讀理解問題中,完形填空式的查詢是基礎(chǔ)的一類,并且也已經(jīng)變成了解決機器理解問題的起點。與普通的閱讀理解問題類似,完形填空式的查詢(Taylor,1953)是基于文檔的本質(zhì)提出的,盡管其答案是文檔內(nèi)部的單個詞。
 
  為了教會機器完成完形填空式的閱讀理解,需要學(xué)習(xí)給定文檔和查詢之間的關(guān)系,因此必須要大規(guī)模的訓(xùn)練數(shù)據(jù)集。通過采用基于注意(attention)的神經(jīng)網(wǎng)絡(luò)方法(Bahdanauetal.,2014),機器可以學(xué)習(xí)大規(guī)模訓(xùn)練數(shù)據(jù)中的這些模式。為了創(chuàng)造大規(guī)模訓(xùn)練數(shù)據(jù),Hermannetal.(2015)發(fā)布了用于完形填空式的閱讀理解的CNN/DailyMail新聞?wù)Z料庫,其中的內(nèi)容由新聞文章及其摘要構(gòu)成。之后Hilletal.(2015)發(fā)布了Children’sBookTest(CBT:兒童圖書測試)數(shù)據(jù)集,其中的訓(xùn)練樣本是通過自動化的方式生成的。此外,Cuietal.(2016)也發(fā)布了用于未來研究的漢語閱讀理解數(shù)據(jù)集。正如我們所見,自動生成用于神經(jīng)網(wǎng)絡(luò)的大規(guī)模訓(xùn)練數(shù)據(jù)對閱讀理解來說是至關(guān)重要的。此外,語境的推理和總結(jié)等更復(fù)雜的問題需要遠(yuǎn)遠(yuǎn)更多的數(shù)據(jù)才能學(xué)會更高水平的交互。
 
  今年六月份,人工智能創(chuàng)業(yè)公司 Maluuba公司發(fā)表了一篇關(guān)于機器理解的論文,提出了目前最先進(jìn)的機器閱讀理解系統(tǒng)EpiReader,該模型在CNN和童書測試(CBT)兩個數(shù)據(jù)集上的成績都超過了谷歌DeepMind、Facebook和IBM。EpiReader采取兩個步驟來確定問題答案。第一步(Extractor),我們使用了一個雙向GPU逐字閱讀故事和問題,接著采用一種類似PointerNetwork中的Attention機制在故事中挑選出可能作為答案備選的單詞。第二步(Reasoner),這些備選答案被插入「完型填空」式的問題中,構(gòu)成一些「假設(shè)」,接著卷積神經(jīng)網(wǎng)絡(luò)會將每個假設(shè)與故事中的每個句子加以比較,尋找文本蘊涵(TextualEntailment)關(guān)系。簡單來說,蘊涵是指,兩個陳述具有很強的相關(guān)性。因此,最近似故事假設(shè)的蘊涵得分最高。最后,將蘊涵得分與第一步得到的分?jǐn)?shù)相結(jié)合,給出每一個備選答案正確的概率。
 
  國內(nèi)的哈工大訊飛實驗室也提出了一種用于完形填空式閱讀理解任務(wù)的全新模型,這被稱為 attention-over-attention(注意之上的注意)閱讀器。我們模型的目標(biāo)是在文檔級的注意之上放置另一種注意機制(attentionmechanism),并誘導(dǎo)出「attendedattention(集中注意)」以用于最后的預(yù)測。和之前的成果不同的是:我們的神經(jīng)網(wǎng)絡(luò)模型只需要更少預(yù)定義的超參數(shù),并且可以使用一種簡潔的架構(gòu)進(jìn)行建模。實驗結(jié)果表明我們提出的attention-over-attention模型在大量公共數(shù)據(jù)集中都顯著優(yōu)于當(dāng)前許多最佳的系統(tǒng),例如CNN和「(Children’sBookTest)兒童圖書測試」數(shù)據(jù)集。
 
  CMU的MrinmayaSachan和邢波在ACL2016上發(fā)表論文《用豐富的語義表征來實現(xiàn)機器理解》,通過用如指代和修辭結(jié)構(gòu)這種跨句現(xiàn)象來合并組成句子的AMR,從而為給出的文本和每個問答對建構(gòu)意義表征圖(meaningrepresentationgraph)。然后將機器理解降格成為了一個圖包含問題(graphcontainment problem)。假定問答含義表征圖(question-answermeaningrepresentationgraph)和文本含義表征圖(textmeaningrepresentationgraph)之間存在一個隱含的映射,該映射能夠解釋該答案。他們提出了一個統(tǒng)一的最大邊緣框架,它能學(xué)習(xí)發(fā)現(xiàn)這個映射(給定一個文本語料庫和問答對),并使用它學(xué)到的來回答關(guān)于新文本的問題。他們發(fā)現(xiàn)這個方法是目前完成這類任務(wù)的最好方法。
 
  在知識庫方面,谷歌自然語言處理技術(shù)專家 EnriqueAlfonseca認(rèn)為,挑戰(zhàn)包括知識庫的實體解析和一致性問題。兩年前,谷歌的一些員工發(fā)布了一個實體解析注釋的超大文集,這個大的網(wǎng)絡(luò)文集包括對Freebase主題的110億次引用,它是由世界上研究信息提取的研究人員開發(fā)的。知識集指的是真實世界(或者虛擬世界)的結(jié)構(gòu)化信息,在許多其他應(yīng)用中,人們能夠?qū)ξ淖诌M(jìn)行語言分析。這些一般包括主題(概念和實體)、屬性、關(guān)系、類型層次、推理規(guī)則、知識表征和人工、自動知識獲取的研究進(jìn)行了許多年,但是這些都是遠(yuǎn)未解決的難題。
 
  CMU的SujayKumarJauhar認(rèn)為,問答需要一個知識庫來檢查事實和推理信息。自然語言文本形式的知識學(xué)習(xí)起來比較簡單,但是自動推理很難。高度結(jié)構(gòu)化的知識庫能讓推理變得容易一些,但是學(xué)習(xí)起來又難了。他們在近期ACL上發(fā)表論文,探討了半結(jié)構(gòu)形式主義(semi-structuredformalism)的表來平衡這兩種情況。
 
  而上文提到的Xiaomingbot的主人今日頭條實驗室近期也在這方面取得進(jìn)展——通過深度學(xué)習(xí)和知識庫的結(jié)合來解決知識類問答問題。今日頭條實驗室科學(xué)家李磊博士表示,知識在知識庫里表達(dá)成三元組形式的結(jié)構(gòu)化信息,系統(tǒng)要做的事情是問了這個自然語言問題后,從知識庫里找出這樣的答案。這個問題的難度在于:
 
  1)知識庫非常大,從海量數(shù)據(jù)中找出答案是非常困難的;
 
  2)自然語言問題本身比較復(fù)雜,因為有多種問法和表達(dá)方式;
 
  3)訓(xùn)練數(shù)據(jù)非常有限。
 
  而今日頭條實驗室提出的深度學(xué)習(xí)加上知識庫的CFO方法是,首先觀察到需要把自然語言問題表達(dá)成結(jié)構(gòu)化query,把這個結(jié)構(gòu)化query里的條件信息從問題里找出來。和傳統(tǒng)方法不同,CFO通過神經(jīng)網(wǎng)絡(luò)用了一個StackedBidirectionalGRU,它是一個上下疊加起來的多層雙向循環(huán)神經(jīng)網(wǎng)絡(luò),通過這個模型去計算出問題中的實體以及實體之間的關(guān)系,之后就是構(gòu)建結(jié)構(gòu)化的查詢語句以及從知識庫里尋找答案。在測試結(jié)果上,準(zhǔn)確率超過了微軟和Facebook。
 
  這些在自然語言處理、知識庫方面最新的研究進(jìn)展將會傳導(dǎo)到人工智能在新聞領(lǐng)域的應(yīng)用,就像今日頭條此前所做的智能推薦一樣,通過每天觀察數(shù)千萬用戶的刷新,點擊,搜索,收藏,評論的行為,不斷加強對用戶興趣偏好的理解,從而能夠不斷提高推薦的準(zhǔn)確性,成為在資訊推薦領(lǐng)域的人工智能。希望靠算法連接內(nèi)容創(chuàng)作者和消費者。而現(xiàn)在,技術(shù)的進(jìn)步將使這個邊界獲得再次延伸。就像今日頭條創(chuàng)始人兼 CEO張一鳴預(yù)言的那樣,未來人工智能演化的第一階段首先是在各個垂直領(lǐng)域誕生若干超級智能,比如資訊推薦領(lǐng)域的今日頭條,健康和知識問答領(lǐng)域的沃森,圍棋領(lǐng)域的AlphaGo。這些垂直超級智能可以在特定領(lǐng)域內(nèi)展現(xiàn)出遠(yuǎn)超人類的能力,但是在擅長領(lǐng)域之外沒有任何作為。不過,他們將為誕生在所有領(lǐng)域內(nèi)都具備超人能力的終極智能打下基礎(chǔ)。
 
  而越來越多的機器人創(chuàng)作將成為媒體領(lǐng)域超級智能的開始,目前 Xiaomingbot的資訊生成部分即實時文本生成研究是今日頭條同北大計算機所萬小軍教授團(tuán)隊合作,用于問答系統(tǒng)的CFO也將應(yīng)用在今日頭條的其他媒體產(chǎn)品中。李磊表示,今日頭條有個產(chǎn)品叫「頭條問答」,我們希望對于一些簡單的問題和事實類的問題可以通過自動回答的方式去解決,這樣就可以節(jié)省專家人力。
 
  Xiaomingbot、CFO只是頭條實驗室眾多研究布局中的階段性成果,后者旨在推動人工智能技術(shù)研究,讓算法更好地理解文字、圖片、視頻、環(huán)境場景和用戶興趣,從而促進(jìn)人類信息與知識交流的效率和深度。今日頭條不僅僅是新聞客戶端,是一款基于機器學(xué)習(xí)的個性化資訊推薦引擎,是所有信息、內(nèi)容分享創(chuàng)作的平臺。人工智能和機器學(xué)習(xí)的算法起到了重要作用,能夠幫助高效精準(zhǔn)地把用戶感興趣的內(nèi)容推薦出去。今日頭條的內(nèi)容平臺對應(yīng)著雙邊用戶:一邊是內(nèi)容的創(chuàng)作者,另一邊是內(nèi)容的消費者。所以為了把最好的內(nèi)容推薦給最需要的讀者,就需要機器學(xué)習(xí)的技術(shù)。
 
  今日頭條等媒體巨頭對人工智能技術(shù)在研發(fā)和應(yīng)用上的加碼,讓我們看到了人工智能在未來對媒體業(yè)造成的巨大影響?!稖\狽中提到,互聯(lián)網(wǎng)作為一種智力工具,在給我們帶來便利的同時也在重塑著我們的思維方式。隨之而來的問題是,互聯(lián)網(wǎng)這種媒介傳遞的信息越多,我們想找到優(yōu)質(zhì)或者自己所需信息的難度也就越大。而這正是人工智能的優(yōu)勢所在,它可以讓大數(shù)據(jù)從負(fù)擔(dān)變成便利,會重塑媒體的內(nèi)容生產(chǎn)和分發(fā)。
 
  在采用Wordsmith之前,美聯(lián)社需撰寫約300家公司的財報文章,可想而知這并不是個輕松的工作量。在使用機器人Wordsmith之后,美聯(lián)社每季度可以出3000家公司財報,雖然其中仍有120篇需要人力更新或添加獨立的后續(xù)報道,但顯然它替人類編輯承擔(dān)了絕大部分的工作量。
 
  在哥倫比亞大學(xué)慶祝普利策獎?wù)Q生一百年之際,智能機器人也將在財經(jīng)報道、體育實況報道、騙點擊的標(biāo)題黨新聞(clickbait)以及其它原本只有受過訓(xùn)練的記者才能報導(dǎo)的領(lǐng)域開始一展身手。「總有一天,機器人會贏得普利策獎」,來自NarrativeScience的KrisHammond如此預(yù)測。這家公司專注于「自然語言生成」。「我們能講述隱藏在數(shù)據(jù)中的故事。」最近的進(jìn)步味著,人工智能現(xiàn)在能夠撰寫出具有可讀性的流暢文字,并且還能比亢奮的寫手更快地大量炮制模板型文章?!赣辛俗詣踊覀儸F(xiàn)在能為4,000家公司追蹤、撰寫季度收益報告,」來自世界第一個也是迄今為止唯一個使用自動化編輯的通訊社——美通社的賈斯汀·邁爾斯說,「以前我們只能做到400家?!?/div>
 
  而對于機器人能否拿普利策新聞獎這個問題,邁爾斯也「絕對相信」——因為機器人已經(jīng)做到了。BillDedman因一篇抵押貸款中存在種族主義問題的調(diào)查報道,而獲得了普利策獎。這篇報道雖然發(fā)表于1988年,卻是由電腦協(xié)助寫作成的。
 
  自動化新聞不僅僅具有數(shù)量優(yōu)勢,還有助于定位客戶需求——通過用戶畫像、情感分析等技術(shù)為用戶提供個性化內(nèi)容,或者對于智能對話系統(tǒng)與用戶進(jìn)行交互。
 
  隨著人工智能技術(shù)在新聞領(lǐng)域的參與程度越來越高,對于人工智能技術(shù)是否造成失業(yè)問題的爭論也愈演愈烈。牛津大學(xué)此前發(fā)布了一篇報告稱,目前47%的工作崗位將最終被自動化。但對此的批評意見認(rèn)為,工作被取代,并不意味著勞動者將失去工作,正如曾經(jīng)汽車的出現(xiàn)取代了許許多多的馬車夫和馬童,但同時創(chuàng)造了更多修建高速公路和服務(wù)加油站的工作。
 
  對于媒體領(lǐng)域來說同樣如此,機器人負(fù)責(zé)這項單調(diào)而又乏味的工作就能把記者們解放出來,讓他們追求一些需深度思考的報道,同時機器人也可以將消費者從海量信息中解放出來,提高他們獲取信息和知識的效果和效率,而這就是人工智能對媒體的最重要影響。不久的未來,我們將看到人工智能作為工具在新聞產(chǎn)業(yè)產(chǎn)出發(fā)揮重要的作用。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行