【導讀】在被稱為“進階版的圖靈測試” 的 Winograd Schema 挑戰(zhàn)賽上,來自中國科技大學的參賽者獲冠軍,但是卻沒能拿到2萬5千美元的大獎。為什么?原來,該挑戰(zhàn)賽規(guī)定,要想獲得25,000美元的獎金,正確率至少要達到90%,但是,表現(xiàn)最好的兩位選手的正確率也僅有48%。這也說明,讓機器理解常識,目前還不是一件容易的事。

首先來看這樣一段人類與蘋果虛擬助手Siri的對話:
User: Siri, call me anambulance.
Siri: Okay, from nowon I’ll call you “an ambulance.”
用戶對蘋果的虛擬助手Siri說,幫我叫輛救護車。Siri的回答是,好的,從現(xiàn)在開始,我會叫你“救護車”。
這真是一段讓人犯尷尬癥的對話。
雖然2011年 Siri 首次發(fā)布后不久,蘋果公司就修正了這個錯誤。但是,一個新挑戰(zhàn)賽結果顯示,目前,計算機仍然缺少常識來避免出現(xiàn)這類尷尬。
本周,在紐約的一場學術會議上,研究者展示了 Winograd Schema 挑戰(zhàn)賽的結果,并且提出若干衡量標準,討論要讓計算機變得真正的智能的話究竟還有多少工作要做。
中國選手表現(xiàn)最好,卻沒能拿下獎金
Winograd Schema挑戰(zhàn)賽要求計算機理解一些有歧義的句子,這些句子對于人類來說很容易理解。不過,要正確理解WinogradSchema挑戰(zhàn)提供的有歧義的句子,必須要具備一定的常識。比如這句話“市政廳議員不批準示威者的許可證,因為他們害怕暴力”,“他們”指代誰在邏輯上是不清楚的,但是人類能夠在語境下理解。
比起隨機的選擇,參與挑戰(zhàn)的程序在選擇句子的正確含義上,準確率要高一點。但是,表現(xiàn)最好的兩位選手的正確率也僅達到48%。如果只是隨機選擇答案,正確率是45%。該挑戰(zhàn)賽規(guī)定,要想獲得25,000美元的獎金,正確率至少要達到90%。
本次挑戰(zhàn)賽中,表現(xiàn)最好的兩位選手分別是來自中國科學技術大學的劉泉(音譯)和來自Open University of Cypress 的 Nicos Issak。
“機器的準確率才比隨機概率高一點點,這并不讓人意外,”紐約大學的研究心理學家、此次競賽的顧問Gary Marcus 說。這是因為要賦予計算機常識性的知識非常困難。手動將這些知識編碼非常地耗時,而且,要讓計算機通過對文本進行統(tǒng)計分析來理解真實的世界也不是件容易的事。Winograd Schema 挑戰(zhàn)的大部分參與者都嘗試把語法分析手工編碼和知識庫結合起來使用。
世界水平究竟怎么樣?
Marcus 還是一家新AI初創(chuàng)公司 Geometric Intelligence 的聯(lián)合創(chuàng)始人。他說,雖然此前谷歌和 Facebook 的研究員說它們在自然語言理解方面取得了重大進展,但是這兩家公司沒有參加此次競賽。“本來應該是這些人高調地走進來然后得100%的正確率,要是那樣的話就震撼到我了。”
媒體曾在6月9日的頭條文章中報道:加拿大人工智能公司Maluuba發(fā)布了一款基于機器學習的自然語言理解程序EpiReader,能理解并處理未經(jīng)組織的自然語言在機器理解文本,并在常用的CNN和CBT數(shù)據(jù)集測試中取得了目前為止的最佳成績,超越行業(yè)領導者IBM Waston、Facebook和谷歌 DeepMind。作為該公司顧問,Yoshua Bengio把EpiReader稱為一個有意思的進步,并認為該技術將會推動Siri、Cortana、Alex等智能助理的問答能力。
Maluuba對EpiReader的測試是在兩個超大型的文本集中進行的:一個由谷歌Deepmind在去年夏天發(fā)布,基于CNN和Daily Mail新聞報道,包含了30萬篇文章(Maluuba只使用了CNN的部分)。另一個是Facebook于今年2月份推出的The Children's Book Test(CBT),由ProjectGutenberg的98本經(jīng)典兒童讀物組成。
EpiReader在這兩個數(shù)據(jù)集的閱讀理解中正確率分別達到74%和67.4%。專家一致認為,在和兩個數(shù)據(jù)集的閱讀理解中,這是目前見到的最好成績,具有里程碑的意義。要知道,人類的準確率也達不到100%,而是在80%左右。
在CNN新聞語料庫中,DeepMind的準確率為63.8%,F(xiàn)acebook為66.8%,IBM Waston為69.5%。而在CBT語料庫的測試中,F(xiàn)acebook準確率為63%,IBM Waston準確率為63.4%。(見下圖)

Winograd Schema 競賽不僅是AI的進步的一個衡量標準,還說明了要制造直覺更強、更加優(yōu)秀的聊天機器人以及訓練計算機從文本中提取更多的信息有多難。
谷歌、Facebook、亞馬遜以及微軟的研究員正在將他們的注意力轉移到語言上。他們使用最新的機器學習技術,尤其是“深度學習”神經(jīng)網(wǎng)絡來開發(fā)更加智能、更有直覺的聊天機器人和個人助理。隨著聊天機器人和語音助理越來越常見以及在圖像識別和語音識別取得重大進展,你或許以為機器在理解語言上正做的越來越好。
在表現(xiàn)最好的兩名參賽者中,其中一名最佳選手使用了最新的機器學習方法。劉泉的團隊(其中包括來自多倫多約克大學和加拿大國家研究委員會的研究員)使用深度學習來訓練計算機從數(shù)千份文本中理解不同事情之間的關系,例如“打籃球”和“贏了”或者“受傷”之間的關系。
“我很高興看到深度學習的使用,”Leidos公司的高級研究員Leora Morgenstern說到。Leios是一家科技咨詢公司,是此次大賽的組織方之一。
劉泉的團隊稱,他們的系統(tǒng)在理解大賽出的問題時有一個缺陷,等他們修正這個缺陷后,正確率可達60%。然而Morgenstern提醒說,即使他們真的能做到,機器的正確率還是遠遠低于人類。
把 Winograd Schema 的句子作為一種衡量機器理解力的方法,最開始是由多倫多大學的一位AI研究員HectorLevesque提出的。根據(jù)AI界的先驅Terry Winograd 的名字命名。Terry Winograd是斯坦福大學的教授,發(fā)明了第一個對話的計算機程序。
Winograd Schema挑戰(zhàn)開始于2014年,是一種升級版的圖靈測試。艾倫·圖靈是計算機和人工智能之父,20世紀50年代,他在想機器是否有一天會像人類一樣思考,而后提出了一個簡單的測試機器智能的方法。他的方法就是讓一臺機器騙過一個人,讓這個人以為他是在和另一個人在進行文字對話。
圖靈測試的問題在于,計算機只要使用簡單的把戲和逃避就能輕松騙過人類。但是,計算機要是沒有常識就不能理解Winograd Schema或是其他帶歧義的句子。
此次競賽意義重大。“當你開始和機器進行對話,這種情況就會發(fā)生,”Nuance的高級首席研究員Charlie Ortiz說。Nuance是一家做語音識別和語音交互軟件的公司,是Winograd Schema挑戰(zhàn)賽的贊助方。Ortiz說,即使是與計算機簡單的對話也會需要理解常識。“在購物時,如果我說‘我想給我的吉他買一個盒子,它應該很牢固的。’那么,‘它’是指盒子還是吉他呢?”
Marcus 補充說,隨著智能設備和可穿戴設備的普及,理解常識將變得越來越重要。“當你向你的手表提出一個問題時,你不用再在50個備選答案中進行選擇,”他說。“當你和你的汽車或是手表說話時,你擺脫了打字的麻煩,但是卻希望能對前后的對話,也就是上下文保持高度相關性。在說話時,人們會很自然的使用代詞指稱此前提到的東西。而這些就要求解決現(xiàn)在的問題,讓計算機可以做到這樣”。