本月 18 日,由美中技術(shù)與創(chuàng)新協(xié)會(Association of Technology and Innovation,ATI)主辦的第一屆“AI NEXT”大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學(xué)家鄧力,微軟院士黃學(xué)東,Uber 深度學(xué)習(xí)負(fù)責(zé)人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學(xué)家 Nikko Strom,微軟小娜架構(gòu)師 Savas Parastatidis 等業(yè)內(nèi)知名專家。
大會主題是“探索 AI 的潛力,把 AI 技術(shù)應(yīng)用于實用項目和服務(wù)”,對 CV、NLP、智能助手、深度學(xué)習(xí)框架均做了專題報告。其中,鄧力博士以”對話系統(tǒng):歷史發(fā)展與現(xiàn)狀“為題,向與會者作了 ppt 演講報告。
鄧力在 AI NEXT 演講現(xiàn)場


注:鄧?yán)蠋熢瓰榧幽么蠡F盧大學(xué)教授,1999 年加入微軟,2016 年起擔(dān)任微軟首席人工智能科學(xué)家,負(fù)責(zé)微軟深度學(xué)習(xí)技術(shù)中心應(yīng)用趨向的深度學(xué)習(xí)研究。
鄧力:很高興能夠來這里,與大家分享我的一些研究——對于該領(lǐng)域,我個人將其稱之為”聊天機器人技術(shù)“(Bot Technology),有時也被叫做對話系統(tǒng)(Dialogue System),與人機交流(Human-Machine Communication)緊密相關(guān)。對該領(lǐng)域的研究,已經(jīng)有相當(dāng)長的歷史。借這次機會,我想要與大家分享該技術(shù)的歷史發(fā)展,以及一些時新論文研究中的前沿技術(shù)突破。
當(dāng)我們談起對話系統(tǒng)、對話代理(Conversational Agent)、對話式交互界面(Conversational UI)或者聊天機器人,它們其實從屬于同一類技術(shù),是實現(xiàn)人機交互(HCI)的一種方式。今天我主要想講講,在過去的二三十年間,這類技術(shù)是如何發(fā)展的。就好像對于神經(jīng)網(wǎng)絡(luò)專家,今天所流行的深度學(xué)習(xí)以及各種 AI 技術(shù),其根源都要追溯到二三十年前。過去許多有價值的研究,都被現(xiàn)在的年輕人忽視了。我希望大家能夠回頭看看這些技術(shù)的演進歷程——今天的技術(shù)都不是孤立存在的,也不是科研人員用一兩年時間一下子研究出來的。
我先從對該技術(shù)的簡單介紹開始。
首先,這類技術(shù)可被分為兩類:基于文字(Text-based)和基于語音(Speech-based)。大家將會從下一位演講者 Nikko(亞馬遜 Alexa 首席科學(xué)家 Nikko Strom,本次大會上他的演講主題為 “Alexa是怎樣煉成的”)那里,聽到更多關(guān)于”基于語音“的東西,因此我會重點講”基于文字“和它們之間的區(qū)別。
有一種視角把口語對話系統(tǒng)看作是兩類系統(tǒng)的接替(基于語音→基于文字):先是語音識別,然后,語音識別的結(jié)果變成一連串的文字,這就成了基于文字的系統(tǒng)。這是傳統(tǒng)的觀點。
但現(xiàn)在看來,這兩種系統(tǒng)可以很好的整合到一起,不再是兩條分離的流水線(Pipeline)。這樣可以對端到端(End-to-End)的性能進行優(yōu)化。這方面有些不錯的學(xué)術(shù)出版物。
所以,我寫的“對話系統(tǒng)= | ≠語音識別+基于文字的對話系統(tǒng)”的意思是:口語對話系統(tǒng)既可被看作是兩種系統(tǒng)的接替,也可不這么看。傳統(tǒng)的觀點十分簡潔,可以有兩個不同的開發(fā)者社群來進行技術(shù)開發(fā):一個是語音識別,一個是用基于文字的系統(tǒng)識別錯誤,因為語音識別會產(chǎn)生錯誤。
在這里,我想指出三點:
設(shè)計對話系統(tǒng)有兩種不同方式:整合學(xué)習(xí)(Integrated learning)vs. Simply pipelined;
對于基于語音的系統(tǒng),它包含額外的信息:我們稱之為 Para-linguistic cues,這在文字中是缺失的。若能充分利用 Para-linguistic cues,比如說話者的情緒、肢體語言,基于語音的系統(tǒng)會遠(yuǎn)遠(yuǎn)強大于基于文字的系統(tǒng)。當(dāng)然,后者也有一些表達(dá)情緒的方式,比如 emoji 的使用,但和 Para-linguistic cues 相比仍然是不同的東西。這是基于語音和基于文字系統(tǒng)的一項主要區(qū)別。
另外,取決不同的用戶,語音輸入可能會比文字輸入更簡單——或者更復(fù)雜。對我個人而言,由于對語音技術(shù)比較了解,在噪音不高的情況下,我傾向于使用語音來于小娜對話。但對于大多數(shù)人而言,他們傾向于使用基于文字的對話,因為他們不知道語音識別在什么情況下效果好,什么情況下效果不好。區(qū)別于不同用戶,會有不同的人機對話行為,這是系統(tǒng)設(shè)計中需要考慮的、很重要的一點。
另一個重要區(qū)別是:窄領(lǐng)域 vs 寬領(lǐng)域(narrow domain vs wide domain)。目前來講,基于文字的系統(tǒng)一般被看作是寬領(lǐng)域,語音是窄領(lǐng)域。但這是由于目前技術(shù)所限,隨著語音識別技術(shù)成熟,情況很快就可能發(fā)生變化,尤其鑒于深度學(xué)習(xí)對語音識別的改善。今天的研究人員,已經(jīng)可以著手思考怎么讓基于語音的系統(tǒng)更寬更 open。
接下來,我會講講口語對話系統(tǒng)的三代發(fā)展。
口語對話系統(tǒng)的三代發(fā)展
近幾年,我們經(jīng)歷了一輪又一輪公眾對于 AI 技術(shù)的興奮期。但現(xiàn)實是,相關(guān)技術(shù)的基礎(chǔ)在 1980 年代末、1990 年代初就已經(jīng)開發(fā)出來了。我會對這些技術(shù)如何從第一代發(fā)展到最新一代作個概括。
第一代:基于符號規(guī)則、模板
微軟首席 AI 科學(xué)家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT
首先,第一代技術(shù)從 1980 年代末開啟,在流行度上面,幾年前這一波技術(shù)就可以說是結(jié)束了,雖然你能夠發(fā)現(xiàn)一些商用系統(tǒng)和 bot 初創(chuàng)企業(yè)還在使用它們。這代技術(shù)依賴于專家人工制定的語法規(guī)則和本體設(shè)計(ontological design)。這些規(guī)則很容易解釋、理解,比較透明,這就是這代技術(shù)為什么能催生出一系列的成功商業(yè)應(yīng)用的原因。修補漏洞很容易,系統(tǒng)更新也很容易。
它的局限性:
依賴于專家。如果沒有懂得編寫這類應(yīng)用的專家,開發(fā)會極其困難。
跨領(lǐng)域的擴展性不足
數(shù)據(jù)用來設(shè)計規(guī)則,而不是學(xué)習(xí)
早期有相當(dāng)多的高校、政府機關(guān)、商業(yè)公司研發(fā)這類系統(tǒng)。它們可分為語音識別和語言理解系統(tǒng)。它們?nèi)加煞栆?guī)則組成,需要付出極大的努力來開發(fā)。
由于這些局限,第一代技術(shù)只能應(yīng)用于極狹窄的領(lǐng)域,而這也許是一件好事。有一個非常好的、關(guān)于這類技術(shù)的論文,它的研究對象是伯克利的餐廳。獲知,普通餐廳反而是不行的,因為需要寫的規(guī)則太多。
第二代:數(shù)據(jù)驅(qū)動、淺層學(xué)習(xí)
微軟首席 AI 科學(xué)家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT
第二代技術(shù)是數(shù)據(jù)驅(qū)動型的。
從業(yè)者不愿意把這代技術(shù)稱之為淺層學(xué)習(xí)(shallow learning),但事實如此,它們是傳統(tǒng)的淺層學(xué)習(xí)方法。對了,用于對話規(guī)則(dialogue policy)的強化學(xué)習(xí)就是這時候研究出來的(1990 年代)。今天我們看到的強化學(xué)習(xí)高潮,在那時就打下了基礎(chǔ)。如今深度學(xué)習(xí)的進步進一步起到了幫助。
這種基于淺層學(xué)習(xí)的數(shù)據(jù)驅(qū)動方式,不容易理解和修補漏洞,但確實有學(xué)習(xí)能力。
這篇論文(“POMDP-based statistical spoken dialogue systems:a review”)對第二代技術(shù)做了整體歸納,它發(fā)表的時間是 4 年前(2013),恰恰在深度學(xué)習(xí)登場之前。這篇論文是劍橋大學(xué)的成果,他們做了很多努力來把該系統(tǒng)商業(yè)化。
第三代:數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)
微軟首席 AI 科學(xué)家鄧力:對話系統(tǒng)的分類與發(fā)展歷程 | AI NEXT
第三代技術(shù)用深度學(xué)習(xí)取代了淺層學(xué)習(xí)的部分。和第二代技術(shù)一樣,數(shù)據(jù)被用來學(xué)習(xí)對話系統(tǒng)中的所有東西。第三代的神經(jīng)模型和表示遠(yuǎn)遠(yuǎn)比前兩代要強大,端到端的學(xué)習(xí)也變得可行。從兩年前開始,它吸引了全世界范圍內(nèi)巨大的研究興趣。但它也有許多局限性:
解釋、修補漏洞、更新系統(tǒng)仍然不容易。
在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和符號自然語言之間缺乏交互界面
跨領(lǐng)域的擴展,但相當(dāng)多的研究在想辦法利用深度遷移學(xué)習(xí)和強化學(xué)習(xí)來實現(xiàn)
尚無明確的商業(yè)成功案例。
這三代技術(shù)有各自的強項,如何把這些優(yōu)點整合起來,是一項主要的挑戰(zhàn)。很多研究聚焦于此。
研究前沿
這里我列出了三項前沿研究領(lǐng)域:
基于語音 vs 基于文字
針對對話的深度強化學(xué)習(xí)
符號-神經(jīng)之間的整合