早在上個世紀50年代,電子計算機誕生不久,就有科學家們提出“類人類的智能”這樣的一個概念。
人工智能領域有個符號主義學派,用基于邏輯推理的智能模擬方法去模擬人類智能行為,其中最有代表性的成果為啟發(fā)式程序——“邏輯理論家”,科學家們用它證明了38條數(shù)學定理。加之當時處于冷戰(zhàn)背景,不論是美國還是前蘇聯(lián),政府對人工智能投入非常大,所以人工智能在60年代迎來了第一個黃金時代,人們對其前景非常樂觀。
諾貝爾經(jīng)濟學獎獲得者、美國著名經(jīng)濟學家西蒙是一位早期人工智能學者,他認為,到20世紀末,人工智能將取代人類智能,機器會完成人類日常大部分工作。
□ 電影《人工智能》劇照
80年代中期到90年代,人工智能遇到一個大挫折,人們發(fā)現(xiàn),雖然人工智能可以做復雜的推理工作,卻做不好簡單的事情,在語音識別、圖像識別方面一直沒有進步,而且看起來連發(fā)展方向都找不到。
同時,伴隨著冷戰(zhàn)結束,政府投資逐漸減少,做人工智能拿不到錢,大家甚至類比核戰(zhàn)后的蕭條創(chuàng)造了一個詞叫AI Winter。盡管在90年代早期到中期AI出現(xiàn)一次小規(guī)模復興,主要是專家系統(tǒng)的興起,但仍舊沒有走出低潮期,這個低潮期一直持續(xù)到2000年左右。
從2006年開始,由于深度神經(jīng)網(wǎng)絡的逐漸興起,特別是在2011年左右的深度神經(jīng)網(wǎng)絡在一系列傳統(tǒng)機器學習任務上取得了重大突破,人們發(fā)現(xiàn),人工智能進入了復興的快車道。近兩年來,尤其是從2016年3月份AlphaGo擊敗李世石這件事情開始,人工智能再次進入大眾視野。
目前對于非監(jiān)督學習的研究遠遠不夠
截至目前,人工智能領域取得的最重大突破還是機器學習。
機器學習大致可分成三類。
第一類叫監(jiān)督學習(Supervised Learning),就是利用一定量的標定數(shù)據(jù)學到一個模型,然后利用這個模型對沒有標定的數(shù)據(jù)去做分類。
監(jiān)督學習可以用于分類和回歸。
分類是指將若干標定好的數(shù)據(jù)分成ABC若干類,如信用卡反欺詐、人臉識別、語音識別、指紋識別等。
所有偏數(shù)值性的東西都可以用回歸的方法去做,回歸是指預測某個數(shù)值,如預測天氣或股票價格。
目前在機器學習領域研究的最透徹的還是分類問題,大致可以分為兩個階段:
第一階段:要有一堆標定數(shù)據(jù)。比如你告訴機器,這張圖片上有張人臉,或是某句話表達了一個什么意圖,這句話的語音信號和其所對應的文本就叫標定數(shù)據(jù)。
第二階段:將標定數(shù)據(jù)放到機器學習算法里去做訓練,生成相應的模型,今后可以利用模型來做預測。舉個例子,我們利用一張帶有人臉的照片作為標定數(shù)據(jù)生成一個模型,今后我們使用一張新照片作為沒有標定的數(shù)據(jù),便可利用這個模型來判斷照片里有沒有人臉。
□ 電影《機器姬》劇照
第二類叫非監(jiān)督學習(Unsupervised Learning),主要是在沒有標定的數(shù)據(jù)里發(fā)現(xiàn)模式或各種。常見的非監(jiān)督學習任務包括異常檢測、聚類、關聯(lián)分析等等。
異常檢測是從在一系列數(shù)據(jù)中找到反常的點或模式,比如峰值或波谷,聚類是將一堆數(shù)據(jù)中相似的部分聚成一類。
以下這種情況就屬于異常檢測:
經(jīng)過幾千公里長的石油管道運過來的油出現(xiàn)問題,產生問題的原因可能是自然災害把石油管道破壞,也有可能是油管被人撬開一個洞,怎么找到產生問題的點。
盡管公認非監(jiān)督學習比監(jiān)督學習更重要,因為前者能發(fā)現(xiàn)新東西——原來不知道的、沒有看到過的東西,但實際上,以人工智能目前所能達到的水平來看,90%以上精力都集中在監(jiān)督學習里。
就監(jiān)督學習來講,預測準確率和召回率是一個硬指標。同樣面對一張含有人臉的照片,在同樣的召回率下,A的準確率90%,B的準確率95%,那肯定是B比A好。
人類探索知識過程是個非監(jiān)督學習的過程,雖然很重要,但沒有東西可以比較。比如說做聚類,A聚了五類,B聚了六類,如何在理論上確定A一定比B好、聚五類一定比聚六類好呢?或者說,A發(fā)現(xiàn)某個現(xiàn)象,管這個現(xiàn)象叫異常,B也發(fā)現(xiàn)了這個現(xiàn)象,但不一定就把它叫做異常。哪個更有道理?
從工業(yè)界角度去看,我們希望能有大量這樣的學習過程能幫助我們去認識這個世界,但實際上,目前我們對于非監(jiān)督學習的研究遠遠不夠。
我跟同行們接觸,發(fā)現(xiàn)一個非常明顯的現(xiàn)象:人工智能領域的很多研究者,大部分都在研究監(jiān)督學習,因為這方面的成果非常容易被學術界認可,只要在數(shù)據(jù)上做的好,一定會得到認可。但對于非監(jiān)督學習,模式和知識的自動發(fā)現(xiàn)和積累,卻少有人問津,雖然大家都普遍認為很重要。
□ 科幻電影《人工智能》劇照
第三類是強化學習(Reinforcement Learning),其所承諾的目標更加吸引人:能夠從反饋里學習,即在一個不斷變化的環(huán)境中去學習。這個術語最初是用來描述賭場里的場景。
假設你帶著1000塊錢進入一個有1000臺老虎機的賭場,每臺老虎機每次可以賭1塊錢,但每臺老虎機輸贏概率都不一樣,有高有低,如果你的任務是盡可能多贏錢,該怎么做呢?
一個合理的策略是你先拿出三分之一的錢去挑臺老虎機試,贏了之后可以繼續(xù)在這臺機子上接著試,輸了的話就換一臺。三分之一的錢花完,你可能已經(jīng)試了幾十臺或幾百臺老虎機;把其余三分之二的錢都用在贏錢概率最高的那臺老虎機上。
這個策略就可以用強化學習的方式學習到。強化學習的思維方法就是在一個不確定的環(huán)境下,如何利用反饋去學到一個最優(yōu)策略,從而使得收益最大化。AlphaGo的算法模型中就使用了強化學習,強化學習和現(xiàn)實生活很接近,甚至能幫我們解決一些現(xiàn)實生活中的問題。所以在這方面研究現(xiàn)在越來越多。
深度學習的強大之處
當前機器學習領域的一個重大突破就是最近我們經(jīng)常提起的深度學習(Deep Learning),它所使用的深度神經(jīng)網(wǎng)絡和人類大腦的工作方式有一些類似的地方。
人類大腦里有150億個神經(jīng)元,分成不同區(qū)域,每個區(qū)域之間的神經(jīng)元本身沒有區(qū)別,只因功能和位置的原因導致分工不同。比如說,接近我們眼睛的這部分神經(jīng)元被訓練成能夠感知眼睛傳過來的信號,但對人類的語言沒有反應,它能夠把眼睛傳過來的信號處理后,傳輸?shù)酱竽X內部。
但這并不意味著神經(jīng)元本身是有差別的,事實上,有科學家做過實驗,把鼠胚胎的神經(jīng)元細胞移植到成年鼠受損的視神經(jīng)區(qū)域,兩者成功融合,建立了連接。我們在 AI 領域使用的深度神經(jīng)網(wǎng)絡技術也是如此,神經(jīng)元之間是類似的,因為層級和位置的不同,輸出不同的效果。
大家為什么都愿意用深度神經(jīng)網(wǎng)絡呢?一個重要的原因在于,利用深度神經(jīng)網(wǎng)絡之后,我們就可以不用再去花大力氣去做特征工程(Feature Engineering),也就是挑特征。
你可以把所有能找到的特征都融進去,只要層數(shù)足夠多,投入的計算機資源足夠大,就能得到更好的結果。
要使用深度神經(jīng)網(wǎng)絡,首先需要巨大的數(shù)據(jù)量。人類在幼兒階段要想認識一個蘋果,可能被訓練十幾次、幾十次就差不多了;而一個深度神經(jīng)網(wǎng)絡要認識一個蘋果,沒有幾百萬張圖片是不行的。
其次是需要一個可描述的確定性目標。也就是說,要明確告訴它這是一個蘋果。
目前人工智能的特點是:我們人類看起來非常有挑戰(zhàn)性的事情,只要這件事情有明確目標和足夠數(shù)據(jù),機器就可以相對容易地將其解決;而許多我們人類覺得很稀松平常的事情,比如模式的發(fā)現(xiàn)、基于常識的推理,機器做起來反倒是非常難。
如何將人工智能技術運用到各行各業(yè),解決行業(yè)里的推理、知識共享與傳播、生產規(guī)劃、路徑規(guī)劃、通訊等問題,將是人工智能的未來重要趨勢。
如何衡量對話機器人產品的優(yōu)劣?
無論在國內還是國外,年輕一代對于對話交互的接受程度非常高。有調研數(shù)據(jù)顯示,年輕人更習慣于以文本信息進行交流。在這種大背景下,我們認為,對話交互很可能會成為下一代交互方式,它未必能替代圖形交互,但至少會成為圖形交互方式的補充。
大家對于現(xiàn)有的對話型機器人產品的體驗一定很糟糕,覺得這個東西不是人工智能,而是人工智障,問題非常多,其中最根本的一個問題是,目前我們對于語言/文本,在機器能處理的空間中沒有一個很好的表達方式(Representation),從而使得現(xiàn)有這些對話機器人沒有辦法從語義和邏輯上去理解對話,并且缺乏自學習能力。人類理解的語言,其實是由單詞之間組合的意義,機器沒有辦法將這些意義很好地表達出來。
從效率上看,CUI(對話用戶界面)適合做深度,GUI(圖形用戶界面)適合做廣度展示。
CUI和GUI還有一個重要區(qū)別是:產生的感受不一樣。
GUI給用戶的感受是更多地是靜態(tài)的具有空間感的東西,陳設式的;但CUI給人更多地感覺是時間感,隨著溝通的深入,給用戶一種時間流逝的感覺,所以時間在對話交互里是一個非常關鍵的設計因素。很多對話機器人在和用戶對話時,用戶就說,這個東西我之前告訴過你,你為什么還不知道?所以話語之間的前后關系對用戶的影響比較大。
用戶對于CUI和GUI的預期也不一樣。很多用戶對GUI沒有預期,我看到的東西和別人看到的都是一樣的,屬于公共的東西;但對話通常僅限于兩人之間,天生就應該是個性化的,要滿足用戶的個性化需求。
衡量一個對話機器人產品,有三個象限:用戶價值、稀缺性和技術成熟度。
——用戶價值特別高、產品稀缺、技術成熟度又好的產品,一定是只有壟斷企業(yè)才能實現(xiàn)。——用戶價值高、技術成熟度高但稀缺性不夠的產品,一定會有很多人在做。——技術成熟度高、稀缺性高但對用戶來說價值不大產品,一定會慢慢退出歷史舞臺。
從界面的角度來說,對話本身不是目的,它只是黏合劑,如何通過對話技術將東西推薦給用戶并從中挖掘出合適的有價值的東西?這是一件有挑戰(zhàn)的事情,也是一件有價值的事情。