2017未來科學(xué)大獎(jiǎng)?lì)C獎(jiǎng)典禮暨未來論壇年會28、29日在京舉辦,斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛在人工智能研討會上表示,最近她所在的實(shí)驗(yàn)室正在做一項(xiàng)新研究,基于深度學(xué)習(xí)和視覺化語言模式了解不同物體之間的關(guān)系。

李飛飛表示,無論是動(dòng)物智能還是機(jī)器智能,視覺都是非常重要的技術(shù)。視覺是人腦中最為復(fù)雜的系統(tǒng),占有大腦中50%的認(rèn)識單位。視覺反應(yīng)速度非???,只需要150微秒。這使得圖像識別技術(shù)變得非常重要但又十分復(fù)雜。
過去8年時(shí)間,圖像識別的錯(cuò)誤率降低了10倍。2012年對GPU和深度識別技術(shù)的了解讓這一領(lǐng)域?qū)崿F(xiàn)了突破。但是,在一個(gè)圖集中,要獲得數(shù)據(jù)和物體之前關(guān)系的信息依然很難,目前所能做的工作都十分有限。李飛飛所在實(shí)驗(yàn)室正在為攻克這一領(lǐng)域展開新的研究。
她列舉了一張圖中的算法,這種算法可以預(yù)測不同物體之間的空間關(guān)系,進(jìn)行對比,了解這種對稱的關(guān)系,然后了解物體之間的動(dòng)作,以及它們的之間位置關(guān)系。物體之間還能有什么樣的數(shù)據(jù)集,提供一個(gè)標(biāo)簽,進(jìn)行短句子描述。進(jìn)行進(jìn)一步了解視覺世界,而不僅僅是一系列的物體名稱,實(shí)驗(yàn)室正在做相關(guān)量化研究。
以下是李飛飛演講實(shí)錄,enjoy:
今天我給大家?guī)淼氖亲罱囊恍┭芯克悸?,今天我的演講內(nèi)容是關(guān)于視覺智能,動(dòng)物世界當(dāng)中有很多物種,而且有一種非常了不起,絕大多數(shù)動(dòng)物都有眼睛,因此視覺是最為重要的一種感觀的方法和認(rèn)知方法,這是在動(dòng)物的大腦當(dāng)中,幫助動(dòng)物在世界當(dāng)中生存下來進(jìn)行溝通,去操控和生存。
所以我們無論是討論動(dòng)物智能或者是機(jī)器智能的話,視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當(dāng)中,最為了解的一點(diǎn)是我們所知道的人類視覺系統(tǒng)。所以在5億多年前的時(shí)候,這個(gè)進(jìn)化已經(jīng)不斷地讓我們的視覺系統(tǒng)不斷地發(fā)展,使得我們的視覺系統(tǒng)非常重要的去理解這個(gè)世界,而且這是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng),而且有50%的大腦當(dāng)中的這些認(rèn)知的單位,都有著最為復(fù)雜、最為高級的感知系統(tǒng),所以能夠讓我們知道人類的視覺系統(tǒng)非常了不起。
這是認(rèn)知心理學(xué)家做過的一個(gè)最為著名的一個(gè)實(shí)驗(yàn),這也就是告訴大家人類的視覺體系有多么了不起,大家看一下這個(gè)視頻,你的任務(wù)是如果看到一個(gè)人的話就舉手,這是一個(gè)智商測試。所以每個(gè)圖景的時(shí)間是非常短的,也就是1/10秒,不僅這樣,而且讓大家看一個(gè)人的話,并沒有告訴你是什么樣的人,或者他站在哪里,什么樣的姿勢,穿什么樣的衣服,然而大家仍然能很快地識別出這個(gè)人。
1996年的時(shí)候,Newl(音譯)教授學(xué)生證明出視覺認(rèn)知能力是人類大腦當(dāng)中最為了不起的能力,因?yàn)樗俣确浅??,而且大概?50微秒,在150微秒之內(nèi),我們的大腦能夠區(qū)別非常復(fù)雜的圖像。會把非常復(fù)雜的含動(dòng)物和不含動(dòng)物的圖像區(qū)別出來,那個(gè)時(shí)候計(jì)算機(jī)沒有接近人類的,這種工作激勵(lì)著計(jì)算機(jī)科學(xué)家,希望解決最為基本的問題就是圖像識別問題。
過了20年到現(xiàn)在,計(jì)算機(jī)領(lǐng)域和專家也在這個(gè)問題上發(fā)明了幾代技術(shù),這個(gè)就是我們所了解到的這些圖集,當(dāng)然也取得了非常大的進(jìn)展和進(jìn)步。這張圖表是給大家總結(jié)一下,在過去的幾年當(dāng)中,在分類挑戰(zhàn)當(dāng)中一些標(biāo)志性的項(xiàng)目,橫軸是時(shí)間年份,左邊縱軸指的是分類錯(cuò)誤。我們能夠看到它的錯(cuò)誤是降低了10倍。8年的時(shí)間里錯(cuò)誤率就降低了十倍,所以這八年當(dāng)中經(jīng)歷了非常大的革命。
2012年的時(shí)候了解了GPU技術(shù),以及深度識別技術(shù),幫助世界了解在深層學(xué)習(xí)革命的一個(gè)發(fā)展,所以非常令人激動(dòng)的領(lǐng)域,尤其過去幾十年在人工智能的研究。作為科學(xué)家就會想一下在這個(gè)圖集之外,還可以做到什么。
通過一個(gè)例子告訴大家,兩張圖片,包括一個(gè)動(dòng)物和一個(gè)人,通過圖像識別來看這兩個(gè)圖非常相似,但是他們的故事卻是非常不同的,當(dāng)然你肯定不想在右邊的圖的場景當(dāng)中,我們在這就會出現(xiàn)一個(gè)非常重要的問題,就是人們能夠做的,這也是最為重要、最為基礎(chǔ)的一點(diǎn)圖像識別功能,就是識別圖像物體之間的關(guān)系,首先這個(gè)輸入是圖像本身,但是我們所輸出的信息包括物體的位置以及物體之間的關(guān)系。當(dāng)然這個(gè)領(lǐng)域有一些前期工作,但是絕大多數(shù)工作都是比較有限的。獲得數(shù)據(jù)和物體之間的關(guān)系信息比較有限。
最近我們的實(shí)驗(yàn)當(dāng)中做了這樣一項(xiàng)工作,開始新的研究,預(yù)測根據(jù)深度學(xué)習(xí),以及視覺化語言模式了解不同物體之間的關(guān)系。
這張圖的算法能夠預(yù)測不同物體之間的空間關(guān)系,進(jìn)行對比,了解這種對稱的關(guān)系,然后了解他們之間的動(dòng)作,以及他們的之間位置關(guān)系。所以這就是一個(gè)更為豐富的方法,了解我們的視覺世界,而不僅僅是一系列的物體名稱,這是我們所做出的一些量化研究。說明我們的工作在不斷地進(jìn)展和取得進(jìn)步的。
一年前的時(shí)候,我們知道這個(gè)領(lǐng)域發(fā)展非???,就是關(guān)于計(jì)算機(jī)圖像識別方面。我們也知道有很多新的研究已經(jīng)超過了我們的研究成果。
我們可以看一下,在他們之間的關(guān)系是什么,而且在這個(gè)圖像當(dāng)中不同物體的關(guān)系,能夠讓我們?nèi)ジM(jìn)一步了解這個(gè)問題,就是在物體之間還會有什么樣的數(shù)據(jù)集。最開始我們知道有這個(gè)形象,非常有限的信息,比如這是一個(gè)物體,COCO進(jìn)一步學(xué)習(xí),提供一個(gè)標(biāo)簽,進(jìn)行短句子描述,視覺數(shù)據(jù)信息是非常復(fù)雜和非常多的,
根據(jù)途徑出來一些問答,經(jīng)過三年的研究,我們發(fā)現(xiàn)可以有更為豐富的方法來描述這些內(nèi)容,通過這些不同的標(biāo)簽,描述這些物體,包括他們的性質(zhì)、屬性以及關(guān)系,然后通過這樣的一個(gè)圖譜建立起他們之間的聯(lián)系??梢栽谶@看一下這個(gè)內(nèi)容。這樣一個(gè)數(shù)據(jù)庫當(dāng)中,包括上千個(gè)標(biāo)簽,包括屬性和關(guān)系,還有句子、問答信息,在我們這樣一個(gè)信息庫當(dāng)中,能夠非常精確地讓我們來進(jìn)行更加精確的研究,而不僅僅知道物體識別本身。
我們?nèi)绾蝸砣ナ褂眠@樣的圖表呢?我們做過的一個(gè)工作,就是我們看一下這個(gè)場景的搜索,大家無論在百度還是在Google搜索中,搜索過圖像或者圖集,比如可以輸入穿西裝的男性,可以展現(xiàn)出很多的圖,如果輸入可愛的小狗的話,有很多類似的圖會出現(xiàn),這一點(diǎn)非常好。同時(shí)看一下他們解決了什么問題呢?是否解決了圖像搜索的問題呢?我們輸入一個(gè)句子,男性穿著西裝,抱著可愛的小狗,瞬間結(jié)果不是特別好了。絕大多數(shù)搜索引擎的這種算法,在搜索圖像的時(shí)候,可能很多還是僅僅使用物體本身的信息,他們只是簡單地了解這個(gè)圖有什么物體,但是這是不夠的。
如果我想搜索一個(gè)坐在椅子上的男性的話,如果物體本身給我們一個(gè)人形象或者椅子形象再能加上更多的屬性,加上更多的信息,這個(gè)結(jié)果就會更好一些。
2015年的時(shí)候,我們開始去探索一種新的呈現(xiàn)方法,我們可以去輸入非常長的描述性的段落,放到大型的數(shù)據(jù)庫當(dāng)中,然后來把它和我們的圖像進(jìn)行對比,我們通過這種算法能夠幫助我們進(jìn)行很好的搜索,這就遠(yuǎn)遠(yuǎn)地超過了我們在今天的這個(gè)圖像搜索技術(shù)當(dāng)中所看到的結(jié)果。
這個(gè)看起來非常好,但是大家會有一個(gè)問題,在哪里能夠找到這些場景圖像呢?確實(shí)非常復(fù)雜,而且很難幫助我們構(gòu)建起一個(gè)場景圖,所以我們是手動(dòng)地去構(gòu)建這樣一個(gè)場景,這個(gè)過程將會非常繁雜,所以我們下一步的工作,我們就是希望能夠出現(xiàn)自動(dòng)地產(chǎn)生場景圖的一個(gè)技術(shù)。所以我們有這樣一個(gè)自動(dòng)的系統(tǒng),當(dāng)然是通過這種迭代的信息傳遞的模式,而且使用這種深度學(xué)習(xí)的呈現(xiàn)方法,當(dāng)然太細(xì)節(jié)的內(nèi)容在這不給大家講了,但是要給大家傳遞的一個(gè)重要信息。我們今年夏天的時(shí)候的一個(gè)成果就是我們這個(gè)方法在場景圖這方面的搜索成果是比現(xiàn)行的激活技術(shù)要更好的。
通過這樣一種場景圖,會給我們提供一個(gè)四層的過程,而且讓我們更好地了解場景信息,但是還是不夠的。而且實(shí)際上到現(xiàn)在為止,我們僅僅探索了認(rèn)知心理學(xué)家所討論的一個(gè)概念,人們在一眼之中能夠看到什么樣的內(nèi)容,有什么樣的概念,人們只要看一眼就能看出整個(gè)圖像當(dāng)中的故事,所以我們要去看一下,這種只看一下圖就能夠了解它主要信息的能力是什么呢?在我之前,曾經(jīng)做過一個(gè)研究,就是希望人們能夠告訴我們,你看到了這個(gè)圖的時(shí)候看到了什么內(nèi)容,所以這是我們的實(shí)驗(yàn)場景,實(shí)驗(yàn)人員坐在電腦屏幕面前,給它非常簡短地看一些圖像,然后很快地去看另外的一個(gè)圖像,去遮蓋之前留下的印象。他們需要打印出自己所看到的所有內(nèi)容,做這個(gè)工作給他們付10美元,現(xiàn)在不給大家一小時(shí)10美元,大家可以實(shí)驗(yàn)一下這個(gè)感覺,如果你是參加我的實(shí)驗(yàn)人員的話。
在這個(gè)圖當(dāng)中其實(shí)很快能夠被一張簡單的途徑去蓋掉,很短的呈現(xiàn)時(shí)間,只有27微妙,27微妙相當(dāng)于是1/40秒,簡單圖形的時(shí)間是半秒的時(shí)間,是更長的,人們還是能夠很好地理解場景信息,基本上是很短的時(shí)間。如果我給的實(shí)驗(yàn)費(fèi)用更高的話,大家甚至能做的更好。在這個(gè)語言當(dāng)中有非常豐富的元素,不僅僅看到圖像當(dāng)中的物體是什么,他們的關(guān)系是什么,而且有更多的內(nèi)容。
2015年開始,我們有另外一個(gè)概念,叫做LSTM,他們希望把語言之間關(guān)系建立起來,我們在電腦當(dāng)中給他們一個(gè)圖像,能夠描述,穿橙色工作服的工人站在路上工作,或者穿黑色T恤的男士在彈吉他,不僅僅用簡短的句子描述圖形,所以后來進(jìn)行進(jìn)一步的工作,就是深度捕獲??疵總€(gè)短句,描述一個(gè)部分,然后描述圖像的場景。
除了這個(gè)之外,我們今年所做的工作,我們希望把這些圖像要用這些短語,讓它成為小短的句子,成為一個(gè)小段落,給了更多的內(nèi)容,而且和認(rèn)知心理學(xué)家所做的實(shí)驗(yàn)當(dāng)中,人類的描述結(jié)果是非常接近的。但是我們并沒有只停于這里,在上個(gè)周的ICCB的上面展示了一個(gè)視頻,非常豐富的研究區(qū)域,很多網(wǎng)絡(luò)上的視頻,有各種各樣的數(shù)據(jù)形式,了解這些視頻是非常重要的。在里面可以描述更長故事的片段,用同樣的模型可以這樣做,可以把時(shí)間的元素加入到里面。
這就是一個(gè)例子,大家可以看一下,可以看到視頻是在進(jìn)行著的,我們也可以去描述每一個(gè)部分是怎么樣的。
這是另外一個(gè)例子,也是描述了這個(gè)演員正在做的這些事情,差不多大家能明白什么意思了。
另外一個(gè)部分,除了簡單的認(rèn)知以外就是推理,推理可以讓我們能夠回到人工智能的最初,在20世紀(jì)七八十年代的時(shí)候,人工智能的先驅(qū)們,用了很多推理,斯坦福大學(xué)的一個(gè)教授也是把他的研究稱為一個(gè)塊狀的世界,這里面涉及到很多的深度推理。藍(lán)色還是不錯(cuò)的,喜歡這些藍(lán)色的塊狀,不喜歡紅色的塊狀,不喜歡支撐三角形的東西,到底喜歡不喜歡灰色的盒子呢?所以這里有很多推理需要去做的,然后夠得出一個(gè)正確的答案。
當(dāng)然時(shí)間過得很快,不能講的特別詳細(xì),但是我們在實(shí)驗(yàn)室里也是用了這些簡單的工具,來描述這樣一個(gè)分塊狀的世界。這里面也有很多的問答列表,每個(gè)問答列表都是涉及到推理的過程當(dāng)中,最關(guān)鍵的一些環(huán)節(jié),包括空間的一些關(guān)系,一些邏輯關(guān)系,在這里面也有一些問答例子。
去年,我們也是把這些智能的問答集做成了這樣一個(gè)系統(tǒng),人類能做多少,機(jī)器能做多少,在準(zhǔn)確上面的一個(gè)對比。我們到底怎么能夠做得更好呢?這也是最近我們做的一個(gè)工作,在ICCB發(fā)表的。我們用了一個(gè)新的程序去做,在我們的算法里面,我們把這些問題輸入進(jìn)來,然后把程序進(jìn)行一些協(xié)調(diào),還有執(zhí)行的引擎,用預(yù)測的一些程序進(jìn)行執(zhí)行的處理。通過這樣一個(gè)算法,我們可以看到這些學(xué)習(xí)的準(zhǔn)確率。
有哪些學(xué)習(xí)模塊呢?首先判斷到底這些物體形狀怎么樣,這些紫色是什么樣的,這是一個(gè)更加復(fù)雜的,就是在灰色的這些模塊旁邊,有多少發(fā)光的這些物體?得出的結(jié)果是2。
我給大家分享的就是一系列的工作,有哪些能夠超越我們視覺的一些途徑,其實(shí)我們在了解到場景,還有其他的一些要素,對于整個(gè)的認(rèn)知會產(chǎn)生什么樣的影響,除了這個(gè)情景、視覺、語言,還有很多推理等等,這些都是很重要的。
最后,用這張圖來結(jié)束,這是20周大的一個(gè)小女孩,隨著她的認(rèn)知世界的發(fā)展,她通過很多游戲,她也可以通過畫畫以及各種玩具,來和世界建立認(rèn)知,這是認(rèn)知視覺的智能,對于我們的理解、交流、協(xié)作、互動(dòng)等等,視覺智能都是非常非常關(guān)鍵的,讓我們開始探索這個(gè)世界。