
智能設(shè)備必須能夠根據(jù)捕捉到的圖像信息來預(yù)測(cè)接下來可能發(fā)生什么。但即便是小孩子也知道將裝滿果汁的杯子倒過來會(huì)發(fā)生什么。然而,對(duì)于機(jī)器人來說,這卻是一大難題。
位于西雅圖的艾倫人工智能研究所(Allen Institute for Artificial Intelligence)簡(jiǎn)稱Ai2,是一家致力于解決人工智能問題的公司。該公司的研究人員成功研發(fā)了一套計(jì)算機(jī)程序,用以幫助機(jī)器人判斷被攝像機(jī)捕捉到的物體接下來會(huì)如何運(yùn)動(dòng)。這項(xiàng)技術(shù)可以有效減少機(jī)器人出錯(cuò)的概率,并有助于提升自動(dòng)駕駛汽車在陌生駕駛場(chǎng)景中的安全性能。
魯斯貝·莫塔吉(Roozbeh Mottaghi)和他的同事開發(fā)的這套系統(tǒng)結(jié)合了“機(jī)器學(xué)習(xí)”和“3D建模”技術(shù),可以對(duì)特定場(chǎng)景中物體的物理特性進(jìn)行判斷。研究人員將超過10000張圖片渲染進(jìn)了由3D物理引擎生成的簡(jiǎn)化場(chǎng)景中,而這些3D渲染都是亞馬遜Mechanical Turk眾包平臺(tái)的志愿者們所開發(fā)的。
研究人員將這些圖片和對(duì)應(yīng)的3D模型輸入一臺(tái)大型計(jì)算機(jī)來進(jìn)行“深度學(xué)習(xí)”,通過神經(jīng)網(wǎng)絡(luò)的交互逐步將一些簡(jiǎn)單的場(chǎng)景和特定的簡(jiǎn)單形式的力和運(yùn)動(dòng)形式結(jié)合。之后,當(dāng)系統(tǒng)面對(duì)完全陌生的圖像時(shí),它便可以推斷出該場(chǎng)景中可能存在的不同的物理力。
雖然這一系統(tǒng)還做不到百分之百的精準(zhǔn)預(yù)測(cè),但是大多數(shù)時(shí)候可以給出合理的推斷。例如,在一張圖片里訂書機(jī)放在桌子上,程序可以預(yù)測(cè)到訂書機(jī)可能從桌子上滑落,砸到地板上;某一張有咖啡桌和沙發(fā)的圖片,程序可以判斷出來咖啡桌可以在地板上自由移動(dòng),除非碰到了沙發(fā)。

魯斯貝說,該項(xiàng)目旨在幫助機(jī)器學(xué)習(xí)真實(shí)物理世界的動(dòng)力學(xué)。機(jī)器將通過捕捉到的圖像來推測(cè)接下來可能發(fā)生的一切。
這項(xiàng)研究對(duì)于那些需要對(duì)環(huán)境做出快速反應(yīng)的機(jī)器人意義重大,因?yàn)榧词故桥鋫溆?D掃描儀的機(jī)器人,它們也經(jīng)常需要通過分析接收到的圖像來預(yù)測(cè)之后可能發(fā)生的物理行為,而且這種預(yù)測(cè)很難通過傳統(tǒng)的“試錯(cuò)法”來實(shí)現(xiàn)。魯斯貝說:“我不可能讓機(jī)器人跑到超市里,推一推這個(gè)、試一試那個(gè)來學(xué)習(xí)。這樣的話成本太高” 。
這一項(xiàng)目是“柏拉圖”計(jì)劃的一部分,目的在于賦予機(jī)器人視覺智能,讓其具備超越物體識(shí)別和分類的更高級(jí)功能。柏拉圖計(jì)劃的另一個(gè)相關(guān)項(xiàng)目可以讓計(jì)算機(jī)識(shí)別場(chǎng)景中存在的物理力,例如一名滑雪者如何從山頂滑下,或者一個(gè)空中飛行的足球?qū)⑷绾芜\(yùn)行。
近年來,得益于“深度學(xué)習(xí)”的發(fā)展、計(jì)算機(jī)硬件的升級(jí),以及大規(guī)模標(biāo)簽化圖像數(shù)據(jù)庫的建立,計(jì)算機(jī)的圖像解析能力愈發(fā)強(qiáng)大。通過大量例子的學(xué)習(xí),計(jì)算機(jī)已經(jīng)能夠描述、回答關(guān)于特定場(chǎng)景的一些問題,譬如“圖片中有什么?”。然而,計(jì)算機(jī)遠(yuǎn)遠(yuǎn)不能回答“圖片中正在發(fā)生什么”的簡(jiǎn)單問題。為了達(dá)到這種更深層次的理解,計(jì)算機(jī)必須清楚的知道真實(shí)的物理世界是如何運(yùn)行的。