AI第一視角看世界?這是人工智能要有自我意識(shí)了嗎

我們一般給人工智能喂養(yǎng)視頻數(shù)據(jù),或者我們平時(shí)看的短視頻電視劇電影,都是旁觀者視角。也就是說(shuō),我們類似旁觀者一樣,看到的是某個(gè)視頻里的事件內(nèi)容發(fā)生的全貌。機(jī)智客舉個(gè)現(xiàn)實(shí)的例子更方便理解一點(diǎn),比如你睡眼惺忪地在超市里拿了一袋洗衣粉,放入購(gòu)物車或購(gòu)物籃。旁觀者視角就是,你穿著睡衣,微微彎腰,站在超市貨架旁邊找東西,看到洗衣粉后,從貨架上拿下來(lái),丟購(gòu)物車或購(gòu)物籃里。而第一視角則是,你心無(wú)旁騖,目光掃著貨架一排排貨物,看到洗衣粉,然后伸手拿過來(lái),轉(zhuǎn)頭看向購(gòu)物車,把洗衣粉放進(jìn)去。
所以第一視角,往往更符合我們的生理結(jié)構(gòu),然而也信息量往往更少,雖然旁觀者視角的信息量更多更全面,不過在現(xiàn)實(shí)世界,以我們?nèi)藶橹行模谝灰暯堑那闆r往往最多。人工智能要更深入我們?nèi)祟愂澜?,也許學(xué)會(huì)第一視角看世界并與外界互動(dòng),才更貼近我們生活,方便為我們服務(wù)。
這不,第一視角的人工智能要來(lái)了。Facebook AI就在今年開啟了一個(gè)名為Ego4D(Egocentric 4D Perception)的中長(zhǎng)期計(jì)劃,就是為了解決以第一人稱視覺為中心的感知領(lǐng)域的研究挑戰(zhàn)。據(jù)機(jī)智客了解,這是一個(gè)大規(guī)模的以第一人稱視覺為中心的數(shù)據(jù)集,具有前所未有的多樣性。它由來(lái)自全球9個(gè)不同國(guó)家74個(gè)地點(diǎn)的855名獨(dú)特參與者收集的3025小時(shí)視頻組成。它匯集了88名研究人員,將這一數(shù)據(jù)集的規(guī)模大幅增加了一個(gè)數(shù)量級(jí),比任何其他項(xiàng)目都大20多倍,并且即將在11月底開放下載。用這些數(shù)據(jù)來(lái)喂養(yǎng)AI。
第一視角的人工智能?這是要“滲透”到人類世界,喚醒自我意識(shí)嘛?其實(shí),這個(gè)屬于以自我為中心的感知,也是一個(gè)全新的領(lǐng)域。而這種較之以往完全很“顛覆”的感知,讓人工智能進(jìn)入了一個(gè)全新的世界。試想一下讓人工智能看一段以旁觀者視角拍攝的過山車,即便外人看著都跟著緊張和頭暈,但好歹能捕捉到整個(gè)過程的畫面。而如果讓AI以第一視角的體驗(yàn)者來(lái)看,那它不用說(shuō)也處于完全懵逼狀態(tài)。我是誰(shuí),我在干嘛,這是哪里,簡(jiǎn)直幀幀是靈魂發(fā)問。這當(dāng)然只是一個(gè)例子,然而現(xiàn)在有些可穿戴設(shè)備——更多是未來(lái)的可穿戴設(shè)備——配備的相機(jī)多半就是以第一視角看外界的。
而這個(gè),就是Facebook AI此時(shí)面對(duì)的挑戰(zhàn)。Ego4D希望解決的第一個(gè)問題是情景記憶(Episodic memory)。比如你剛才拿過什么東西。Ego4D要解決的第二個(gè)問題便是預(yù)測(cè)(Forecasting):下一步我要做什么?比如你要去哪里?東西要放哪里等。最后一個(gè)問題也是我們盼望AI能實(shí)現(xiàn)的防線則是社會(huì)互動(dòng)(Social interaction)。也就是理解社交互動(dòng)。
這個(gè),更趨近于我們每個(gè)個(gè)體的智能助手、可穿戴設(shè)備等高級(jí)方向了吧。第一視角的人工智能,未必能擁有自我意識(shí),然而這一個(gè)全新的方向則讓AI更方便融入我們每個(gè)個(gè)體的現(xiàn)實(shí)人生。我們目前的智能手機(jī)、智能手環(huán)、手表等智能終端或可穿戴設(shè)備更多的是一個(gè)工具,而非一個(gè)助手,它們都還沒學(xué)會(huì)理解我們,即時(shí)協(xié)助我們。