
此岸的ChatGPT還沒有出來,彼岸開始盯著下一代ChatGPT了。
這就是對物理世界有感知的ChatGPT。它可以直接接受人類的語言指令,就像與人類自然地對話那樣,用動作與人類互動。
谷歌在被ChatGPT偷襲,被微軟挑戰(zhàn)戲弄,并且自賦“紅碼”三個月之后,放出了的一個大招。它推出了一個視覺語言模型PaLM-E,參數(shù)達(dá)到5620億個,集成了視覺和語言,用于機(jī)器人控制。
相比大語言模型(LLM),它被稱為視覺語言模型(VLM)。VLM與LLM不同之處,在于它對物理世界有感知。
從楊立昆到馬庫斯,都一直在批評ChatGPT并非人工智能的發(fā)展方向,因?yàn)樗皇且粋€“單詞預(yù)測的機(jī)器”,并不理解語言的含義,不了解物理世界,也不知道什么是真相。
1950年,圖靈在他的論文《ComputingMachineryandIntelligence》中首次提出了具身智能的概念。去年10月,楊立昆和本吉奧兩位圖靈獎獲得者,聯(lián)名一批致力于機(jī)器學(xué)習(xí)與神經(jīng)科學(xué)結(jié)合研究的科學(xué)家,發(fā)表了催化NeuroAI革命的宣言:《通往下一代人工智能》。
他們提出具身圖靈測試(TheEmbodiedTuringTest)作為NeuroAI的終極挑戰(zhàn),其核心在于高級感覺運(yùn)動能力,具體包括與世界互動、動物行為的靈活性、能源效率等特征。
所謂具身智能,是指具有身體體驗(yàn)的智能。所有的生物都是通過身體逐步產(chǎn)生智能的,只有沿著具身智能的方向,才會接近智能的本質(zhì)。
當(dāng)人工智能不僅僅是“耍嘴皮子”,而是身體力行地與周邊環(huán)境互動,并且不斷適應(yīng)時,才形成了完整的智能。思想實(shí)驗(yàn)的“缸中之腦”,只能給人帶來驚悚。
根據(jù)谷歌的說法,當(dāng)給出一個高級命令時,比如“把抽屜里的米片拿給我”,PaLM-E可以為一個有手臂的移動機(jī)器人平臺(由谷歌機(jī)器人開發(fā))生成一個行動計(jì)劃,然后機(jī)器人親自執(zhí)行。
PaLM-E分析來自機(jī)器人相機(jī)的數(shù)據(jù),而無需預(yù)先處理好的場景表示。這樣人類沒有必要再預(yù)處理或標(biāo)注數(shù)據(jù),讓機(jī)器人更自主地控制自己。
機(jī)器會產(chǎn)生韌性,并對環(huán)境做出反應(yīng)。例如,PaLM-E模型會指導(dǎo)一個機(jī)器人去廚房取一袋米片,它在執(zhí)行任務(wù)時,還能對付阻攔。當(dāng)有人試圖從機(jī)器人手中拿走米片并移走時,機(jī)器人能找到米片,再抓到手中。
被稱為“PaLM-E”,是因?yàn)樗诠雀璎F(xiàn)有的PaLM大型語言模型。谷歌通過添加感官信息和機(jī)器人控制,使PaLM“具身化”。
由于它基于語言模型,PaLM-E會進(jìn)行連續(xù)觀察,例如圖像或傳感器數(shù)據(jù),并將它們編碼為一系列與語言標(biāo)記大小相同的向量。這樣模型“理解”感官信息的方式,與處理語言相同。
除了RT-1機(jī)器人Transformer之外,PaLM-E還借鑒了谷歌之前在ViT-22B上的成果,這是2月份公布的視覺Transformer模型。ViT-22B已經(jīng)接受過各種視覺任務(wù)的訓(xùn)練,例如圖像分類、對象檢測、語義分割和圖像字幕。
使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器人控制,GoogleRobotics并不是唯一的研究團(tuán)隊(duì)。微軟最近的ChatGPTforRobotics論文,嘗試以類似的方式,將視覺數(shù)據(jù)和大型語言模型結(jié)合起來進(jìn)行機(jī)器人控制。
除了機(jī)器人技術(shù),谷歌研究人員還觀察到一些有趣的效果,使用大型語言模型的PaLM-E,表現(xiàn)出“正遷移”,可以將從一項(xiàng)任務(wù)中學(xué)到的知識和技能遷移到另一項(xiàng)任務(wù)中,與單任務(wù)機(jī)器人模型相比具有“顯著更高的性能”。
此外,他們還觀察到模型的規(guī)模效應(yīng):“語言模型越大,在視覺語言和機(jī)器人任務(wù)訓(xùn)練時就越能保持其語言能力——從數(shù)量上講,562BPaLM-E模型幾乎保留了其所有語言能力。”
研究人員發(fā)現(xiàn),盡管只接受了單圖像提示的訓(xùn)練,PaLM-E展示了涌現(xiàn)能力,如多模態(tài)思維鏈推理(允許模型分析包括語言和視覺信息的一系列輸入)和多圖像推理(使用多個圖像作為輸入來做出推理或預(yù)測)。從這個意義上說,隨著深度學(xué)習(xí)模型變得越來越復(fù)雜,PaLM-E涌現(xiàn)驚喜的趨勢似乎會持續(xù)下去。
谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場景中的更多應(yīng)用,例如家庭自動化或工業(yè)機(jī)器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。
“多模態(tài)”在AI圈內(nèi)流行,因?yàn)榫呱碇悄芡ㄏ騼蓚€方向,一個是人形機(jī)器人,一個是通用人工智能。