·PaLM-E是迄今為止已知的最大VLM(視覺語言模型)。作為一種多模態(tài)具身VLM,它不僅可以理解圖像,還能理解、生成語言,執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。它還展示出了強(qiáng)大的涌現(xiàn)能力(模型有不可預(yù)測的表現(xiàn))。
·通過將PaLM-E集成到控制回路中,它可以抵抗任務(wù)期間可能發(fā)生的中斷。在一個視頻示例中,研究人員從機(jī)器人手中抓取薯片并移動它們,但機(jī)器人找到薯片并再次抓取它們。
“距AGI(通用人工智能)的問世不會太遙遠(yuǎn),不過過程中肯定會出現(xiàn)許多誤判。預(yù)計(jì)在未來五年時間里,AI能夠在大多數(shù)人類目前從事的工作上表現(xiàn)得比人類更好。”在ChatGPT發(fā)布前一個月,OpenAI聯(lián)合創(chuàng)始人、ChatGPT項(xiàng)目的主要負(fù)責(zé)人John Schulman在強(qiáng)化學(xué)習(xí)播客《TalkRL》上說道。

AGI似乎并不遙遠(yuǎn),但對于如何通向AGI,目前研究者都還在探索。就在近日,一個新的研究成果發(fā)布——用視覺數(shù)據(jù)來增強(qiáng)語言處理能力。它的表現(xiàn)令人驚喜,展示出了強(qiáng)大的涌現(xiàn)能力(模型有不可預(yù)測的表現(xiàn))。
北京時間3月7日,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺語言模型——PaLM-E,參數(shù)量高達(dá)5620億(GPT-3的參數(shù)量為1750億)。
PaLM-E的應(yīng)用示意。“PaLM-E是迄今為止已知的最大VLM(視覺語言模型)。我們觀察到諸如多模態(tài)思維鏈推理(允許模型分析包括語言和視覺信息的一系列輸入),只接受單圖像提示訓(xùn)練的多圖像推理(使用多個圖像作為輸入來做出推理或預(yù)測)等涌現(xiàn)能力。”論文的第一作者、谷歌AI研究員Danny Driess說。
論文的第一作者、谷歌AI研究員Danny Driess的推文。
在這個意義上,隨著時間推移,深度學(xué)習(xí)模型變得越來越復(fù)雜,PaLM-E似乎延續(xù)了“產(chǎn)生驚喜”的這個趨勢。
PaLM-E(Pathways Language Model with Embodied)是PaLM-540B語言模型與ViT-22B視覺Transformer模型的結(jié)合。它被稱為“PaLM-E”是因?yàn)樗诠雀璎F(xiàn)有的“PaLM”大語言模型(類似于ChatGPT背后的技術(shù))。谷歌通過添加感官信息和機(jī)器人控制,使PaLM“具身化(embodiment,與身體聯(lián)系緊密的狀態(tài))”。由于它基于語言模型,PaLM-E會進(jìn)行連續(xù)觀察,例如圖像信息或傳感器數(shù)據(jù),并將它們編碼為一系列與語言標(biāo)記大小相同的向量。這允許模型以與處理語言相同的方式“理解”感官信息。PaLM-E還借鑒了谷歌之前在ViT-22B視覺Transformer模型上的工作,ViT-22B已經(jīng)接受過各種視覺任務(wù)的訓(xùn)練,例如圖像分類、對象檢測、語義分割和圖像字幕。
谷歌并不是唯一一個致力于使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器人控制的研究小組。這項(xiàng)特殊的工作類似于微軟最近的“ChatGPT for Robotics”論文,該論文嘗試以類似的方式將視覺數(shù)據(jù)和大型語言模型結(jié)合起來進(jìn)行機(jī)器人控制。
作為一種多模態(tài)具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。
機(jī)器人被要求去抽屜里拿薯片。根據(jù)谷歌的說法,當(dāng)給出一個高級命令時,比如“把抽屜里的薯片拿給我”,PaLM-E可以為一個有手臂的移動機(jī)器人平臺(由谷歌機(jī)器人開發(fā))生成一個行動計(jì)劃并執(zhí)行自己的行動。
PaLM-E通過分析來自機(jī)器人相機(jī)的數(shù)據(jù)來實(shí)現(xiàn)這一點(diǎn),而無需對場景進(jìn)行預(yù)處理。這消除了人類預(yù)處理或注釋數(shù)據(jù)的需要,并允許更自主的機(jī)器人控制。它還具有彈性,可以對環(huán)境做出反應(yīng)。例如,PaLM-E模型可以引導(dǎo)機(jī)器人從廚房取薯片袋,而且,通過將PaLM-E集成到控制回路中,它可以抵抗任務(wù)期間可能發(fā)生的中斷。在一個視頻示例中,研究人員從機(jī)器人手中抓取薯片并移動它們,但機(jī)器人找到薯片并再次抓取它們。
在另一個示例中,相同的PaLM-E模型通過具有復(fù)雜序列的任務(wù)自主控制機(jī)器人,這些任務(wù)以前需要人工指導(dǎo)。谷歌的研究論文解釋了PaLM-E如何將指令轉(zhuǎn)化為行動:
我們展示了PaLM-E在具有挑戰(zhàn)性和多樣化的移動操作任務(wù)上的性能。機(jī)器人需要根據(jù)人類的指令規(guī)劃一系列導(dǎo)航和操縱動作。例如,給出指令“我把飲料弄灑了,你能給我拿點(diǎn)東西來清理嗎”,機(jī)器人需要規(guī)劃一個包含“1.找到海綿,2.撿起海綿,3.拿來,4.放下海綿”的序列給用戶。受這些任務(wù)的啟發(fā),我們開發(fā)了3個用例來測試PaLM-E的具身推理能力:可供性預(yù)測、故障檢測和長期規(guī)劃。
PaLM-E識別圖像中的籃球明星科比·布萊恩特,并可以生成關(guān)于他的文本信息,比如他贏得了多少次冠軍。
研究人員寫道,PaLM-E也是一種“有效的視覺語言模型”。例如,它可以識別圖像中的籃球明星科比·布萊恩特,并可以生成關(guān)于他的文本信息,比如他贏得了多少次冠軍。在另一個例子中,PaLM-E看到一個交通標(biāo)志并解釋與之相關(guān)的規(guī)則。
PaLM-E看到一個交通標(biāo)志并解釋與之相關(guān)的規(guī)則。
除了機(jī)器人技術(shù),谷歌研究人員還觀察到一些有趣的效果,這些效果顯然來自PaLM-E的核心——大型語言模型。PaLM-E表現(xiàn)出了“正遷移”能力,即它可以將從一項(xiàng)任務(wù)中學(xué)到的知識和技能遷移到另一項(xiàng)任務(wù)中,從而與單任務(wù)機(jī)器人模型相比具有“顯著更高的性能”。
語言模型越大,在視覺語言和機(jī)器人任務(wù)訓(xùn)練時就越能保持其語言能力。
此外,他們還觀察到模型規(guī)模的趨勢:“語言模型越大,在視覺語言和機(jī)器人任務(wù)訓(xùn)練時就越能保持其語言能力——從數(shù)量上講,562B PaLM-E模型幾乎保留了其所有的語言能力。
谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場景中的更多應(yīng)用,例如家庭自動化或工業(yè)機(jī)器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。
“多模態(tài)”已成為一個流行語,我們可能會越來越多地聽到這個詞。因?yàn)楹芏喙菊谘邪l(fā)看起來能夠像人類一樣執(zhí)行一般任務(wù)的通用人工智能。