火遍全球的大語言模型,已經(jīng)Out了?
本次版本更新的主角是谷歌DeepMind推出的「視覺-語言-動作」(vision-language-action,VLA)模型!
論文地址:https://robotics-transformer2.github.io/assets/rt2.pdf
根據(jù)谷歌內(nèi)部披露,VLA模型已經(jīng)接入到機(jī)器人身上,能夠和現(xiàn)實世界進(jìn)行互動了!
這個機(jī)器人被谷歌命名為Robotic Transformer 2 (RT-2) ,它能夠從網(wǎng)絡(luò)、機(jī)器人的數(shù)據(jù)中學(xué)習(xí),還能將這些知識自主轉(zhuǎn)化為有效的指令。
簡單來說,你只需要對RT-2畫個餅,之后就可以等著RT-2把餅喂到你嘴邊了。
網(wǎng)友們紛紛表示:這真是泰酷辣!
谷歌DeepMind負(fù)責(zé)人表示,
長期以來,計算機(jī)在分析數(shù)據(jù)等復(fù)雜任務(wù)方面表現(xiàn)出色,但在識別和移動物體等簡單任務(wù)方面卻不盡如人意。通過 RT-2,我們正在縮小這一差距,幫助機(jī)器人解讀世界并與之互動,讓其對人類更加有用。
但俗話說,一口吃不成個大胖子,在RT-2成為RT-2之前,它的前輩Robotic Transformer 1 (RT-1)為RT-2打下了堅實的基礎(chǔ)。
RT-1升級RT-2,VLM到VLA
RT-1是一種多任務(wù)模型,基于Transformer構(gòu)建,能夠?qū)D像、自然語言指令等作為輸入,并直接輸出標(biāo)記化動作。
RT-1 的架構(gòu):該模型采用文本指令和圖像集作為輸入,通過預(yù)先訓(xùn)練的 FiLM EfficientNet 模型將它們編碼為token,并通過 TokenLearner 壓縮它們。然后將這些輸入到 Transformer 中,Transformer 輸出操作token
因此,與一般機(jī)器相比,RT-1具有更好的性能和泛化能力。
其中,RT-1所搭載的視覺語言模型(vision-language models ,VLMs)扮演了關(guān)鍵角色。
VLM在互聯(lián)網(wǎng)級的數(shù)據(jù)集上進(jìn)行訓(xùn)練,因此在識別視覺、語言和跨語言合作這塊具有極高水平。
在RT-1基礎(chǔ)上升級過的RT-2仍以VLM 為基礎(chǔ),是谷歌研究員在辦公室、廚房等環(huán)境中使用13個RT-1的17個月數(shù)據(jù)上進(jìn)行訓(xùn)練的。
但RT-2比RT-1多了一個機(jī)器動作(action)的模態(tài)。
為了解決模型對機(jī)器控制的挑戰(zhàn),研究人員將RT-2的機(jī)器操作設(shè)置為模型的輸出標(biāo)記,并將其描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)記器處理的字符串,如下所示:
RT-2 訓(xùn)練中使用的動作字符串的表示形式。這種字符串的示例可以是機(jī)器人動作標(biāo)記編號的序列,例如「1 128 91 241 5 101 127 217」
于是,解決加入動作模態(tài)(action)將模型與機(jī)器進(jìn)行聯(lián)結(jié)的挑戰(zhàn)后,VLM就升級為了VLA。
RT-2也在一系列的升級換代后,顯示出了驚人的學(xué)習(xí)能力和理解能力:
它能夠自己解釋全新的命令,通過執(zhí)行基本推理來響應(yīng)用戶的要求。
甚至在與思想鏈推理結(jié)合的情況下,RT-2能夠執(zhí)行多階段的語義推理。
如,決定哪個物體可以用作臨時的錘子(石頭),或者哪種類型的飲料最適合疲倦的人(一種能量飲料)。
RT-2架構(gòu)和訓(xùn)練:針對機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)訓(xùn)練的VLM模型。生成的模型接收機(jī)器人看到的圖像并直接預(yù)測機(jī)器人要執(zhí)行的動作
泛化能力提升62%
研究人員在在RT-2模型上進(jìn)行了一系列定性和定量實驗,一共進(jìn)行了6,000多次機(jī)器人試驗。
具體來講,谷歌團(tuán)隊探索了RT-2的三項技能:
- 符號理解
- 推理
- 人類識別
以上的每項任務(wù)都需要理解視覺語義概念,以及執(zhí)行機(jī)器人控制的能力。
比如,讓RT-2去撿起從桌子上掉下來的袋子,或者將香蕉放到2+1之和的數(shù)字的命令。
其中要求機(jī)器人對數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務(wù),將知識從基于網(wǎng)絡(luò)的數(shù)據(jù)轉(zhuǎn)化為可操作的。
數(shù)據(jù)中不存在的技能示例,需要通過網(wǎng)絡(luò)預(yù)訓(xùn)練進(jìn)行知識遷移
在所有類別中,研究人員觀察到,與之前的基線(例如之前的RT-1模型和Visual Cortex (VC-1) 等模型)相比,泛化性能提高了3倍以上,這些模型是在大型視覺數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。
緊急技能評估的成功率:RT-2 模型優(yōu)于RT-1和VC-1基線
此外,研究人員還進(jìn)行了一系列定量評估,首先是機(jī)器人數(shù)據(jù)中有實例的原始RT-1 任務(wù),然后對機(jī)器人先前未見過的物體、背景和環(huán)境。
以上的任務(wù)可以讓機(jī)器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化。
機(jī)器人以前未見過的環(huán)境示例
RT-2保留了數(shù)據(jù)中「看到」的原始任務(wù)的能力,并提高了機(jī)器人在以前未見過場景中的性能,從RT-1的32%提高到了62%。
研究人員還觀察到,與僅視覺任務(wù)預(yù)訓(xùn)練的基線相比有顯著改進(jìn),例如VC-1和機(jī)器人操作的可重用表示 (R3M),以及使用VLM進(jìn)行對象識別的算法。
RT-2 在可見的分布內(nèi)任務(wù)上取得了高性能,并且在分布外未見的任務(wù)上優(yōu)于多個基線。
團(tuán)隊還在開源語言表(Language Table)機(jī)器人任務(wù)套件上評估了模型,模擬中的成功率高達(dá)90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基線模型有了大幅提高。
然后,他們還在現(xiàn)實世界中評估相同的模型,并展示了其泛化到新對象的能力。
如下所示,其中除了藍(lán)色立方體之外,沒有任何物體出現(xiàn)在訓(xùn)練中數(shù)據(jù)集。
RT-2在真實機(jī)器人語言表任務(wù)中表現(xiàn)良好
受到LLM中使用的CoT方法的啟發(fā),研究人員還將機(jī)器人控制與思維鏈推理相結(jié)合,以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和低級技能。
特別是,對RT-2的變體進(jìn)行了幾百個梯度步驟的微調(diào),以提高其聯(lián)合使用語言和動作的能力。
然后,研究人員還對數(shù)據(jù)進(jìn)行了擴(kuò)充,添加了一個額外的「計劃」步驟。
首先用自然語言描述機(jī)器人即將采取的動作的目的,然后是「動作」和動作標(biāo)記。
示例如下:
思想鏈推理能夠?qū)W習(xí)一個獨(dú)立的模型,該模型既可以規(guī)劃長期技能序列,又可以預(yù)測機(jī)器人的動作
通過此過程,RT-2可以執(zhí)行更多復(fù)雜的命令,這些命令需要推理完成用戶指令所需的中間步驟。
得益于VLM主干,RT-2還可以根據(jù)圖像和文本命令進(jìn)行規(guī)劃,從而實現(xiàn)基于視覺的規(guī)劃。
通用機(jī)器人前景
RT-2的最新研究表明,視覺語言模型(VLM)可以轉(zhuǎn)化為強(qiáng)大的視覺語言動作(VLA)模型。
通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,可以直接控制機(jī)器人。
基于大模型PaLM-E和PaLI-X的兩個實例化,RT-2提升了機(jī)器人的策略。
更重要的是,還帶來了顯著更好的泛化能力、以及應(yīng)對突發(fā)問題的能力,繼承了網(wǎng)絡(luò)規(guī)模的視覺語言預(yù)-訓(xùn)練。
RT-2不僅是對現(xiàn)有VLM模型的簡單,而有效的修改,而且還展示了構(gòu)建通用實體機(jī)器人的前景。
該機(jī)器人可以推理、解決問題和解釋信息,以在現(xiàn)實中執(zhí)行各種任務(wù)世界。
或許,機(jī)器人總動員中,那個聰明的瓦力離我們不遠(yuǎn)了。