熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人機(jī)器人產(chǎn)業(yè)聯(lián)盟 ABB 發(fā)那科機(jī)械手碼垛機(jī)器人機(jī)器人展覽

谷歌打造「終結(jié)者」，ChatGPT版最強(qiáng)機(jī)器人AGI，動嘴操控007

日期：2023-07-31 評論：0

標(biāo)簽： 機(jī)器人智能科技谷歌人工智能

一覺醒來，大模型的版本又更新了？

火遍全球的大語言模型，已經(jīng)Out了?

本次版本更新的主角是谷歌DeepMind推出的「視覺-語言-動作」（vision-language-action，VLA）模型！

論文地址：https://robotics-transformer2.github.io/assets/rt2.pdf

根據(jù)谷歌內(nèi)部披露，VLA模型已經(jīng)接入到機(jī)器人身上，能夠和現(xiàn)實世界進(jìn)行互動了！

這個機(jī)器人被谷歌命名為Robotic Transformer 2 (RT-2) ，它能夠從網(wǎng)絡(luò)、機(jī)器人的數(shù)據(jù)中學(xué)習(xí)，還能將這些知識自主轉(zhuǎn)化為有效的指令。

簡單來說，你只需要對RT-2畫個餅，之后就可以等著RT-2把餅喂到你嘴邊了。

網(wǎng)友們紛紛表示：這真是泰酷辣！

谷歌DeepMind負(fù)責(zé)人表示，

長期以來，計算機(jī)在分析數(shù)據(jù)等復(fù)雜任務(wù)方面表現(xiàn)出色，但在識別和移動物體等簡單任務(wù)方面卻不盡如人意。通過 RT-2，我們正在縮小這一差距，幫助機(jī)器人解讀世界并與之互動，讓其對人類更加有用。

但俗話說，一口吃不成個大胖子，在RT-2成為RT-2之前，它的前輩Robotic Transformer 1 （RT-1）為RT-2打下了堅實的基礎(chǔ)。

RT-1升級RT-2，VLM到VLA

RT-1是一種多任務(wù)模型，基于Transformer構(gòu)建，能夠?qū)D像、自然語言指令等作為輸入，并直接輸出標(biāo)記化動作。

RT-1 的架構(gòu)：該模型采用文本指令和圖像集作為輸入，通過預(yù)先訓(xùn)練的 FiLM EfficientNet 模型將它們編碼為token，并通過 TokenLearner 壓縮它們。然后將這些輸入到 Transformer 中，Transformer 輸出操作token

因此，與一般機(jī)器相比，RT-1具有更好的性能和泛化能力。

其中，RT-1所搭載的視覺語言模型（vision-language models ，VLMs）扮演了關(guān)鍵角色。

VLM在互聯(lián)網(wǎng)級的數(shù)據(jù)集上進(jìn)行訓(xùn)練，因此在識別視覺、語言和跨語言合作這塊具有極高水平。

在RT-1基礎(chǔ)上升級過的RT-2仍以VLM 為基礎(chǔ)，是谷歌研究員在辦公室、廚房等環(huán)境中使用13個RT-1的17個月數(shù)據(jù)上進(jìn)行訓(xùn)練的。

但RT-2比RT-1多了一個機(jī)器動作（action）的模態(tài)。

為了解決模型對機(jī)器控制的挑戰(zhàn)，研究人員將RT-2的機(jī)器操作設(shè)置為模型的輸出標(biāo)記，并將其描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)記器處理的字符串，如下所示：

RT-2 訓(xùn)練中使用的動作字符串的表示形式。這種字符串的示例可以是機(jī)器人動作標(biāo)記編號的序列，例如「1 128 91 241 5 101 127 217」

于是，解決加入動作模態(tài)（action）將模型與機(jī)器進(jìn)行聯(lián)結(jié)的挑戰(zhàn)后，VLM就升級為了VLA。

RT-2也在一系列的升級換代后，顯示出了驚人的學(xué)習(xí)能力和理解能力：

它能夠自己解釋全新的命令，通過執(zhí)行基本推理來響應(yīng)用戶的要求。

甚至在與思想鏈推理結(jié)合的情況下，RT-2能夠執(zhí)行多階段的語義推理。

如，決定哪個物體可以用作臨時的錘子（石頭），或者哪種類型的飲料最適合疲倦的人（一種能量飲料）。

RT-2架構(gòu)和訓(xùn)練：針對機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)訓(xùn)練的VLM模型。生成的模型接收機(jī)器人看到的圖像并直接預(yù)測機(jī)器人要執(zhí)行的動作

泛化能力提升62%

研究人員在在RT-2模型上進(jìn)行了一系列定性和定量實驗，一共進(jìn)行了6,000多次機(jī)器人試驗。

具體來講，谷歌團(tuán)隊探索了RT-2的三項技能：

- 符號理解

- 推理

- 人類識別

以上的每項任務(wù)都需要理解視覺語義概念，以及執(zhí)行機(jī)器人控制的能力。

比如，讓RT-2去撿起從桌子上掉下來的袋子，或者將香蕉放到2+1之和的數(shù)字的命令。

其中要求機(jī)器人對數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務(wù)，將知識從基于網(wǎng)絡(luò)的數(shù)據(jù)轉(zhuǎn)化為可操作的。

數(shù)據(jù)中不存在的技能示例，需要通過網(wǎng)絡(luò)預(yù)訓(xùn)練進(jìn)行知識遷移

在所有類別中，研究人員觀察到，與之前的基線（例如之前的RT-1模型和Visual Cortex (VC-1) 等模型）相比，泛化性能提高了3倍以上，這些模型是在大型視覺數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。

緊急技能評估的成功率：RT-2 模型優(yōu)于RT-1和VC-1基線

此外，研究人員還進(jìn)行了一系列定量評估，首先是機(jī)器人數(shù)據(jù)中有實例的原始RT-1 任務(wù)，然后對機(jī)器人先前未見過的物體、背景和環(huán)境。

以上的任務(wù)可以讓機(jī)器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化。

機(jī)器人以前未見過的環(huán)境示例

RT-2保留了數(shù)據(jù)中「看到」的原始任務(wù)的能力，并提高了機(jī)器人在以前未見過場景中的性能，從RT-1的32%提高到了62%。

研究人員還觀察到，與僅視覺任務(wù)預(yù)訓(xùn)練的基線相比有顯著改進(jìn)，例如VC-1和機(jī)器人操作的可重用表示 (R3M)，以及使用VLM進(jìn)行對象識別的算法。

RT-2 在可見的分布內(nèi)任務(wù)上取得了高性能，并且在分布外未見的任務(wù)上優(yōu)于多個基線。

團(tuán)隊還在開源語言表（Language Table）機(jī)器人任務(wù)套件上評估了模型，模擬中的成功率高達(dá)90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基線模型有了大幅提高。

然后，他們還在現(xiàn)實世界中評估相同的模型，并展示了其泛化到新對象的能力。

如下所示，其中除了藍(lán)色立方體之外，沒有任何物體出現(xiàn)在訓(xùn)練中數(shù)據(jù)集。

RT-2在真實機(jī)器人語言表任務(wù)中表現(xiàn)良好

受到LLM中使用的CoT方法的啟發(fā)，研究人員還將機(jī)器人控制與思維鏈推理相結(jié)合，以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和低級技能。

特別是，對RT-2的變體進(jìn)行了幾百個梯度步驟的微調(diào)，以提高其聯(lián)合使用語言和動作的能力。

然后，研究人員還對數(shù)據(jù)進(jìn)行了擴(kuò)充，添加了一個額外的「計劃」步驟。

首先用自然語言描述機(jī)器人即將采取的動作的目的，然后是「動作」和動作標(biāo)記。

示例如下：

思想鏈推理能夠?qū)W習(xí)一個獨(dú)立的模型，該模型既可以規(guī)劃長期技能序列，又可以預(yù)測機(jī)器人的動作

通過此過程，RT-2可以執(zhí)行更多復(fù)雜的命令，這些命令需要推理完成用戶指令所需的中間步驟。

得益于VLM主干，RT-2還可以根據(jù)圖像和文本命令進(jìn)行規(guī)劃，從而實現(xiàn)基于視覺的規(guī)劃。

通用機(jī)器人前景

RT-2的最新研究表明，視覺語言模型（VLM）可以轉(zhuǎn)化為強(qiáng)大的視覺語言動作（VLA）模型。

通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合，可以直接控制機(jī)器人。

基于大模型PaLM-E和PaLI-X的兩個實例化，RT-2提升了機(jī)器人的策略。

更重要的是，還帶來了顯著更好的泛化能力、以及應(yīng)對突發(fā)問題的能力，繼承了網(wǎng)絡(luò)規(guī)模的視覺語言預(yù)-訓(xùn)練。

RT-2不僅是對現(xiàn)有VLM模型的簡單，而有效的修改，而且還展示了構(gòu)建通用實體機(jī)器人的前景。

該機(jī)器人可以推理、解決問題和解釋信息，以在現(xiàn)實中執(zhí)行各種任務(wù)世界。

或許，機(jī)器人總動員中，那個聰明的瓦力離我們不遠(yuǎn)了。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

• 走進(jìn)上海邦邦機(jī)器人有限公司	• 馬斯克直言特斯拉機(jī)器人執(zhí)行器緊缺！受益上市公
• 河北柏鄉(xiāng)：發(fā)力機(jī)器人產(chǎn)業(yè)	• “出圈”后的機(jī)器人如何賦能千行百業(yè)？來看大咖
• 搶灘機(jī)器人領(lǐng)域，地平線不再只盯著汽車芯片	• 900余名小選手參與大連首屆機(jī)器人錦標(biāo)賽開賽
• “頒獎禮儀”機(jī)器人亮相成都大運(yùn)會	• Google RT-2 VLA模型可幫助機(jī)器人更快速地在融
• 加州大學(xué)圣迭戈分校研發(fā)軟體機(jī)器人抓手僅用空	• “頒獎禮儀”機(jī)器人亮相成都大運(yùn)會

恰佩克獎	機(jī)器人高峰論壇	機(jī)氣林	ITES深圳工業(yè)展	機(jī)器人研究院	API數(shù)據(jù)	庫卡機(jī)器人
中國傳動網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

谷歌打造「終結(jié)者」，ChatGPT版最強(qiáng)機(jī)器人AGI，動嘴操控007

RT-1升級RT-2，VLM到VLA

泛化能力提升62%

通用機(jī)器人前景

谷歌打造「終結(jié)者」，ChatGPT版最強(qiáng)機(jī)器人AGI，動嘴操控007

RT-1升級RT-2，VLM到VLA