国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  機(jī)器人產(chǎn)業(yè)聯(lián)盟  ABB  發(fā)那科  機(jī)械手  碼垛機(jī)器人  機(jī)器人展覽 

谷歌打造「終結(jié)者」,ChatGPT版最強(qiáng)機(jī)器人AGI,動嘴操控007

   日期:2023-07-31     評論:0    
        一覺醒來,大模型的版本又更新了?

火遍全球的大語言模型,已經(jīng)Out了?

本次版本更新的主角是谷歌DeepMind推出的「視覺-語言-動作」(vision-language-action,VLA)模型!

論文地址:https://robotics-transformer2.github.io/assets/rt2.pdf

根據(jù)谷歌內(nèi)部披露,VLA模型已經(jīng)接入到機(jī)器人身上,能夠和現(xiàn)實世界進(jìn)行互動了!

這個機(jī)器人被谷歌命名為Robotic Transformer 2 (RT-2) ,它能夠從網(wǎng)絡(luò)、機(jī)器人的數(shù)據(jù)中學(xué)習(xí),還能將這些知識自主轉(zhuǎn)化為有效的指令。

簡單來說,你只需要對RT-2畫個餅,之后就可以等著RT-2把餅喂到你嘴邊了。

網(wǎng)友們紛紛表示:這真是泰酷辣!

谷歌DeepMind負(fù)責(zé)人表示,

長期以來,計算機(jī)在分析數(shù)據(jù)等復(fù)雜任務(wù)方面表現(xiàn)出色,但在識別和移動物體等簡單任務(wù)方面卻不盡如人意。通過 RT-2,我們正在縮小這一差距,幫助機(jī)器人解讀世界并與之互動,讓其對人類更加有用。

但俗話說,一口吃不成個大胖子,在RT-2成為RT-2之前,它的前輩Robotic Transformer 1 (RT-1)為RT-2打下了堅實的基礎(chǔ)。

     RT-1升級RT-2,VLM到VLA

RT-1是一種多任務(wù)模型,基于Transformer構(gòu)建,能夠?qū)D像、自然語言指令等作為輸入,并直接輸出標(biāo)記化動作。

RT-1 的架構(gòu):該模型采用文本指令和圖像集作為輸入,通過預(yù)先訓(xùn)練的 FiLM EfficientNet 模型將它們編碼為token,并通過 TokenLearner 壓縮它們。然后將這些輸入到 Transformer 中,Transformer 輸出操作token

因此,與一般機(jī)器相比,RT-1具有更好的性能和泛化能力。

其中,RT-1所搭載的視覺語言模型(vision-language models ,VLMs)扮演了關(guān)鍵角色。

VLM在互聯(lián)網(wǎng)級的數(shù)據(jù)集上進(jìn)行訓(xùn)練,因此在識別視覺、語言和跨語言合作這塊具有極高水平。

在RT-1基礎(chǔ)上升級過的RT-2仍以VLM 為基礎(chǔ),是谷歌研究員在辦公室、廚房等環(huán)境中使用13個RT-1的17個月數(shù)據(jù)上進(jìn)行訓(xùn)練的。

但RT-2比RT-1多了一個機(jī)器動作(action)的模態(tài)。

為了解決模型對機(jī)器控制的挑戰(zhàn),研究人員將RT-2的機(jī)器操作設(shè)置為模型的輸出標(biāo)記,并將其描述為可以由標(biāo)準(zhǔn)自然語言標(biāo)記器處理的字符串,如下所示:

RT-2 訓(xùn)練中使用的動作字符串的表示形式。這種字符串的示例可以是機(jī)器人動作標(biāo)記編號的序列,例如「1 128 91 241 5 101 127 217」

于是,解決加入動作模態(tài)(action)將模型與機(jī)器進(jìn)行聯(lián)結(jié)的挑戰(zhàn)后,VLM就升級為了VLA。

RT-2也在一系列的升級換代后,顯示出了驚人的學(xué)習(xí)能力和理解能力:

它能夠自己解釋全新的命令,通過執(zhí)行基本推理來響應(yīng)用戶的要求。

甚至在與思想鏈推理結(jié)合的情況下,RT-2能夠執(zhí)行多階段的語義推理。

如,決定哪個物體可以用作臨時的錘子(石頭),或者哪種類型的飲料最適合疲倦的人(一種能量飲料)。

RT-2架構(gòu)和訓(xùn)練:針對機(jī)器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)訓(xùn)練的VLM模型。生成的模型接收機(jī)器人看到的圖像并直接預(yù)測機(jī)器人要執(zhí)行的動作

     泛化能力提升62%

研究人員在在RT-2模型上進(jìn)行了一系列定性和定量實驗,一共進(jìn)行了6,000多次機(jī)器人試驗。

具體來講,谷歌團(tuán)隊探索了RT-2的三項技能:

- 符號理解

- 推理

- 人類識別

以上的每項任務(wù)都需要理解視覺語義概念,以及執(zhí)行機(jī)器人控制的能力。

比如,讓RT-2去撿起從桌子上掉下來的袋子,或者將香蕉放到2+1之和的數(shù)字的命令。

其中要求機(jī)器人對數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務(wù),將知識從基于網(wǎng)絡(luò)的數(shù)據(jù)轉(zhuǎn)化為可操作的。

數(shù)據(jù)中不存在的技能示例,需要通過網(wǎng)絡(luò)預(yù)訓(xùn)練進(jìn)行知識遷移

在所有類別中,研究人員觀察到,與之前的基線(例如之前的RT-1模型和Visual Cortex (VC-1) 等模型)相比,泛化性能提高了3倍以上,這些模型是在大型視覺數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。

緊急技能評估的成功率:RT-2 模型優(yōu)于RT-1和VC-1基線

此外,研究人員還進(jìn)行了一系列定量評估,首先是機(jī)器人數(shù)據(jù)中有實例的原始RT-1 任務(wù),然后對機(jī)器人先前未見過的物體、背景和環(huán)境。

以上的任務(wù)可以讓機(jī)器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化。

機(jī)器人以前未見過的環(huán)境示例

RT-2保留了數(shù)據(jù)中「看到」的原始任務(wù)的能力,并提高了機(jī)器人在以前未見過場景中的性能,從RT-1的32%提高到了62%。

研究人員還觀察到,與僅視覺任務(wù)預(yù)訓(xùn)練的基線相比有顯著改進(jìn),例如VC-1和機(jī)器人操作的可重用表示 (R3M),以及使用VLM進(jìn)行對象識別的算法。

RT-2 在可見的分布內(nèi)任務(wù)上取得了高性能,并且在分布外未見的任務(wù)上優(yōu)于多個基線。

團(tuán)隊還在開源語言表(Language Table)機(jī)器人任務(wù)套件上評估了模型,模擬中的成功率高達(dá)90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基線模型有了大幅提高。

然后,他們還在現(xiàn)實世界中評估相同的模型,并展示了其泛化到新對象的能力。

如下所示,其中除了藍(lán)色立方體之外,沒有任何物體出現(xiàn)在訓(xùn)練中數(shù)據(jù)集。

RT-2在真實機(jī)器人語言表任務(wù)中表現(xiàn)良好

受到LLM中使用的CoT方法的啟發(fā),研究人員還將機(jī)器人控制與思維鏈推理相結(jié)合,以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和低級技能。

特別是,對RT-2的變體進(jìn)行了幾百個梯度步驟的微調(diào),以提高其聯(lián)合使用語言和動作的能力。

然后,研究人員還對數(shù)據(jù)進(jìn)行了擴(kuò)充,添加了一個額外的「計劃」步驟。

首先用自然語言描述機(jī)器人即將采取的動作的目的,然后是「動作」和動作標(biāo)記。

示例如下:

思想鏈推理能夠?qū)W習(xí)一個獨(dú)立的模型,該模型既可以規(guī)劃長期技能序列,又可以預(yù)測機(jī)器人的動作

通過此過程,RT-2可以執(zhí)行更多復(fù)雜的命令,這些命令需要推理完成用戶指令所需的中間步驟。

得益于VLM主干,RT-2還可以根據(jù)圖像和文本命令進(jìn)行規(guī)劃,從而實現(xiàn)基于視覺的規(guī)劃。

     通用機(jī)器人前景

RT-2的最新研究表明,視覺語言模型(VLM)可以轉(zhuǎn)化為強(qiáng)大的視覺語言動作(VLA)模型。

通過將VLM預(yù)訓(xùn)練與機(jī)器人數(shù)據(jù)相結(jié)合,可以直接控制機(jī)器人。

基于大模型PaLM-E和PaLI-X的兩個實例化,RT-2提升了機(jī)器人的策略。

更重要的是,還帶來了顯著更好的泛化能力、以及應(yīng)對突發(fā)問題的能力,繼承了網(wǎng)絡(luò)規(guī)模的視覺語言預(yù)-訓(xùn)練。

RT-2不僅是對現(xiàn)有VLM模型的簡單,而有效的修改,而且還展示了構(gòu)建通用實體機(jī)器人的前景。

該機(jī)器人可以推理、解決問題和解釋信息,以在現(xiàn)實中執(zhí)行各種任務(wù)世界。

或許,機(jī)器人總動員中,那個聰明的瓦力離我們不遠(yuǎn)了。

 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對其真實性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行
?