懶得打掃房間,那就直接交給機器人來做吧。

想吃零食了,機器人也能幫你服務,薯片和紙巾都給你貼心備好。

而且,這個機器人只需要一個單一的預訓練模型,就能從不同的感官輸入(如視覺、文本等)中生成命令,來執(zhí)行多種任務。
要知道,在以往機器人執(zhí)行命令時,處理這些不同的任務時,IO規(guī)范、神經網絡體系結構和目標等都是不一樣的。

現在,這個問題谷歌解決了,他們研究出了適用于機器人領域的Transformer模型:RT-1,甚至被人戲稱為RoboGPT。

△圖源:推特@JimFan
更重要的是,RT-1代碼已開源!
具體原理
先來整體看看RT-1,它執(zhí)行任務主要依靠的就是:7+3+1。
所謂7,是指它的手臂有7個自由度,分別是x,y,z,滾動,俯仰,偏航,手爪開口。
3是指基礎運動的三個維度,即在地面運動時的x,y,偏航。
1則指RT-1的整體控制,即切換這三種模式:控制手臂,基礎運動,或終止任務。
而RT-1執(zhí)行任務時,它的底層邏輯還是純粹的監(jiān)督式學習,要做好監(jiān)督式學習,就得具備兩個條件:
豐富的數據集和強大的神經結構。
首先是數據集,RT-1是在一個大規(guī)模的、真實世界的機器人數據集上進行訓練的,可以用4個數字來概括:13萬、700+、13、17,分別表示:
- 包括13萬個片段;
- 涵蓋700多個任務;
- 使用了13個機器人;
- 歷時17個月。
然后就是RT-1的結構了,它執(zhí)行任務的過程如下圖所示。

具體來說,圖像和文本先通過ImageNet預訓練的卷積神經網絡(EfficientNet)進行處理。
在這其中,為了確保文本和圖像同路能夠很好地被整合在一起,RT-1還使用了FiLM層,這是一種通過語言嵌入來調節(jié)視覺活動的經典技術。
這樣一來,RT-1便能很好地提取與手頭任務相關的視覺特征。

然后這些視覺特征會被TokenLearner模塊計算成一組緊湊的token傳遞給Transformer,這使得機器人的推理速度能夠提高2.4倍以上。
接下來Transformer會來處理這些token并產生離散化的操作token,而操作token便是一開始說的那個7+3+1了。
通過控制手臂,基礎運動以及模式便能夠執(zhí)行任務了。
在執(zhí)行任務的整個過程中,RT-1還會以3Hz的頻率執(zhí)行閉環(huán)控制和命令操作,直到產生終止操作或用完預先設置的時間步驟數。
不過話說回來,既然這個機器人能夠執(zhí)行多任務,那它執(zhí)行通用任務時的能力到底如何呢?
研究人員分別測試了RT-1對干擾物數量(第一行)、不同背景和環(huán)境(第二行)以及真實場景(第三行)的魯棒性。

并與其他基于模仿學習的基線進行比較,結果如下圖所示(第一項為訓練期間的表現)。
顯而易見,在每個任務類別中,RT-1都明顯優(yōu)于以前的模型。

研究團隊
這個機器人來自谷歌,研究團隊的成員也比較龐大,分別來自三個研究團隊:
首先是RoboticsatGoogle,它是GoogleResearch下的一個細分領域團隊,目前正在探索“如何教機器人可轉移的技能”。
并且他們也在不斷公開其訓練的數據,以幫助推進這一領域的最先進水平。
然后是EverydayRobots,它是X-登月工廠的一個細分領域團隊,和谷歌團隊一起工作,目前他們正在制造一種新型機器人,一個可以自學的,可以幫助任何人做任何事情的通用機器人。
還有就是GoogleResearch,它是Google公司內部進行各種最先進技術研究的部門,他們也有自己的開源項目,在GitHub公開。