近日,上海數(shù)字大腦研究院(簡稱“數(shù)研院”)成功用強(qiáng)化深度學(xué)習(xí)方法,將Transformer大模型應(yīng)用于四足機(jī)器人跨地形、跨具身運(yùn)動控制,讓不同具身的四足機(jī)器人成功在多種真實復(fù)雜地形上“化險為夷”,如履平地,為自由、自主的運(yùn)動控制奠定基礎(chǔ)。相關(guān)成果以兩篇論文的形式發(fā)表在國際機(jī)器人頂級會議ICRA2023上。(文末附文章鏈接)
四足機(jī)器人運(yùn)動控制的發(fā)展現(xiàn)狀
足式機(jī)器人常見的有雙足機(jī)器人和四足機(jī)器人,相比其他類型的機(jī)器人(例如輪式,履帶式),它們有著更好的靈活性和通過性,可以通過更多復(fù)雜地形。因此足式機(jī)器人的運(yùn)動控制一直是機(jī)器人領(lǐng)域研究熱點(diǎn)之一,在代替人類巡邏,搜救,故障檢測,服務(wù),偵查等現(xiàn)實場景中有著較為廣泛的應(yīng)用場景。
足式機(jī)器人的運(yùn)動控制大體上可以分為兩類方法。一類是基于傳統(tǒng)的控制方法,例如軌跡優(yōu)化(trajectoryoptimization)和模型預(yù)測控制(modelpredictivecontrol)。這類方法往往要求算法設(shè)計者有著充分的特定領(lǐng)域知識,如控制機(jī)器人的運(yùn)動學(xué)方程、地面的形狀、摩擦系數(shù)等。然而,這在復(fù)雜地形中往往是難以實現(xiàn)的。相比之下,另一類深度強(qiáng)化學(xué)習(xí)方法則更能出色完成通過復(fù)雜地形的任務(wù)。在模擬器中直接訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),再將其遷移到真實世界中,這種策略稱為“模擬到真實的遷移(sim-to-realtransfer)”。深度強(qiáng)化學(xué)習(xí)可以在很大程度上減少對特定領(lǐng)域知識的依賴,且訓(xùn)練出的策略往往表現(xiàn)出更強(qiáng)的魯棒性,因此被認(rèn)為是足式機(jī)器人運(yùn)動控制的一種具有前景的方法。
傳統(tǒng)深度學(xué)習(xí)模型的容量有限,難以支持機(jī)器人在更復(fù)雜的地形環(huán)境中的控制,目前為止,大部分強(qiáng)化學(xué)習(xí)算法都只針對一個固定的機(jī)器人具身(embodiment)進(jìn)行訓(xùn)練。強(qiáng)化學(xué)習(xí)訓(xùn)練完成的控制器只能應(yīng)用于一個機(jī)器人,一旦機(jī)器人的硬件特性發(fā)生改變,其控制器往往需要從頭開始訓(xùn)練。近年來,一些基于強(qiáng)化學(xué)習(xí)方法嘗試為不同具身(例如不同形狀)的機(jī)器人設(shè)計通用控制器,例如使用模塊化網(wǎng)絡(luò)架構(gòu)、基于機(jī)器人條件的策略、基于圖神經(jīng)網(wǎng)絡(luò)的方法。但部分方法目前僅在仿真環(huán)境中進(jìn)行驗證,未在真實機(jī)器人上驗證可行。由于機(jī)器人形態(tài)與控制方法之間復(fù)雜的關(guān)系,設(shè)計一個跨具身的機(jī)器人控制器目前還是一個有挑戰(zhàn)性的問題。
以Transformer序列模型為基礎(chǔ)的控制框架TERT和EAT
相比傳統(tǒng)深度學(xué)習(xí)模型,Transformer序列模型有著更大的模型容量以及更強(qiáng)的泛化性,在自然語言處理和計算機(jī)視覺等領(lǐng)域的復(fù)雜多任務(wù)上取得了不錯的成績。因此,我們探究將Transformer模型應(yīng)用于足式機(jī)器人控制的可能性,并提出了針對跨地形四足機(jī)器人運(yùn)動控制框架TerrainTransformer(TERT)和跨具身的四足機(jī)器人運(yùn)動控制框架Embodiment-awareTransformer(EAT)。

圖一:TerrainTransformer訓(xùn)練框架
如圖一所示,TERT訓(xùn)練框架包括離線預(yù)訓(xùn)練和在線修正兩個階段。首先在離線預(yù)訓(xùn)練階段,我們借鑒廣泛應(yīng)用于機(jī)器人控制的特權(quán)學(xué)習(xí)(privilegedlearning)方法,在模擬器提供特權(quán)信息(如地形信息,物理參數(shù))的情況下使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練一個教師策略(TeacherPolicy),以最大化設(shè)定的獎勵函數(shù)。教師策略可以在模擬器中取得近似最優(yōu)的成績,但卻無法在真實世界直接應(yīng)用。之后,我們使用教師策略和模擬器交互搜集數(shù)據(jù),并訓(xùn)練Transformer根據(jù)過往歷史T步的觀測、動作序列預(yù)測教師動作。
通過離線預(yù)訓(xùn)練階段得到的Transformer模型雖然可以在教師策略搜集得到的數(shù)據(jù)集上達(dá)到較小的損失函數(shù),但在測試時卻并不能達(dá)到滿意的效果。這是因為在測試時Transformer輸入中的動作序列并不是來自教師策略,而是來自本身Transformer之前的輸出動作,動作序列的不同會間接導(dǎo)致輸入的觀測序列的不同,從而進(jìn)一步影響算法的性能。為了解決這種由輸入分布不同所帶來的性能影響,我們提出在離線預(yù)訓(xùn)練階段后加入一個在線修正階段。具體地說,在線修正階段(圖一下方),使用Transformer輸出的動作和模擬環(huán)境交互,同時使用教師策略給出目標(biāo)動作,之后再訓(xùn)練Transformer根據(jù)自己經(jīng)歷過的觀測、動作序列作為輸入預(yù)測教師的動作。

具有可變前后腿長度以及軀干長度的四足機(jī)器人
而對于跨具身的四足機(jī)器人控制,數(shù)研院引入向量e表示機(jī)器人具身,e包括機(jī)器人前小腿長度、后小腿長度與軀干長度等。EAT通過在模擬器中訓(xùn)練M個不同具身的機(jī)器人控制策略,并使用這M個策略分別搜集對應(yīng)具身下的專家數(shù)據(jù)。為了使得Transformer模型能完成多種具身的泛化,每條軌跡還會包括搜集數(shù)據(jù)的機(jī)器人具身向量e。之后,EAT在混合專家數(shù)據(jù)集上訓(xùn)練Transformer,通過歷史觀測、動作以及具身向量e預(yù)測下一個專家動作。
四足機(jī)器人真機(jī)實景實驗
數(shù)研院首先在宇樹的A1四足機(jī)器人上對比了TERT與其他方法在不同地形上的控制效果,TERT可以成功通過九種復(fù)雜的地形。相比之下,使用傳統(tǒng)強(qiáng)化學(xué)習(xí)方法控制的機(jī)器人可以在簡單地形,比如上下坡上正常行走,但卻無法通過較難的地形,比如沙坑,下樓梯。

數(shù)研院方法TERT(上坡)

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(上坡)

數(shù)研院方法TERT(沙坑)

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(沙坑)

數(shù)研院方法TERT(下樓梯)

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法(下樓梯)

數(shù)研院TERT在九種地形上的表現(xiàn)

之后,在可變具身的MiniCheetah機(jī)器人上驗證了EAT模型和其他方法。EAT模型可以在前后腿一樣長、前腿比后腿短、前腿比后腿長三種具身類型上完成較好的泛化。

具身1:前后小腿一樣長

具身2:前小腿比后小腿短

具身3:前小腿比后小腿長
使用EAT模型的另一個優(yōu)越之處在于機(jī)器人可以根據(jù)所處環(huán)境的不同變化自身的身體,達(dá)到一種類似進(jìn)化(evolution)的方式。例如,當(dāng)機(jī)器狗發(fā)現(xiàn)正常具身難以下樓梯時,可以選擇更長的軀干、更長的前腿和更短的后腿,最終得以通過樓梯。
未來,數(shù)研院將探索把視覺信息引入Transformer模型的控制中,進(jìn)一步實現(xiàn)決策大模型在更復(fù)雜多樣的環(huán)境上的魯棒控制。