中國航空報訊:在從工廠到手術(shù)室的多種工作場所里,不同大小和形狀的機器人變得越來越多。許多機器人都是通過機器學(xué)習(xí)的方法,在反復(fù)試驗和不斷犯錯中習(xí)得新技能的。最近,有一種新方法可以幫助這些技能在不同形狀的機器人之間進行遷移,以免每次都要從頭開始學(xué)習(xí)任務(wù)。在去年夏天舉辦的國際機器學(xué)習(xí)大會(ICML)上,美國卡內(nèi)基梅隆大學(xué)的計算機科學(xué)家劉星昱展示了這種新方法,他是這項研究的第一作者。“從實際應(yīng)用的角度來說,這項研究非常重要,”他說,“對于基礎(chǔ)研究而言,我認(rèn)為這也是一個值得研究的前沿問題。”


假設(shè)你有一個末端類似于人手的機械臂。你已經(jīng)訓(xùn)練它的5個指頭學(xué)會拿起一把錘子,以及將釘子釘入木板。但現(xiàn)在,你希望一種“二指夾爪”也能完成同樣的任務(wù)。為此,科學(xué)家創(chuàng)造出了一連串的虛擬機器人來模擬兩種機械臂之間的形態(tài):它會從最初類似于人手的結(jié)構(gòu)緩慢地轉(zhuǎn)變成一種新的形狀。每一個中間機器人都會通過練習(xí)指定的任務(wù),以此調(diào)整對應(yīng)的人工神經(jīng)網(wǎng)絡(luò)(一種計算模型),直到達到閾值成功率。緊接著,這個系統(tǒng)的控制器代碼就會被傳遞給這條“鏈”上的下一個中間機器人。
為了完成從虛擬機器人到目標(biāo)機器人的轉(zhuǎn)變,研究團隊創(chuàng)建出了一種共享式樹狀運動鏈(kinematic tree)。其中,一組代表肢體部分的節(jié)點被一些代表關(guān)節(jié)的鏈接器(link)連接了起來。為了將錘擊技能遷移到二指夾爪,這支團隊將原本結(jié)構(gòu)中代表三個指頭的節(jié)點的大小和權(quán)重都調(diào)整為零。對于每一個中間機器人來說,相應(yīng)指頭的大小和權(quán)重就會逐漸變小。
與此同時,控制它們的神經(jīng)網(wǎng)絡(luò)也必須學(xué)會作出調(diào)整。此外,研究人員還調(diào)整了訓(xùn)練方法,以便使中間機器人之間的變化不會太大也不會太小。
這個由卡內(nèi)基梅隆大學(xué)設(shè)計的系統(tǒng)叫作REvolveR(RobotEvolve Robot)。它的表現(xiàn)優(yōu)于機器學(xué)習(xí)的基本方法,比如從頭開始訓(xùn)練目標(biāo)機器人的方法。在錘擊任務(wù)和其他訓(xùn)練任務(wù)(包括移動一個球和打開一扇門)中,為了使機器人夾爪達到90%的成功率,此前最好的替代性訓(xùn)練方法需要比REvolveR多執(zhí)行29%~108%的試驗次數(shù),盡管這些替代性方法在訓(xùn)練過程中提供了更多的信息反饋。接下來,研究人員還使用其他類型的虛擬機器人測試他們的訓(xùn)練方法。例如,利用這種方法為一個蜘蛛狀機器人添加新的腿部結(jié)構(gòu),并讓它重新學(xué)會爬行。
維塔利·庫林(未參與這項研究)是英國牛津大學(xué)的計算機科學(xué)家,主要研究機器人和機器學(xué)習(xí),他表示:“我認(rèn)為這是一種非常巧妙的方法。”盡管通過將艱巨的挑戰(zhàn)分解成一系列小的部分,從而使AI能夠在不同的任務(wù)之間實現(xiàn)技能遷移的方法并不新鮮,“但在一個機器人與另一個機器人之間進行內(nèi)插,以此實現(xiàn)技能遷移,這是我以前從未想到的。”