再現(xiàn)動(dòng)物的多樣化和敏捷性運(yùn)動(dòng)技能一直是機(jī)器人技術(shù)中的長(zhǎng)期挑戰(zhàn)。
在過(guò)去盡管手動(dòng)設(shè)計(jì)的控制器已經(jīng)能夠模擬許多復(fù)雜的行為,但是構(gòu)建這樣的控制器涉及耗時(shí)且困難的開(kāi)發(fā)過(guò)程,常常需要掌握每種技能的細(xì)微差別的大量專業(yè)知識(shí)。強(qiáng)化學(xué)習(xí)為自動(dòng)化控制器開(kāi)發(fā)中涉及的人工工作提供了一種頗具吸引力的選擇,但是,設(shè)計(jì)能夠從第三方行為中引發(fā)所需行為的學(xué)習(xí)目標(biāo),也可能需要大量專門技能。

但谷歌最近的一個(gè)視頻中展現(xiàn)了一種新的可能。前段時(shí)間谷歌AI實(shí)驗(yàn)室的一組研究人員正在努力開(kāi)發(fā)四足的像狗一樣的機(jī)器人,該機(jī)器人的成果已經(jīng)得到了證明,該機(jī)器人通過(guò)研究真正的狗如何運(yùn)動(dòng)來(lái)學(xué)習(xí)狗的行為。該團(tuán)隊(duì)已在Google AI博客上發(fā)布了他們正在做的工作的大綱。
谷歌AI博客本周發(fā)表的文章寫(xiě)道,其研究人員開(kāi)發(fā)出一種人工智能系統(tǒng),可以從動(dòng)物的動(dòng)作中學(xué)習(xí),從而賦予機(jī)器人更大的靈活性。研究人員認(rèn)為他們的方法可以促進(jìn)機(jī)器人的發(fā)展,這些機(jī)器人可以完成現(xiàn)實(shí)世界中的任務(wù),比如在多層倉(cāng)庫(kù)和配送中心之間運(yùn)輸物品。
通過(guò)模仿生物的動(dòng)作來(lái)訓(xùn)練機(jī)器人來(lái)執(zhí)行任務(wù)并不是什么新鮮事,例如,建造汽車的機(jī)器人手臂被教導(dǎo)如何模仿人類手臂的預(yù)期動(dòng)作來(lái)點(diǎn)焊或擰緊螺栓。但是通過(guò)向機(jī)器人展示真實(shí)的狗的視頻來(lái)教機(jī)器人絕對(duì)是全新的想法,而這就是Google前段時(shí)間所做的研究。

在這項(xiàng)工作中,他們提供了一個(gè)模仿學(xué)習(xí)系統(tǒng),使有腿機(jī)器人可以通過(guò)模仿真實(shí)世界的動(dòng)物來(lái)學(xué)習(xí)敏捷的運(yùn)動(dòng)技能。證明了通過(guò)利用參考運(yùn)動(dòng)數(shù)據(jù),一種基于學(xué)習(xí)的方法能夠自動(dòng)綜合控制器,以解決腿式機(jī)器人的各種指令庫(kù)行為。通過(guò)將有效的領(lǐng)域自適應(yīng)樣本技術(shù)整合到訓(xùn)練過(guò)程中,谷歌的這套系統(tǒng)能夠?qū)W習(xí)模擬中的自適應(yīng)策略,然后可以快速將其用于實(shí)際部署。為了證明其系統(tǒng)的有效性,他們訓(xùn)練了一個(gè)18自由度的四足機(jī)器人來(lái)執(zhí)行各種敏捷行為,包括從不同的運(yùn)動(dòng)步態(tài)到動(dòng)態(tài)的跳躍和轉(zhuǎn)彎。
在他們的研究放出的視頻中,該機(jī)器人是一只名為L(zhǎng)aikago的四足動(dòng)物,名字來(lái)源是緊隨Laika之后的(它是太空中的第一只狗),谷歌的研究人員通過(guò)向機(jī)器人展示真實(shí)狗的運(yùn)動(dòng)捕捉畫(huà)面,訓(xùn)練它像真正的狗一樣走路,奔跑,行動(dòng)、甚至是像真的狗一樣追逐它自己的尾巴。該團(tuán)隊(duì)的框架采用動(dòng)物(本案例中是一條狗)的動(dòng)作捕捉片段,并使用強(qiáng)化學(xué)習(xí)(reinforcement learning)來(lái)訓(xùn)練控制策略。為系統(tǒng)提供不同的參考動(dòng)作,使得研究人員能夠“教”一個(gè)四足的Unitree Laikago機(jī)器人完成一系列動(dòng)作,比如從快走(以每小時(shí)2.6英里的速度)到跳躍或轉(zhuǎn)彎。
為了驗(yàn)證他們的方法,研究人員首先收集了一組真實(shí)狗狗的各種技能數(shù)據(jù)。(訓(xùn)練主要是在物理模擬中進(jìn)行的,因此可以密切跟蹤參考運(yùn)動(dòng)的姿態(tài))。然后,通過(guò)在獎(jiǎng)勵(lì)函數(shù)中使用不同的動(dòng)作(該函數(shù)描述了行為者應(yīng)該如何表現(xiàn)),研究人員使用了大約2億個(gè)樣本來(lái)訓(xùn)練一個(gè)模擬機(jī)器人模仿動(dòng)作技能。
但是模擬器通常只能提供對(duì)真實(shí)世界的粗略近似。為了解決這個(gè)問(wèn)題,研究人員采用了一種適應(yīng)性技術(shù),通過(guò)改變機(jī)器人的質(zhì)量和摩擦等物理量來(lái)隨機(jī)化模擬中的動(dòng)力學(xué)。這些值是用編碼器映射到一個(gè)數(shù)字表示(即編碼)作為輸入傳遞給機(jī)器人控制策略。當(dāng)將該策略部署到一個(gè)真實(shí)的機(jī)器人上時(shí),研究人員刪除了編碼器,并搜索出一組允許機(jī)器人成功執(zhí)行技能的變量。

但視頻實(shí)際上首先是由AI系統(tǒng)進(jìn)行處理的,該系統(tǒng)會(huì)將視頻中的動(dòng)作轉(zhuǎn)換為L(zhǎng)aikago的動(dòng)畫(huà)版本。為了找出可能的解釋錯(cuò)誤,該團(tuán)隊(duì)向AI系統(tǒng)顯示了一只真實(shí)狗在行動(dòng)的多個(gè)定格視頻(因?yàn)閿?shù)字狗是由金屬,電線和馬達(dá)而不是骨頭,肌肉和肌腱制成的)。AI系統(tǒng)根據(jù)現(xiàn)實(shí)世界中可能遇到的場(chǎng)景,建立可能動(dòng)作的工具集。一旦模擬建立了知識(shí)庫(kù),就將其“大腦”上載到Laikago,然后Laikago將模擬中學(xué)到的知識(shí)作為自己行為的起點(diǎn)。
行動(dòng)中的Laikago視頻顯示,該技術(shù)確實(shí)行之有效。
但該團(tuán)隊(duì)表示,他們能夠在大約50次試驗(yàn)中,利用不到8分鐘的真實(shí)數(shù)據(jù),使一項(xiàng)策略適應(yīng)現(xiàn)實(shí)世界。此外,他們還演示了現(xiàn)實(shí)世界中的機(jī)器人學(xué)會(huì)了模仿狗的各種動(dòng)作,包括踱步和小跑,以及動(dòng)畫(huà)中的關(guān)鍵幀動(dòng)作,如動(dòng)態(tài)跳躍轉(zhuǎn)彎。
論文作者寫(xiě)道:“我們證明,通過(guò)利用參考運(yùn)動(dòng)數(shù)據(jù),一種單一的基于學(xué)習(xí)的方法能夠?yàn)橥仁綑C(jī)器人的各種行為自動(dòng)合成控制器。”“通過(guò)將高效樣本的領(lǐng)域適應(yīng)技術(shù)整合到訓(xùn)練過(guò)程中,我們的系統(tǒng)能夠在模擬中學(xué)習(xí)適應(yīng)策略,然后能夠快速適應(yīng)現(xiàn)實(shí)世界的部署。”

機(jī)器狗能夠像真正的狗一樣走路和行走,甚至模擬了追逐它的尾巴,但是,與其他先進(jìn)的機(jī)器人動(dòng)物(例如,來(lái)自Boston Dynamics的那些動(dòng)物)相比,它也有一些不足之處,因?yàn)檫@些動(dòng)物只是通過(guò)隨機(jī)編程來(lái)獲得技能,靈活性遠(yuǎn)遠(yuǎn)不夠,控制策略也并不完美——由于算法和硬件的限制,它不能學(xué)習(xí)高度動(dòng)態(tài)的行為,如大的跳躍和行為,也不像最好的手動(dòng)設(shè)計(jì)的控制器那樣穩(wěn)定。例如,機(jī)器狗跌跌撞撞或絆倒后重新站起來(lái)仍然很麻煩。
但是Google的研究人員并不畏懼,他們相信更多的研究將使他們的機(jī)器人帶來(lái)越來(lái)越逼真的行為。研究人員將繼續(xù)改進(jìn)控制器的魯棒性,并開(kāi)發(fā)能夠從其他運(yùn)動(dòng)數(shù)據(jù)來(lái)源(如視頻剪輯)學(xué)習(xí)的框架。