4000多個類似狗狗的機器人浩浩蕩蕩地向前行進的場景,即使是在模擬中也會給人帶來隱約的威脅感覺。但這可能會為機器學習新技巧指明方向。這個虛擬機器人軍團是由瑞士蘇黎世聯(lián)邦理工學院和英偉達的研究人員共同開發(fā)的,他們使用漫游的機器人訓練一種算法,然后該算法被用來控制現(xiàn)實世界中機器人的腿。
在模擬中,這些ANYmals機器面臨著重重挑戰(zhàn),比如虛擬景觀中的斜坡、臺階和陡峭山坡。每次機器人成功克服挑戰(zhàn)后,它們會“晉級”挑戰(zhàn)更困難的關口,進而推動控制算法變得更加復雜。在訓練期間,機器人能夠很容易地掌握上下樓梯的技能,但克服更復雜的障礙物需要更長時間。應對斜坡被證明特別困難,盡管有些虛擬機器人學會了如何滑下斜坡。
當最終的算法被轉移到真實版本的ANYmal上時,它能夠在樓梯和街區(qū)之間導航,但在更高的速度下遇到了問題。ANYmal是四條腿的機器人,體型與狗狗大小相當,頭上有傳感器,還有個可拆卸的機械臂。研究人員將其歸咎于傳感器感知真實世界的方式與模擬相比不夠準確。
類似的訓練可以幫助機器人學習各種有用的技能,從分揀包裹、縫紉衣服到收割莊稼等。該項目還反映了模擬和定制計算機芯片對應用人工智能(AI)未來發(fā)展的重要性。
加州大學伯克利分校教授、CoVariant聯(lián)合創(chuàng)始人皮特·阿貝爾(Pieter abbeel)表示:“從更高的層面上講,快速模擬真的是很棒的事情。”CoVariant是一家利用AI和模擬技術訓練機器人手臂為物流公司挑選和分揀物品的公司。他說,瑞士蘇黎世聯(lián)邦理工學院和英偉達的研究人員“獲得了不錯的提速。”
AI在訓練機器人完成真實世界的任務方面表現(xiàn)出了巨大潛力,這些任務不容易寫入軟件,或者需要某種形式的適應。例如,抓取笨拙、易滑或不熟悉的對象的能力,就不太可能被寫到代碼中。
4000個模擬機器人接受了強化學習的訓練,這是一種AI方法,靈感來自于對動物如何通過正反饋和負反饋學習的研究。當機器人移動它們的腿時,一個算法會判斷這對它們行走能力的影響,并相應地調(diào)整控制算法。
這些模擬運行在英偉達的專用AI芯片上,而不是計算機和服務器中使用的通用芯片上。因此,研究人員說,他們能夠在不到通常所需時間的百分之一時間內(nèi)訓練機器人。
使用專門的芯片也帶來了挑戰(zhàn),因為英偉達的芯片擅長渲染圖形和運行神經(jīng)網(wǎng)絡的關鍵計算,但它們不太適合模擬物理特性,如攀登和滑動。因此,研究人員不得不想出些聰明的軟件變通辦法,英偉達負責模擬技術的副總裁雷夫·勒巴雷迪安(Rev Lebardian)說:“我們花了很長時間才把事情做好。”
模擬、AI和專用芯片有可能推進機器人智能提升。英偉達已經(jīng)開發(fā)了軟件工具,使使用其芯片模擬和控制工業(yè)機器人變得更容易。該公司還在西雅圖建立了一個機器人研究實驗室,同時還銷售用于自動駕駛汽車的芯片和軟件。
開發(fā)3D視頻游戲軟件的Unity Technologies公司,也涉足開發(fā)適合機器人專家使用的軟件。該公司負責AI業(yè)務的高級副總裁丹尼·蘭格(Danny Lange)表示,Unity Technologies注意到有很多研究人員在使用其軟件進行模擬,因此他們讓它更逼真,并與其他機器人軟件兼容。Unity Technologies目前正在與瑞典Algoryx公司合作,該公司正在測試強化學習和模擬是否可以訓練林業(yè)機器人拾取原木。
強化學習已經(jīng)存在了幾十年,但由于其他技術的進步,最近已經(jīng)產(chǎn)生了許多值得關注AI里程碑。2015年,強化學習被用來訓練一臺計算機下圍棋,最近它已投入實際應用,執(zhí)行包括需要經(jīng)驗和判斷力的芯片設計自動化工作。問題是,這種學習方式需要大量的時間和數(shù)據(jù)支持。
例如,Open AI公司花了14天多的時間,通過強化學習,在多個CPU同時運行的情況下,訓練一只機械手以粗糙的方式操作魔方。每次機器人接受再培訓都要等待兩周,這可能會打消企業(yè)使用機器人的積極性。早期用強化學習訓練機器人的努力將這個過程分散到幾個現(xiàn)實世界的機器人上,物理模擬的改進使在虛擬環(huán)境中加速學習成為可能。
麻省理工學院的學生安德魯·斯皮爾伯格(Andrew Spielberg)說,這項新工作“對終端用戶來說非常令人興奮”,他曾使用類似的模擬方法為機器人提供新的物理設計。他指出,谷歌的一個研究小組已經(jīng)做了相關工作,通過將機器人拆分并在該公司定制的張量處理單元芯片上運行,加快了機器人的學習速度。
塔利·福特(Tully Foote)在開放機器人基金會(Open Robotics Foundation)管理著廣泛使用的開源機器人操作系統(tǒng)。他說,模擬對商業(yè)用戶來說越來越重要,“在部署到硬件之前,在現(xiàn)實場景中驗證軟件可以節(jié)省大量的時間和金錢”。它可以比實時運行得更快,永遠不會損壞機器人。如果出現(xiàn)錯誤,它可以立即自動重置。
但福特補充說,將機器人學習轉移到現(xiàn)實世界中要具有更大的挑戰(zhàn)性。他說:“現(xiàn)實世界中的不確定性要多得多,污垢、光線、天氣、硬件不均勻以及磨損等,這些都需要追蹤。”
英偉達副總裁勒巴雷迪安表示,用于訓練行走機器人的那種模擬最終可能也會影響到相關算法的設計。他說:“虛擬世界幾乎對一切都有價值,但其中最重要的一項肯定是為我們想要創(chuàng)造的AI構建游樂場或訓練場。” (騰訊科技審校/金鹿)