10月12日消息,人工智能研究實(shí)驗(yàn)室DeepMind近日為提高機(jī)器人的物體堆疊能力提出新基準(zhǔn)。
Deep Mind的研究小組通過RGB堆疊技術(shù)(RGB-Stacking)對機(jī)器人進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,評估多個(gè)研究對象的行為和動(dòng)作來提高機(jī)器人能力。該項(xiàng)技術(shù)利用放置在籃子內(nèi)紅色、藍(lán)色、綠色三種顏色的不同物體,對機(jī)器人手臂進(jìn)行訓(xùn)練,因此被稱作RGB堆疊。
一、推出機(jī)器人堆疊新基準(zhǔn),開源成果
對大多數(shù)人來說,將一個(gè)物體堆疊在另一個(gè)物體上是一項(xiàng)簡單的任務(wù),但即使是最精密的機(jī)器人也很難一次處理多項(xiàng)堆疊任務(wù)。堆疊動(dòng)作需要一系列不同的運(yùn)動(dòng)、感知和分析技能,包括與不同類型物體交互的能力,將這個(gè)簡單的人工任務(wù)提升為機(jī)器人技術(shù),是一個(gè)面臨巨大挑戰(zhàn)并極其復(fù)雜的任務(wù)。
DeepMind關(guān)于機(jī)器人學(xué)習(xí)的研究小組認(rèn)為,推進(jìn)機(jī)器人堆疊的最新技術(shù)將需要一個(gè)新的基準(zhǔn)。機(jī)器人學(xué)習(xí)會(huì)議 (the Conference on Robot Learning ,CoRL 2021)中發(fā)表的一篇論文中介紹了RGB堆疊,該項(xiàng)技術(shù)的任務(wù)是讓機(jī)器人學(xué)習(xí)如何抓住不同的物體并在彼此之間保持平衡。
雖然其他論文中已經(jīng)存在堆疊任務(wù)的相關(guān)基準(zhǔn),但研究人員認(rèn)為其研究的獨(dú)創(chuàng)性在于,研究對象選擇的多樣性以及驗(yàn)證其研究發(fā)現(xiàn)而進(jìn)行的評估。該論文的研究結(jié)果表明,模擬數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)的組合可用于學(xué)習(xí)“多對象操作”,這為機(jī)器人學(xué)習(xí)解決泛化新對象的問題提供了強(qiáng)大的基礎(chǔ)。
為了支持其他研究人員,該研究小組開源了一版模擬環(huán)境,并發(fā)布了他們用于構(gòu)建真實(shí)機(jī)器人RGB堆疊環(huán)境的設(shè)計(jì),以及用于3D打印的RGB對象模型信息,并且在未來將更廣泛地開放其機(jī)器人研究過程中使用的一系列圖書館資源和工具。
二、兩大測試三大階段,挖掘機(jī)器人學(xué)習(xí)潛能
RGB堆疊的目標(biāo)是通過強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)械臂堆疊不同形狀的物體。強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),它使機(jī)器人能夠利用自己動(dòng)作和經(jīng)驗(yàn)的反饋,并通過反復(fù)試驗(yàn)來學(xué)習(xí)。
RGB堆疊將一個(gè)抓手連接到籃子上方的機(jī)器人手臂上,籃子里放著紅、綠、藍(lán)不同顏色的三個(gè)物體。機(jī)器人必須在20秒內(nèi)將紅色物體堆疊在藍(lán)色物體上方,而綠色物體則作為障礙物來分散其注意力。

DeepMind的研究人員表示,這個(gè)學(xué)習(xí)過程可以確保機(jī)器人通過對多個(gè)對象集的訓(xùn)練獲得通用技能。RGB堆疊有意改變機(jī)器人抓取和堆疊的特性,這些特性定義了機(jī)器人如何抓取和堆疊每個(gè)對象,從而使機(jī)器人不斷超越更簡單的拾取和放置行為策略。
DeepMind研究小組的RGB堆疊基準(zhǔn)測試包括兩個(gè)不同難度的測試。在“技能掌握”測試中,其目標(biāo)是訓(xùn)練一個(gè)能夠熟練堆疊一組預(yù)定義的五個(gè)三元組的智能體;在“技能泛化”測試中,研究人員使用相同的三元組進(jìn)行評估,但在超過一百萬個(gè)可能的三元組對象上訓(xùn)練代理研究對象,為了測試泛化,這些訓(xùn)練對象中排除了被選擇在“技能掌握”中測試的三元組的對象組。其次,在這兩級測試中,又將機(jī)器學(xué)習(xí)管道分解為三個(gè)階段。
研究人員聲稱,使用RGB堆疊方法訓(xùn)練的機(jī)器人產(chǎn)生了“令人驚訝”的堆疊策略,并且出現(xiàn)對堆疊對象子集的“精通”現(xiàn)象。盡管如此,研究人員認(rèn)為這只觸及了機(jī)器人學(xué)習(xí)的表面內(nèi)容,而針對泛化面臨的挑戰(zhàn)仍未得到解決。
三、發(fā)布新基準(zhǔn),助推制造業(yè)再次繁榮
“隨著研究人員不斷努力解決機(jī)器人技術(shù)推廣落地的挑戰(zhàn),我們希望這個(gè)新的基準(zhǔn),連同我們發(fā)布的環(huán)境、設(shè)計(jì)和工具,有助于產(chǎn)生新的想法和方法,使操作更容易,機(jī)器人更有能力。”研究人員補(bǔ)充道。
隨著機(jī)器人越來越擅長堆疊和抓取物體,一些專家認(rèn)為,這種自動(dòng)化技術(shù)可能會(huì)推動(dòng)美國的制造業(yè)的新繁榮。在谷歌云和哈里斯民意調(diào)查最近的一項(xiàng)研究中,三分之二的制造商表示,日常運(yùn)營中人工智能技術(shù)的使用頻率正在增加,74%的制造商認(rèn)為他們能夠應(yīng)對目前瞬息萬變的工作環(huán)境。
其次,制造業(yè)公司預(yù)計(jì)在未來五年的生產(chǎn)效率將會(huì)隨著數(shù)字化轉(zhuǎn)型的發(fā)展而逐漸提高。麥肯錫與世界經(jīng)濟(jì)論壇(McKinsey’s research with the World Economic Forum)的研究表明,到2025年,實(shí)施傳統(tǒng)工業(yè)實(shí)踐自動(dòng)化“工業(yè)4.0”的制造商,其生產(chǎn)價(jià)值的創(chuàng)造潛力將達(dá)到3.7萬億美元。
結(jié)語:DeepMind新基準(zhǔn)推動(dòng)機(jī)器人行業(yè)進(jìn)程
在機(jī)器人學(xué)習(xí)技術(shù)的研究過程中,獲取數(shù)據(jù)較為困難,使得其發(fā)展面臨困境。作為通用人工智能領(lǐng)域的領(lǐng)軍企業(yè),DeepMind為解決機(jī)器人學(xué)習(xí)泛化問題提出新基準(zhǔn),并且主動(dòng)開放研究過程的相關(guān)資源,共享研究成果,有望推動(dòng)整個(gè)行業(yè)取得新進(jìn)展。
但顯而易見的是,機(jī)器人學(xué)習(xí)泛化問題仍需要長時(shí)間的探索,也是人工智能企業(yè)在未來發(fā)展面臨的重大挑戰(zhàn)。