以后垃圾分類這個(gè)活,可以交給機(jī)器人了。
強(qiáng)化學(xué)習(xí)(RL)可以讓機(jī)器人通過反復(fù)試錯(cuò)進(jìn)行交互,進(jìn)而學(xué)會(huì)復(fù)雜行為,并隨著時(shí)間的推移變得越來越好。之前谷歌的一些工作探索了RL如何使機(jī)器人掌握復(fù)雜的技能,例如抓取、多任務(wù)學(xué)習(xí),甚至是打乒乓球。雖然機(jī)器人強(qiáng)化學(xué)習(xí)已經(jīng)取得了長(zhǎng)足進(jìn)步,但我們?nèi)匀粵]有在日常環(huán)境中看到有強(qiáng)化學(xué)習(xí)加持的機(jī)器人。因?yàn)楝F(xiàn)實(shí)世界是復(fù)雜多樣的,并且隨著時(shí)間的推移不斷變化,這為機(jī)器人系統(tǒng)帶來巨大挑戰(zhàn)。然而,強(qiáng)化學(xué)習(xí)應(yīng)該是應(yīng)對(duì)這些挑戰(zhàn)的優(yōu)秀工具:通過不斷練習(xí)、不斷進(jìn)步和在工作中學(xué)習(xí),機(jī)器人應(yīng)該能夠適應(yīng)不斷變化的世界。
在谷歌的論文《DeepRLatScale:SortingWasteinOfficeBuildingswithaFleetofMobileManipulators》中,研究人員探討了如何通過最新的大規(guī)模實(shí)驗(yàn)解決這個(gè)問題,他們?cè)趦赡陜?nèi)部署了一支由23個(gè)支持RL的機(jī)器人組成的群組,用于在谷歌辦公樓中進(jìn)行垃圾分類和回收。使用的機(jī)器人系統(tǒng)將來自真實(shí)世界數(shù)據(jù)的可擴(kuò)展深度強(qiáng)化學(xué)習(xí)與來自模擬訓(xùn)練的引導(dǎo)和輔助對(duì)象感知輸入相結(jié)合,以提高泛化能力,同時(shí)保留端到端訓(xùn)練優(yōu)勢(shì),通過對(duì)240個(gè)垃圾站進(jìn)行4800次評(píng)估試驗(yàn)來驗(yàn)證。

論文地址:
https://rl-at-scale.github.io/assets/rl_at_scale.pdf
問題設(shè)置
如果人們沒有正確分類垃圾,成批的可回收物品可能會(huì)受到污染,堆肥可能會(huì)被不當(dāng)丟棄到垃圾填埋場(chǎng)。在谷歌的實(shí)驗(yàn)中,機(jī)器人在辦公樓周圍漫游,尋找“垃圾站”(可回收垃圾箱、堆肥垃圾箱和其它垃圾箱)。機(jī)器人的任務(wù)是到達(dá)每個(gè)垃圾站進(jìn)行垃圾分類,在不同垃圾箱之間運(yùn)輸物品,以便將所有可回收物品(罐頭、瓶子)放入可回收垃圾箱,將所有可堆肥物品(紙板容器、紙杯)放入堆肥垃圾箱,其他所有東西都放在其它垃圾箱里。
其實(shí)這項(xiàng)任務(wù)并不像看起來那么容易。僅僅是撿起人們?nèi)舆M(jìn)垃圾箱的不同物品的子任務(wù),就已經(jīng)是一個(gè)巨大的挑戰(zhàn)。機(jī)器人還必須為每個(gè)物體識(shí)別合適的垃圾箱,并盡可能快速有效地對(duì)它們進(jìn)行分類。在現(xiàn)實(shí)世界中,機(jī)器人會(huì)遇到各種獨(dú)特的情況,比如以下真實(shí)辦公樓的例子:

從不同的經(jīng)驗(yàn)中學(xué)習(xí)
在工作中不斷學(xué)習(xí)是有幫助的,但在達(dá)到這一點(diǎn)之前,需要用一套基本的技能來引導(dǎo)機(jī)器人。為此,谷歌使用了四種經(jīng)驗(yàn)來源:(1)簡(jiǎn)單的手工設(shè)計(jì)策略,成功率很低,但有助于提供初步經(jīng)驗(yàn);(2)模擬訓(xùn)練框架,使用模擬-真實(shí)的遷移來提供一些初步的垃圾分類策略;(3)“robotclassrooms”,機(jī)器人使用有代表性的垃圾站不斷練習(xí)(4)真實(shí)的部署環(huán)境,機(jī)器人在有真實(shí)垃圾的辦公樓里練習(xí)。

強(qiáng)化學(xué)習(xí)在該大規(guī)模應(yīng)用中的示意圖。使用腳本生成的數(shù)據(jù)引導(dǎo)策略的啟動(dòng)(左上圖)。然后訓(xùn)練一個(gè)從仿真到實(shí)際的模型,在仿真環(huán)境中生成額外的數(shù)據(jù)(右上圖)。在每個(gè)部署周期中,添加在“robotclassrooms”中收集的數(shù)據(jù)(右下圖)。在辦公樓中部署和收集數(shù)據(jù)(左下圖)。
這里使用的強(qiáng)化學(xué)習(xí)框架基于QT-Opt,實(shí)驗(yàn)室環(huán)境下的不同垃圾的抓取以及一系列其他技能也是使用該框架。在仿真環(huán)境中從簡(jiǎn)單的腳本策略開始引導(dǎo),應(yīng)用強(qiáng)化學(xué)習(xí),并使用基于CycleGAN的遷移方法,利用RetinaGAN使仿真圖像看起來更加逼真。
到此就開始進(jìn)入“robotclassrooms”。雖然實(shí)際的辦公樓可以提供最真實(shí)的體驗(yàn),但數(shù)據(jù)收集的吞吐量是有限的——有些時(shí)間會(huì)有很多垃圾需要分類,有些時(shí)間則不會(huì)有那么多。機(jī)器人在“robotclassrooms”中積累了大部分的經(jīng)驗(yàn)。
當(dāng)這些機(jī)器人在“robotclassrooms”接受訓(xùn)練時(shí),其它機(jī)器人正在3座辦公樓中的30個(gè)垃圾站上同時(shí)學(xué)習(xí)。
分類性能
最終,研究人員從“robotclassrooms”收集了54萬個(gè)試驗(yàn)數(shù)據(jù),在實(shí)際部署環(huán)境收集了32.5萬個(gè)試驗(yàn)數(shù)據(jù)。隨著數(shù)據(jù)的不斷增加,整個(gè)系統(tǒng)的性能得到了改善。研究者在“robotclassrooms”中對(duì)最終系統(tǒng)進(jìn)行了評(píng)估,以便進(jìn)行受控比較,根據(jù)機(jī)器人在實(shí)際部署中看到的情況設(shè)置了場(chǎng)景。最終系統(tǒng)的平均準(zhǔn)確率約為84%,隨著數(shù)據(jù)的增加,性能穩(wěn)步提高。在現(xiàn)實(shí)世界中,研究人員記錄了2021年至2022年實(shí)際部署的統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)系統(tǒng)可以按重量將垃圾桶中的污染物減少40%至50%。谷歌研究人員在論文提供了有關(guān)技術(shù)設(shè)計(jì)、各種設(shè)計(jì)決策的削弱研究以及實(shí)驗(yàn)的更詳細(xì)統(tǒng)計(jì)數(shù)據(jù)的更深入見解。
結(jié)論和未來工作展望
實(shí)驗(yàn)結(jié)果表明,基于強(qiáng)化學(xué)習(xí)的系統(tǒng)可以使機(jī)器人在真實(shí)辦公環(huán)境中處理實(shí)際任務(wù)。離線和在線數(shù)據(jù)的結(jié)合使得機(jī)器人能夠適應(yīng)真實(shí)世界中廣泛變化的情況。同時(shí),在更加受控的“課堂”環(huán)境中學(xué)習(xí),包括在仿真環(huán)境和實(shí)際環(huán)境中,可以提供強(qiáng)大的啟動(dòng)機(jī)制,使得強(qiáng)化學(xué)習(xí)的“飛輪”開始轉(zhuǎn)動(dòng),從而實(shí)現(xiàn)適應(yīng)性。
雖然已經(jīng)取得了重要成果,但還有很多工作需要完成:最終的強(qiáng)化學(xué)習(xí)策略并不總是成功的,需要更強(qiáng)大的模型來改善其性能,并將其擴(kuò)展到更廣泛的任務(wù)范圍。除此之外,其它經(jīng)驗(yàn)來源,包括來自其它任務(wù)、其它機(jī)器人,甚至是互聯(lián)網(wǎng)視頻,也可能會(huì)進(jìn)一步補(bǔ)充從仿真和”課堂“中獲得的啟動(dòng)經(jīng)驗(yàn)。這些都是未來需要解決的問題。