后疫情時代的科學(xué)家與產(chǎn)業(yè)人士,已經(jīng)找到機(jī)器人與人工智能發(fā)展的方向,我們將看到,他們會逐漸把重心放在技術(shù)發(fā)展的時速上,保證機(jī)器人在進(jìn)擊的道路上,適應(yīng)這個時代的節(jié)奏。
作者 | 吳彤
編輯 | 青暮
今年的CoRL落下帷幕,這個專注于機(jī)器人領(lǐng)域的新秀,再一次將機(jī)器人前端研究推至大眾面前。
今年的機(jī)器人研究有哪些看點(diǎn)?公開展示的11個機(jī)器人研究和最佳論文獎到底有何突破?與往年相比,今年的機(jī)器人研究有哪些不同?后續(xù)將會影響哪些產(chǎn)業(yè)?
帶著這些問題,AI科技評論深剖了今年的CoRL會議,與大家共同探討 「2021年最前沿的機(jī)器人研究」。
1
CoRL中的11demo
在公布今年最佳論文獎之前,CoRL展示了11個機(jī)器人項目,透露了本年度最受關(guān)注的機(jī)器人研究方向。
demo鏈接:https://www.robot-learning.org/program/demos
這11項中,其中四項為四足機(jī)器狗,即2,4,7,10,分別為瑞士ANYbotics的ANYmal 和杭州宇樹科技A1。
在性能上,它們都利用了機(jī)載本體感受和外感受反饋,將感官信息和所需的速度命令映射到腳步計劃中,實時、在線地適應(yīng)未見過的地形環(huán)境,表現(xiàn)顯著優(yōu)于其他腿式機(jī)器人。除此之外,它們還能在一系列運(yùn)動步態(tài)之間隨意切換,以最小化其能量消耗。
而它們背后的無模型強(qiáng)化學(xué)習(xí),也一舉成為腿式機(jī)器人運(yùn)動控制器開發(fā)中的最優(yōu)方法。
具體來說,無模型強(qiáng)化學(xué)習(xí)指智能體與環(huán)境進(jìn)行實時交互和探索,并直接對得到的經(jīng)驗數(shù)據(jù)進(jìn)行學(xué)習(xí),最終實現(xiàn)累積收益最大化或達(dá)到特定目標(biāo)。它不需要擬合環(huán)境動態(tài)模型,只要與環(huán)境的實時交互,就可以保證智能體漸近收斂得到最優(yōu)解。
擁有這種模型的四足機(jī)器狗,不僅能順利走出實驗室,還能在更復(fù)雜的場景中自我決策,成就名副其實的--“跟著感覺走”。
接著,在機(jī)器人感知領(lǐng)域,視覺領(lǐng)域的項目有兩項,即1,3;觸覺領(lǐng)域有三項,即6,8,9。
在CV領(lǐng)域,實時密集三維映射稱為密集SLAM(Simultaneous localization and mapping,同步定位與建圖),一直是機(jī)器人技術(shù)的主要挑戰(zhàn)之一,問題包括估計傳感器的自由度位姿和環(huán)境的三維重建。盡管目前存在RGB-D映射解決方案,但深度值不能簡單地從傳感器讀取并融合,單目攝像機(jī)成為性價比最高的方案。
TANDEM框架的創(chuàng)新之處在于,它在攝像機(jī)跟蹤方面優(yōu)于其他基于學(xué)習(xí)的單目視覺里程計(VO)方法,并展現(xiàn)出實時三維重建的性能。
具體來說,它采用了一種新的跟蹤前端,該前端使用由密集深度預(yù)測增量構(gòu)建的全局模型渲染的深度圖來執(zhí)行密集直接圖像對齊。其次,為了預(yù)測稠密的深度圖,作者提出了級聯(lián)視圖聚合MVSNet (CVA-MVSNet),能夠利用整個活動關(guān)鍵幀窗口,通過分層構(gòu)造具有自適應(yīng)視圖聚合的3D成本量來平衡關(guān)鍵幀之間的不同立體基線。最后,將預(yù)測的深度圖融合為一致的全局圖,并以截斷的帶符號距離函數(shù)(TSDF)體素網(wǎng)格表示。
而iMAP模型,則是第一個使用神經(jīng)隱式場景表示的 SLAM 系統(tǒng),能夠MLP 在沒有先驗數(shù)據(jù)的情況下在實時操作中進(jìn)行訓(xùn)練,構(gòu)建一個密集的、特定于場景的隱式 3D 占用和顏色模型。
除了視覺研究,機(jī)器人的觸覺研究也在今年展現(xiàn)出不俗的研究勢頭。
其中,ReSkin是一款利用機(jī)器學(xué)習(xí)和磁傳感技術(shù)的觸覺軟傳感器,能實現(xiàn)無源共形接觸(conformal contact),又能根據(jù)傳感器特性提供主動接觸數(shù)據(jù),可視化地表現(xiàn)其接觸定位和力預(yù)測。
此外,為解決長期以來軟傳感器壽命短、退化快的問題,ReSkin在設(shè)計中將磁傳感將電子電路從被動接口中分離出來,便于更換接口。
雖然目前的皮膚感知難以起步,但在現(xiàn)階段,研究者不約而同將目光聚焦在“指尖感應(yīng)”上,通過深度學(xué)習(xí)解讀高分辨率的觸覺數(shù)據(jù),可實現(xiàn)對手持物體的精細(xì)控制和輕而穩(wěn)的抓取。
最后,在機(jī)械臂運(yùn)動規(guī)劃的研究中,模仿學(xué)習(xí)成為今年熱點(diǎn)。
視覺模仿學(xué)習(xí)可以建模為一個狀態(tài)估計問題,狀態(tài)定義為對象交互開始時末端執(zhí)行器的姿勢。因此在學(xué)習(xí)中,無需使用大量演示或強(qiáng)化學(xué)習(xí)來明確學(xué)習(xí)策略,也無需儲存對與之交互的對象的任何先驗知識,而是訓(xùn)練一個自我監(jiān)督的姿態(tài)估計器,可從單個人類演示中學(xué)習(xí)各種技能,同時還產(chǎn)生一個穩(wěn)定且可解釋的控制器。
而重頭戲--最佳論文獎,則將研究聚焦在“靈巧手”上。
2
最佳論文獎:靈巧手
團(tuán)隊三人來自麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室 (MIT CSAIL),分別為陳濤、徐捷,以及陳濤的博導(dǎo)Pulkit Agrawal。
巧的是,陳濤與徐捷同為2016年本科畢業(yè),分別畢業(yè)于上海交通大學(xué)的機(jī)械工程及自動化專業(yè)與清華大學(xué)計算機(jī)科學(xué)與技術(shù)系。目前,兩人同在MIT CSAIL實驗室,各自師從于Improbable AI實驗室的Pulkit Agrawal教授與計算設(shè)計和制造組(CDFG)的Wojciech Matusik教授。
在研究方向上,兩人各有側(cè)重,陳濤擅長機(jī)器人學(xué)習(xí)、操作和導(dǎo)航;徐捷擅長機(jī)器人仿真、設(shè)計協(xié)同優(yōu)化與模擬現(xiàn)實,這為兩人在靈巧手的合作上奠定了最基本的優(yōu)勢。
從左至右為陳濤、徐捷、Pulkit Agrawal
在CoRL會后,AI科技評論聯(lián)系到陳濤,對項目的研究思路和三人的工作做了詳細(xì)的了解。陳濤談到,這個項目最大的貢獻(xiàn)是為大家提供了一種研究思路:如何用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練靈巧手控制器,并且展示了機(jī)械手在最為極端的情況(手面朝下)下轉(zhuǎn)動形狀任意的物體。研究還發(fā)現(xiàn),當(dāng)靈巧手控制器足夠魯棒時,即使不知道物體形狀信息,也可以以高成功率轉(zhuǎn)動任意物體到指定朝向。
論文中表示,這個靈巧手有 24 個自由度,已通過無模型框架重新定位了超2000個形狀各異的物體,具有非常高的通用性。
對于許多小的圓形物體,比如蘋果、網(wǎng)球、彈珠,成功率接近 100%,對于更復(fù)雜的物體,如勺子、螺絲刀或剪刀,則接近 30%。研究發(fā)現(xiàn),成功率因物體形狀而異,接下來還要基于對象形狀來訓(xùn)練模型來。
在性能上,這個靈巧手不僅能夠借助桌子平臺上向上和向下重定向物體,還能免除桌子支撐,在空中重定向,表現(xiàn)接近人手。
左邊為物體應(yīng)該定向的姿勢,右邊為定向演示。該圖為借助桌子支撐的重定向展示
空中重定向,且手掌向下,需要考慮重力因素
空中重新定向,且手掌向上,物體的形狀復(fù)雜性加大。看這個靈活度,很適合盤核桃
在靈巧手研究領(lǐng)域,國內(nèi)外都不乏研究者,但是目前使用最多的控制器,形式上無非是真空式吸盤或者平行夾爪。性能上,它們的優(yōu)點(diǎn)在于抓取速度快且裝載系統(tǒng)的成本低,但缺點(diǎn)在于自由度有限,靈活度不高。
陳濤舉了一個例子:如果人手是鉗子的形狀,那么我們只能控制手部的打開和閉合,這種情況下,我們還能使用我們家里的很多工具嗎,比如剪刀,螺絲刀等。而這,就是“靈巧手”研究所在。
“我們希望未來能進(jìn)入人們?nèi)粘I畹臋C(jī)器人,能夠幫我們處理最基本的家務(wù),比如說清理餐具,打掃廚房客廳, 收拾衣物等。那么我們現(xiàn)有的機(jī)器人具有這個能力嗎?顯然是還不具備的。這個涉及到很多原因,其中一個物理條件就是是缺少靈巧的機(jī)械手。”陳濤談到。
那為什么要研究靈巧手重定向物體呢(轉(zhuǎn)動物體到目標(biāo)朝向)?其實這是一個很實用的技能:在我們生活中,擰螺絲,擰瓶蓋等動作都可以描述為物體在手上發(fā)生位移,由一開始的水平朝向變?yōu)樨Q直朝向,如果用靈巧手來實現(xiàn)這一高頻技能,機(jī)器人就會使用更多的工具,解決了大部分的場景應(yīng)用問題。
從機(jī)器人面向復(fù)雜場景的應(yīng)用到靈巧的末端控制器重定向研究,整個研究的轉(zhuǎn)向是極其自然又合理的。陳濤談到,靈巧手的研究源于自己和導(dǎo)師Pulkit Agrawal的一次飯后閑聊,隨后快速推進(jìn),前后周期不過三、四個月。但因為期間還給導(dǎo)師新開的一門課程做助教花費(fèi)了大量的時間,所以實際周期要更短。
在項目推進(jìn)中,徐捷的加入則使得整個研究更加健備。囿于當(dāng)時疫情情況,想要在真實機(jī)械手上模擬成為難題,于是研究物理仿真的徐捷輔助搭建環(huán)境,解決了靈巧手在仿真環(huán)境中的棘手問題。
涉及靈巧手的研究方法,陳濤談到,靈巧手的自由度很高,如果用傳統(tǒng)的控制理論以及建立動力學(xué)模型的方法,項目將很難推進(jìn)。
靈巧手本身是一個高維度的控制系統(tǒng),是否能跳過建立模型這一步,直接采用無模型的強(qiáng)化學(xué)習(xí)來訓(xùn)練靈巧手完成任務(wù)。
在一系列實驗后,他們發(fā)現(xiàn),如果只給控制器提供物體姿態(tài),手指關(guān)節(jié)角,物體目標(biāo)朝向的信息,那么控制器學(xué)習(xí)訓(xùn)練過程非常慢,而且最后訓(xùn)練完成后的成功率也不夠高。所以他們又想到,如何能加快控制器的訓(xùn)練?
受2019年CoRL的一篇研究自動駕駛的論文的啟發(fā),他們想到,雖然最后測試過程中我們想要一個只依賴于物體姿態(tài),手指關(guān)節(jié)角,物體目標(biāo)朝向信息的控制器,但是訓(xùn)練過程中我們并不應(yīng)該受限于只使用這些信息。也就是說,在訓(xùn)練過程中,我們可以使用更多的輔助信息來幫助加快控制器的訓(xùn)練。等到控制器學(xué)會這個技能后,再考慮去掉這些輔助信息。
陳濤又舉了個例子,我們駕校學(xué)車的時候,科目二訓(xùn)練場地會有一些輔助線或者輔助桿幫助學(xué)員掌握側(cè)方停車的技能。這些輔助線就是訓(xùn)練過程中的輔助信息,學(xué)員可以更快掌握側(cè)方停車的方法,隨后應(yīng)用到現(xiàn)實世界中。
所以在陳濤他們的研究中也采用了相似的思路。
首先在訓(xùn)練過程中,給控制器提供了許多額外的狀態(tài)信息,比如物體的速度信息。這些輔助信息的加入極大地加速控制器的訓(xùn)練。當(dāng)訓(xùn)練好這樣一個控制器后,就需要考慮怎么讓控制器沒有這些額外輔助信息也能工作。這時就用到了知識蒸餾(Knowledge Distillation)或者說模仿學(xué)習(xí)(Imitation Learning)的技術(shù)。
他們把之前訓(xùn)練好的控制器作為“教師”,然后訓(xùn)練第二個控制器,即”學(xué)生”。“學(xué)生”控制器不需要使用額外的輔助信息作為輸入,但通過模仿學(xué)習(xí)去模仿“教師”控制器的行為。最終,將獲得一個聰明的“學(xué)生”控制器,也就是可以用來訓(xùn)練機(jī)械手轉(zhuǎn)動大量形狀不一的物體。在測試中,陳濤他們一共重定向了2000多個形狀不同的物體。
解決了靈巧手學(xué)習(xí)框架的問題,接下來就是模擬現(xiàn)實應(yīng)用。在真實場景中,手做任務(wù)時會有各種朝向,其中最極端的一種情況就是手掌朝下:不僅要操縱物體,還要避免重力因素導(dǎo)致物體脫落。
陳濤談到,經(jīng)過實驗測試,我們發(fā)現(xiàn)現(xiàn)有的框架依然是夠用的,只是需要在每次轉(zhuǎn)物體開始前給物體姿態(tài)和手指關(guān)節(jié)角提供一個好的初始值,而非隨機(jī)初始化。這里好的初始值是指能在初始時刻讓手指觸碰到物體,但是因為物體形狀的復(fù)雜多樣,靈巧手的高維狀態(tài)空間,所以很難通過經(jīng)典方法比如運(yùn)動學(xué)逆解來獲取這些好的初始值。
為了解決這一問題,他們首先訓(xùn)練了一個借助桌子而向下抓取物體的控制器。那么抓起之后,自然而然就獲得了一個好的初始姿態(tài)設(shè)定。在此基礎(chǔ)上,就可以用之前提到的框架去訓(xùn)練控制器。
通過這樣的訓(xùn)練后,他們發(fā)現(xiàn)靈巧手朝下轉(zhuǎn)動物體成功率僅有50%左右,實際上,即使與人相比,這個成功率已經(jīng)很高了。陳濤說到,想象一下,你在閉眼時手掌朝下將一個任意形狀的物體轉(zhuǎn)到特定朝向,你的成功率有多高呢?
“但是我們依舊想進(jìn)一步提高成功率,由此想到物體重力的影響。這就啟發(fā)了我們下一個提高成功率的技巧:我們首先讓機(jī)械手在真空(無重力)環(huán)境下訓(xùn)練,等到它學(xué)會怎么轉(zhuǎn)東西了之后,我們逐漸增加重力加速度,并繼續(xù)訓(xùn)練控制器直到它能在正常的重力環(huán)境下轉(zhuǎn)動物體。我們稱這個技巧為「Gravity Curriculum」(重力課程)。”
最終,整個項目最出乎意料的發(fā)現(xiàn)是:無論是機(jī)械手朝上或朝下,都能成功訓(xùn)練一個控制器,使它在不知道物體形狀的情況下還能夠任意轉(zhuǎn)動形狀各異的物體。即論文中所說的“無感官預(yù)訓(xùn)練”。
最后,陳濤談到:靈巧手是在機(jī)器人領(lǐng)域尚未被充分研究的的一項研究,希望我們的工作能讓更多人關(guān)注到靈巧手操作這一領(lǐng)域,有更多人能進(jìn)入這一領(lǐng)域共同促進(jìn)靈巧手的發(fā)展。
但會議落幕,研究尚未結(jié)束。陳濤表示目前還會做一些拓展工作,比如將當(dāng)前在仿真器里訓(xùn)練好的控制器遷移到真實的機(jī)械手上。“我們希望能在真實機(jī)械手上也能實現(xiàn)轉(zhuǎn)動許多不同物體的目標(biāo)。如果之后有其他人在這款靈巧手中加入視覺的信息或觸覺的信息,使它的成功率更高,也要看在真實環(huán)境中的測試。”
未來,這款機(jī)械手可以轉(zhuǎn)移到真實機(jī)器人系統(tǒng),或應(yīng)用到物流和制造業(yè)中,比如物體打包,插槽裝配等;或應(yīng)用于家庭場景中,處理雜物等。總之,它將使得機(jī)器人距離我們更近。
3
“無模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)”組CP
總結(jié)來看,今年的CoRL中的研究有兩種:一、基于無模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)的機(jī)器人;二、基于視覺觸覺等感知的機(jī)器學(xué)習(xí)系統(tǒng)。
為何“無模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)”組了CP?
說到底,這是研究者們更加重視機(jī)器人在環(huán)境中的進(jìn)化結(jié)果。
比如,和ANYmal機(jī)器狗在現(xiàn)實環(huán)境中在線進(jìn)化不同,陳濤團(tuán)隊的靈巧手研究首先在仿真環(huán)境中訓(xùn)練,然后通過模仿學(xué)習(xí)一步一步提高泛化能力,并最終在真實的機(jī)械手上觀測遷移性能。
同樣,與陳濤團(tuán)隊的研究路徑相比,ANYmal機(jī)器狗強(qiáng)調(diào)在現(xiàn)實環(huán)境中進(jìn)化,從而獲得更合適的反饋,比如得到更適合機(jī)器“狗”的反饋數(shù)據(jù)。
總之,無論是用有模型的訓(xùn)練框架,還是用無模型的訓(xùn)練框架;是在真實環(huán)境內(nèi)中訓(xùn)練、在仿真環(huán)境中訓(xùn)練,各種方法并無優(yōu)劣,而是是否適配特定的機(jī)器本體(仿人,仿狗等等)。
拿無模型強(qiáng)化學(xué)習(xí)來說,它成為今年的CoRL會議上頻出的研究方法,其優(yōu)勢為何?
要解釋何為無模型強(qiáng)化學(xué)習(xí),首先要看向強(qiáng)化學(xué)習(xí)。
在定義中,強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式,它是通過與環(huán)境進(jìn)行交互來學(xué)習(xí),最終將累積收益最大化。而強(qiáng)化學(xué)習(xí)算法分為模型化強(qiáng)化學(xué)習(xí)和無模型強(qiáng)化學(xué)習(xí)。
基于模型的強(qiáng)化學(xué)習(xí)算法是智能體通過與環(huán)境交互獲得數(shù)據(jù),根據(jù)數(shù)據(jù)學(xué)習(xí)和擬合模型,智能體根據(jù)模型利用強(qiáng)化學(xué)習(xí)算法優(yōu)化自身的行為。
基于模型的強(qiáng)化學(xué)習(xí)算法的優(yōu)點(diǎn):由于智能體利用數(shù)據(jù)進(jìn)行模型的擬合,因此智能體將數(shù)據(jù)進(jìn)行了充分的利用,因為模型一旦擬合出來,那么智能體就可以根據(jù)模型來推斷智能體從未訪問過的區(qū)域。因為數(shù)據(jù)得到了最高的利用效率。智能體與環(huán)境之間的交互次數(shù)會急劇減少。用一個詞來概括基于模型的強(qiáng)化學(xué)習(xí)算法就是Data efficiency。
從基于模型的強(qiáng)化學(xué)習(xí)算法的過程我們也可以很容易看到它的缺點(diǎn):擬合的模型存在偏差,因此基于模型的強(qiáng)化學(xué)習(xí)算法一般不能保證最優(yōu)解漸近收斂。
而在無模型強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境進(jìn)行實時交互學(xué)習(xí)收斂得到最優(yōu)策略。由于沒有擬合環(huán)境模型,所以智能體對環(huán)境的感知和認(rèn)知只能通過與環(huán)境之間不斷的交互。這個交互量多大呢?在陳濤的研究中使用了2000個形狀各異的物體做仿真訓(xùn)練。如此多的交互次數(shù)使得無模型的強(qiáng)化學(xué)習(xí)算法效率很低,而且難以應(yīng)用到實際物理世界中。
然而,跟基于模型的強(qiáng)化學(xué)習(xí)算法相比,無模型的強(qiáng)化學(xué)習(xí)算法有一個很好的性質(zhì),該性質(zhì)是漸近收斂。也就是說,無模型的強(qiáng)化學(xué)習(xí)算法經(jīng)過無數(shù)次與環(huán)境的交互可以保證智能體得到最優(yōu)解。
然后從這點(diǎn)出發(fā),再尋找提高訓(xùn)練速度的方法,比如添加更多的輔助信息,然后再通過知識蒸餾方法去掉輔助信息。先做加法、
隨之而來的還有泛化問題,從仿真環(huán)境到現(xiàn)實環(huán)境,訓(xùn)練出在某個問題上泛化能力強(qiáng)的模型,才是機(jī)器學(xué)習(xí)最根本的目的。師生模仿學(xué)習(xí)成為這一階段的利器。
此外,為何小數(shù)據(jù)模型受到追捧,或許還能從近年來的技術(shù)研究范式看出端倪:
一方面,科學(xué)家們逐漸厭惡大數(shù)據(jù)研究,累瀆般的數(shù)據(jù)搬運(yùn)和數(shù)據(jù)標(biāo)記,勞神費(fèi)力又泛化能力弱。另一方面,隨著認(rèn)知神經(jīng)科學(xué)等學(xué)科的參與,生物進(jìn)化思想滲透到智能體迭代的研究中,科學(xué)家們逐漸認(rèn)識到:機(jī)器人研究,一端朝向“機(jī)器”,一端朝向“人”,只有將機(jī)器人置于環(huán)境中進(jìn)化,才能學(xué)到人類最根本的學(xué)習(xí)范式:經(jīng)驗學(xué)習(xí)。
反思機(jī)器人與自己的數(shù)據(jù)化生存,成為研究者走出研究囹圄的第一步。
然而,技術(shù)并非抽象生存,將機(jī)器人置于環(huán)境進(jìn)化中,其背后的科學(xué)家處于何種浪潮?
4
后疫情時代的機(jī)器人研究
后疫情時代,很多故事圍繞機(jī)器人。但不樂見的是,疫情并未結(jié)束,不時以一種幽怨的方式臨場。兩年來,這種非常態(tài)化的社會環(huán)境,如何籠罩機(jī)器人的前端研究?
以應(yīng)用場景劃分,機(jī)器人劃分為工業(yè)、服務(wù)、醫(yī)療三大領(lǐng)域,隨著機(jī)器人硬件市場規(guī)模持續(xù)增長與迭代,機(jī)器人的底層研發(fā)邏輯也在改變:第一階段,機(jī)器人以“機(jī)械”名義入場,成為人類感官的延伸,如醫(yī)療手術(shù)機(jī)器臂。
第二階段,受疫情特殊社會化環(huán)境影響,機(jī)器人以“車”的形式再度登場,并發(fā)揮組織調(diào)度能力,延伸人的四肢,比如用于倉儲分類,干線運(yùn)輸,清潔服務(wù)等機(jī)器人。也是從這一階段開始,機(jī)器人玩家發(fā)力生活服務(wù)的最后一公里,愈發(fā)越接近人的環(huán)境,由此引出第三階段:面向非結(jié)構(gòu)化復(fù)雜場景的機(jī)器人。
隨著第三階段的到來,機(jī)器人的研發(fā)模式也在變化,一面是鋼鐵本體的擬人化,出現(xiàn)更多的仿生機(jī)器人,模仿生物的骨骼和外形結(jié)構(gòu);一面是機(jī)器人智力的融合化,開始調(diào)動“耳目口舌”等多模態(tài)信息并與環(huán)境交互。
目前,機(jī)器人本體控制和軟件算法的快速耦合正在擴(kuò)大機(jī)器人能夠自主執(zhí)行的任務(wù)范圍,換句話說,也就是機(jī)器人的可商業(yè)化場景。
回頭來看,非常態(tài)化的疫情環(huán)境更像是為機(jī)器人研發(fā)建構(gòu)了一間屋子,加快前端研發(fā)沿著多模態(tài)和環(huán)境進(jìn)化的方向發(fā)展。而機(jī)器人玩家在這個時間點(diǎn)瘋狂入局,更是為這階段的技術(shù)研發(fā)打了一道墻,既將機(jī)器人產(chǎn)業(yè)的視線縮小在“最后一公里”,又迫使前端科學(xué)家專注于機(jī)器人技術(shù)的可用性,盡快完成機(jī)器人智力的升級。
房間里打墻,除了更狹塞,也會更聚焦。往前往后沒有出路,只有喚醒體內(nèi)所有暗流,鼓裂頭頂上的一點(diǎn)。
在疫情后的第二年,CoRL也驗證了這一點(diǎn):多模態(tài)是通向機(jī)器人智慧的一條新路,無模型框架才能讓技術(shù)盡快走出實驗室。
說到底,技術(shù)是為人服務(wù)的。最后一公里的競爭,會更細(xì)分,也更有想象力。
億歐智庫曾對中國商用服務(wù)機(jī)器人及各細(xì)分市場均進(jìn)行測算,預(yù)期2025年中國商用服務(wù)機(jī)器人市場將突破1000億元規(guī)模,商用清潔機(jī)器人將呈現(xiàn)持續(xù)高增長至約749億元,終端配送(不含室外)機(jī)器人約達(dá)348億元,講解引導(dǎo)機(jī)器人約達(dá)62億元。
相比工業(yè)機(jī)器人來說,服務(wù)機(jī)器人離人更近,應(yīng)用范圍更廣,商業(yè)化程度也更高。
雖然疫情沒有消失,甚至自2019年12月后轉(zhuǎn)為常態(tài)化,但后疫情時代,產(chǎn)業(yè)端是否會再打一堵墻,都不再撼動機(jī)器人的前端研究。
然而,無模型強(qiáng)化學(xué)習(xí)通常需要大量的訓(xùn)練樣本和訓(xùn)練時間,如何提高數(shù)據(jù)利用率和學(xué)習(xí)效率成為無模型強(qiáng)化學(xué)習(xí)的研究重點(diǎn)。
所以,總體來看,CoRL中的三種研究模式各有側(cè)重:仿生機(jī)器狗的重點(diǎn)是測試無模型強(qiáng)化學(xué)習(xí)在環(huán)境交互中的收斂性能,靈巧手則是推進(jìn)最容易嫁接到機(jī)器人系統(tǒng)中的封裝模塊,視覺觸覺研究則是推進(jìn)多模態(tài)研究中的重要一環(huán)。
明年機(jī)器人會出現(xiàn)哪些重要的產(chǎn)學(xué)研發(fā)展,其實都離不開這三塊。