国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  機(jī)械手  碼垛機(jī)器人  庫(kù)卡 

2021年最前沿的機(jī)器人研究:無(wú)模型框架擁抱現(xiàn)實(shí)應(yīng)用

   日期:2021-11-29     來(lái)源:百度新聞、追求新知、中國(guó)科學(xué)院科技戰(zhàn)略咨詢研究院    作者:angela     評(píng)論:0    
 “深耕科技前沿動(dòng)態(tài),解讀科技背后真相,瞄準(zhǔn)科技產(chǎn)品評(píng)測(cè)”

 

 

經(jīng)濟(jì)學(xué)家熊彼特認(rèn)為,所謂創(chuàng)新就是要”建立一種新的生產(chǎn)函數(shù)”,即"生產(chǎn)要素的重新組合”, 就是要把一種從來(lái)沒(méi)有的關(guān)于生產(chǎn)要素和生產(chǎn)條件的“新組合”引進(jìn)生產(chǎn)體系中去,以實(shí)現(xiàn)對(duì)生產(chǎn)要素或生條件的“新組合”。目前,機(jī)器人就是新的生產(chǎn)要素,要妥帖地縫合在社會(huì)生活中。

 

 

后疫情時(shí)代的科學(xué)家與產(chǎn)業(yè)人士,已經(jīng)找到機(jī)器人與人工智能發(fā)展的方向,我們將看到,他們會(huì)逐漸把重心放在技術(shù)發(fā)展的時(shí)速上,保證機(jī)器人在進(jìn)擊的道路上,適應(yīng)這個(gè)時(shí)代的節(jié)奏。

 

 

1

CoRL中的11demo

 

 

CoRL展示了11個(gè)機(jī)器人項(xiàng)目,透露了本年度最受關(guān)注的機(jī)器人研究方向。

 

 

這11項(xiàng)中,其中四項(xiàng)為四足機(jī)器狗,即2,4,7,10,分別為瑞士ANYbotics的ANYmal 和杭州宇樹(shù)科技A1。

 

 

在性能上,它們都利用了機(jī)載本體感受和外感受反饋,將感官信息和所需的速度命令映射到腳步計(jì)劃中,實(shí)時(shí)、在線地適應(yīng)未見(jiàn)過(guò)的地形環(huán)境,表現(xiàn)顯著優(yōu)于其他腿式機(jī)器人。除此之外,它們還能在一系列運(yùn)動(dòng)步態(tài)之間隨意切換,以最小化其能量消耗。

 

 

而它們背后的無(wú)模型強(qiáng)化學(xué)習(xí),也一舉成為腿式機(jī)器人運(yùn)動(dòng)控制器開(kāi)發(fā)中的最優(yōu)方法。

 

 

具體來(lái)說(shuō),無(wú)模型強(qiáng)化學(xué)習(xí)指智能體與環(huán)境進(jìn)行實(shí)時(shí)交互和探索,并直接對(duì)得到的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行學(xué)習(xí),最終實(shí)現(xiàn)累積收益最大化或達(dá)到特定目標(biāo)。它不需要擬合環(huán)境動(dòng)態(tài)模型,只要與環(huán)境的實(shí)時(shí)交互,就可以保證智能體漸近收斂得到最優(yōu)解。

 

 

擁有這種模型的四足機(jī)器狗,不僅能順利走出實(shí)驗(yàn)室,還能在更復(fù)雜的場(chǎng)景中自我決策,成就名副其實(shí)的--“跟著感覺(jué)走”。

 

 

接著,在機(jī)器人感知領(lǐng)域,視覺(jué)領(lǐng)域的項(xiàng)目有兩項(xiàng),即1,3;觸覺(jué)領(lǐng)域有三項(xiàng),即6,8,9。

 

 

在CV領(lǐng)域,實(shí)時(shí)密集三維映射稱為密集SLAM(Simultaneous localization and mapping,同步定位與建圖),一直是機(jī)器人技術(shù)的主要挑戰(zhàn)之一,問(wèn)題包括估計(jì)傳感器的自由度位姿和環(huán)境的三維重建。盡管目前存在RGB-D映射解決方案,但深度值不能簡(jiǎn)單地從傳感器讀取并融合,單目攝像機(jī)成為性價(jià)比最高的方案。

 

 

TANDEM框架的創(chuàng)新之處在于,它在攝像機(jī)跟蹤方面優(yōu)于其他基于學(xué)習(xí)的單目視覺(jué)里程計(jì)(VO)方法,并展現(xiàn)出實(shí)時(shí)三維重建的性能。

 

 

具體來(lái)說(shuō),它采用了一種新的跟蹤前端,該前端使用由密集深度預(yù)測(cè)增量構(gòu)建的全局模型渲染的深度圖來(lái)執(zhí)行密集直接圖像對(duì)齊。其次,為了預(yù)測(cè)稠密的深度圖,作者提出了級(jí)聯(lián)視圖聚合MVSNet (CVA-MVSNet),能夠利用整個(gè)活動(dòng)關(guān)鍵幀窗口,通過(guò)分層構(gòu)造具有自適應(yīng)視圖聚合的3D成本量來(lái)平衡關(guān)鍵幀之間的不同立體基線。最后,將預(yù)測(cè)的深度圖融合為一致的全局圖,并以截?cái)嗟膸Х?hào)距離函數(shù)(TSDF)體素網(wǎng)格表示。

 

 

而iMAP模型,則是第一個(gè)使用神經(jīng)隱式場(chǎng)景表示的 SLAM 系統(tǒng),能夠MLP 在沒(méi)有先驗(yàn)數(shù)據(jù)的情況下在實(shí)時(shí)操作中進(jìn)行訓(xùn)練,構(gòu)建一個(gè)密集的、特定于場(chǎng)景的隱式 3D 占用和顏色模型。

 

 

除了視覺(jué)研究,機(jī)器人的觸覺(jué)研究也在今年展現(xiàn)出不俗的研究勢(shì)頭。

 

 

其中,ReSkin是一款利用機(jī)器學(xué)習(xí)和磁傳感技術(shù)的觸覺(jué)軟傳感器,能實(shí)現(xiàn)無(wú)源共形接觸(conformal contact),又能根據(jù)傳感器特性提供主動(dòng)接觸數(shù)據(jù),可視化地表現(xiàn)其接觸定位和力預(yù)測(cè)。

 

 

此外,為解決長(zhǎng)期以來(lái)軟傳感器壽命短、退化快的問(wèn)題,ReSkin在設(shè)計(jì)中將磁傳感將電子電路從被動(dòng)接口中分離出來(lái),便于更換接口。

 

 

雖然目前的皮膚感知難以起步,但在現(xiàn)階段,研究者不約而同將目光聚焦在“指尖感應(yīng)”上,通過(guò)深度學(xué)習(xí)解讀高分辨率的觸覺(jué)數(shù)據(jù),可實(shí)現(xiàn)對(duì)手持物體的精細(xì)控制和輕而穩(wěn)的抓取。

 

 

最后,在機(jī)械臂運(yùn)動(dòng)規(guī)劃的研究中,模仿學(xué)習(xí)成為今年熱點(diǎn)。

 

 

視覺(jué)模仿學(xué)習(xí)可以建模為一個(gè)狀態(tài)估計(jì)問(wèn)題,狀態(tài)定義為對(duì)象交互開(kāi)始時(shí)末端執(zhí)行器的姿勢(shì)。因此在學(xué)習(xí)中,無(wú)需使用大量演示或強(qiáng)化學(xué)習(xí)來(lái)明確學(xué)習(xí)策略,也無(wú)需儲(chǔ)存對(duì)與之交互的對(duì)象的任何先驗(yàn)知識(shí),而是訓(xùn)練一個(gè)自我監(jiān)督的姿態(tài)估計(jì)器,可從單個(gè)人類演示中學(xué)習(xí)各種技能,同時(shí)還產(chǎn)生一個(gè)穩(wěn)定且可解釋的控制器。

 

 

而重頭戲--最佳論文獎(jiǎng),則將研究聚焦在“靈巧手”上。

 

 

 

2

最佳論文獎(jiǎng):靈巧手

 

 

團(tuán)隊(duì)三人來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (MIT CSAIL),分別為陳濤、徐捷,以及陳濤的博導(dǎo)Pulkit Agrawal。

 

 

巧的是,陳濤與徐捷同為2016年本科畢業(yè),分別畢業(yè)于上海交通大學(xué)的機(jī)械工程及自動(dòng)化專業(yè)與清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系。目前,兩人同在MIT CSAIL實(shí)驗(yàn)室,各自師從于Improbable AI實(shí)驗(yàn)室的Pulkit Agrawal教授與計(jì)算設(shè)計(jì)和制造組(CDFG)的Wojciech Matusik教授。

 

 

在研究方向上,兩人各有側(cè)重,陳濤擅長(zhǎng)機(jī)器人學(xué)習(xí)、操作和導(dǎo)航;徐捷擅長(zhǎng)機(jī)器人仿真、設(shè)計(jì)協(xié)同優(yōu)化與模擬現(xiàn)實(shí),這為兩人在靈巧手的合作上奠定了最基本的優(yōu)勢(shì)。

 

 

從左至右為陳濤、徐捷、Pulkit Agrawal

 

 

在CoRL會(huì)后,AI科技評(píng)論聯(lián)系到陳濤,對(duì)項(xiàng)目的研究思路和三人的工作做了詳細(xì)的了解。陳濤談到,這個(gè)項(xiàng)目最大的貢獻(xiàn)是為大家提供了一種研究思路:如何用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練靈巧手控制器,并且展示了機(jī)械手在最為極端的情況(手面朝下)下轉(zhuǎn)動(dòng)形狀任意的物體。研究還發(fā)現(xiàn),當(dāng)靈巧手控制器足夠魯棒時(shí),即使不知道物體形狀信息,也可以以高成功率轉(zhuǎn)動(dòng)任意物體到指定朝向。

 

 

論文中表示,這個(gè)靈巧手有 24 個(gè)自由度,已通過(guò)無(wú)模型框架重新定位了超2000個(gè)形狀各異的物體,具有非常高的通用性。

 

 

對(duì)于許多小的圓形物體,比如蘋果、網(wǎng)球、彈珠,成功率接近 100%,對(duì)于更復(fù)雜的物體,如勺子、螺絲刀或剪刀,則接近 30%。研究發(fā)現(xiàn),成功率因物體形狀而異,接下來(lái)還要基于對(duì)象形狀來(lái)訓(xùn)練模型來(lái)。

 

 

在性能上,這個(gè)靈巧手不僅能夠借助桌子平臺(tái)上向上和向下重定向物體,還能免除桌子支撐,在空中重定向,表現(xiàn)接近人手。

 

 

左邊為物體應(yīng)該定向的姿勢(shì),右邊為定向演示。該圖為借助桌子支撐的重定向展示

 

 

空中重定向,且手掌向下,需要考慮重力因素

 

 

空中重新定向,且手掌向上,物體的形狀復(fù)雜性加大??催@個(gè)靈活度,很適合盤核桃

 

 

在靈巧手研究領(lǐng)域,國(guó)內(nèi)外都不乏研究者,但是目前使用最多的控制器,形式上無(wú)非是真空式吸盤或者平行夾爪。性能上,它們的優(yōu)點(diǎn)在于抓取速度快且裝載系統(tǒng)的成本低,但缺點(diǎn)在于自由度有限,靈活度不高。

 

 

陳濤舉了一個(gè)例子:如果人手是鉗子的形狀,那么我們只能控制手部的打開(kāi)和閉合,這種情況下,我們還能使用我們家里的很多工具嗎,比如剪刀,螺絲刀等。而這,就是“靈巧手”研究所在。

 

 

“我們希望未來(lái)能進(jìn)入人們?nèi)粘I畹臋C(jī)器人,能夠幫我們處理最基本的家務(wù),比如說(shuō)清理餐具,打掃廚房客廳, 收拾衣物等。那么我們現(xiàn)有的機(jī)器人具有這個(gè)能力嗎?顯然是還不具備的。這個(gè)涉及到很多原因,其中一個(gè)物理?xiàng)l件就是是缺少靈巧的機(jī)械手。”陳濤談到。

 

 

那為什么要研究靈巧手重定向物體呢(轉(zhuǎn)動(dòng)物體到目標(biāo)朝向)?其實(shí)這是一個(gè)很實(shí)用的技能:在我們生活中,擰螺絲,擰瓶蓋等動(dòng)作都可以描述為物體在手上發(fā)生位移,由一開(kāi)始的水平朝向變?yōu)樨Q直朝向,如果用靈巧手來(lái)實(shí)現(xiàn)這一高頻技能,機(jī)器人就會(huì)使用更多的工具,解決了大部分的場(chǎng)景應(yīng)用問(wèn)題。

 

 

從機(jī)器人面向復(fù)雜場(chǎng)景的應(yīng)用到靈巧的末端控制器重定向研究,整個(gè)研究的轉(zhuǎn)向是極其自然又合理的。陳濤談到,靈巧手的研究源于自己和導(dǎo)師Pulkit Agrawal的一次飯后閑聊,隨后快速推進(jìn),前后周期不過(guò)三、四個(gè)月。但因?yàn)槠陂g還給導(dǎo)師新開(kāi)的一門課程做助教花費(fèi)了大量的時(shí)間,所以實(shí)際周期要更短。

 

 

在項(xiàng)目推進(jìn)中,徐捷的加入則使得整個(gè)研究更加健備。囿于當(dāng)時(shí)疫情情況,想要在真實(shí)機(jī)械手上模擬成為難題,于是研究物理仿真的徐捷輔助搭建環(huán)境,解決了靈巧手在仿真環(huán)境中的棘手問(wèn)題。

 

 

涉及靈巧手的研究方法,陳濤談到,靈巧手的自由度很高,如果用傳統(tǒng)的控制理論以及建立動(dòng)力學(xué)模型的方法,項(xiàng)目將很難推進(jìn)。

 

 

靈巧手本身是一個(gè)高維度的控制系統(tǒng),是否能跳過(guò)建立模型這一步,直接采用無(wú)模型的強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練靈巧手完成任務(wù)。

 

 

在一系列實(shí)驗(yàn)后,他們發(fā)現(xiàn),如果只給控制器提供物體姿態(tài),手指關(guān)節(jié)角,物體目標(biāo)朝向的信息,那么控制器學(xué)習(xí)訓(xùn)練過(guò)程非常慢,而且最后訓(xùn)練完成后的成功率也不夠高。所以他們又想到,如何能加快控制器的訓(xùn)練?

 

 

受2019年CoRL的一篇研究自動(dòng)駕駛的論文的啟發(fā),他們想到,雖然最后測(cè)試過(guò)程中我們想要一個(gè)只依賴于物體姿態(tài),手指關(guān)節(jié)角,物體目標(biāo)朝向信息的控制器,但是訓(xùn)練過(guò)程中我們并不應(yīng)該受限于只使用這些信息。也就是說(shuō),在訓(xùn)練過(guò)程中,我們可以使用更多的輔助信息來(lái)幫助加快控制器的訓(xùn)練。等到控制器學(xué)會(huì)這個(gè)技能后,再考慮去掉這些輔助信息。

 

 

陳濤又舉了個(gè)例子,我們駕校學(xué)車的時(shí)候,科目二訓(xùn)練場(chǎng)地會(huì)有一些輔助線或者輔助桿幫助學(xué)員掌握側(cè)方停車的技能。這些輔助線就是訓(xùn)練過(guò)程中的輔助信息,學(xué)員可以更快掌握側(cè)方停車的方法,隨后應(yīng)用到現(xiàn)實(shí)世界中。

 

 

所以在陳濤他們的研究中也采用了相似的思路。

 

 

首先在訓(xùn)練過(guò)程中,給控制器提供了許多額外的狀態(tài)信息,比如物體的速度信息。這些輔助信息的加入極大地加速控制器的訓(xùn)練。當(dāng)訓(xùn)練好這樣一個(gè)控制器后,就需要考慮怎么讓控制器沒(méi)有這些額外輔助信息也能工作。這時(shí)就用到了知識(shí)蒸餾(Knowledge Distillation) 或者說(shuō)模仿學(xué)習(xí)(Imitation Learning)的技術(shù)。

 

 

他們把之前訓(xùn)練好的控制器作為“教師”,然后訓(xùn)練第二個(gè)控制器,即”學(xué)生”。“學(xué)生”控制器不需要使用額外的輔助信息作為輸入,但通過(guò)模仿學(xué)習(xí)去模仿“教師”控制器的行為。最終,將獲得一個(gè)聰明的“學(xué)生”控制器,也就是可以用來(lái)訓(xùn)練機(jī)械手轉(zhuǎn)動(dòng)大量形狀不一的物體。在測(cè)試中,陳濤他們一共重定向了2000多個(gè)形狀不同的物體。

 

 

解決了靈巧手學(xué)習(xí)框架的問(wèn)題,接下來(lái)就是模擬現(xiàn)實(shí)應(yīng)用。在真實(shí)場(chǎng)景中,手做任務(wù)時(shí)會(huì)有各種朝向,其中最極端的一種情況就是手掌朝下:不僅要操縱物體,還要避免重力因素導(dǎo)致物體脫落。

 

 

陳濤談到,經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,我們發(fā)現(xiàn)現(xiàn)有的框架依然是夠用的,只是需要在每次轉(zhuǎn)物體開(kāi)始前給物體姿態(tài)和手指關(guān)節(jié)角提供一個(gè)好的初始值,而非隨機(jī)初始化。這里好的初始值是指能在初始時(shí)刻讓手指觸碰到物體,但是因?yàn)槲矬w形狀的復(fù)雜多樣,靈巧手的高維狀態(tài)空間,所以很難通過(guò)經(jīng)典方法比如運(yùn)動(dòng)學(xué)逆解來(lái)獲取這些好的初始值。

 

 

為了解決這一問(wèn)題,他們首先訓(xùn)練了一個(gè)借助桌子而向下抓取物體的控制器。那么抓起之后,自然而然就獲得了一個(gè)好的初始姿態(tài)設(shè)定。在此基礎(chǔ)上,就可以用之前提到的框架去訓(xùn)練控制器。

 

 

通過(guò)這樣的訓(xùn)練后,他們發(fā)現(xiàn)靈巧手朝下轉(zhuǎn)動(dòng)物體成功率僅有50%左右,實(shí)際上,即使與人相比,這個(gè)成功率已經(jīng)很高了。陳濤說(shuō)到,想象一下,你在閉眼時(shí)手掌朝下將一個(gè)任意形狀的物體轉(zhuǎn)到特定朝向,你的成功率有多高呢?

 

 

“但是我們依舊想進(jìn)一步提高成功率,由此想到物體重力的影響。這就啟發(fā)了我們下一個(gè)提高成功率的技巧:我們首先讓機(jī)械手在真空(無(wú)重力)環(huán)境下訓(xùn)練,等到它學(xué)會(huì)怎么轉(zhuǎn)東西了之后,我們逐漸增加重力加速度,并繼續(xù)訓(xùn)練控制器直到它能在正常的重力環(huán)境下轉(zhuǎn)動(dòng)物體。我們稱這個(gè)技巧為 「Gravity Curriculum」(重力課程)。”

 

 

最終,整個(gè)項(xiàng)目最出乎意料的發(fā)現(xiàn)是:無(wú)論是機(jī)械手朝上或朝下,都能成功訓(xùn)練一個(gè)控制器,使它在不知道物體形狀的情況下還能夠任意轉(zhuǎn)動(dòng)形狀各異的物體。即論文中所說(shuō)的“無(wú)感官預(yù)訓(xùn)練”。

 

 

最后,陳濤談到:靈巧手是在機(jī)器人領(lǐng)域尚未被充分研究的的一項(xiàng)研究,希望我們的工作能讓更多人關(guān)注到靈巧手操作這一領(lǐng)域,有更多人能進(jìn)入這一領(lǐng)域共同促進(jìn)靈巧手的發(fā)展。

 

 

但會(huì)議落幕,研究尚未結(jié)束。陳濤表示目前還會(huì)做一些拓展工作,比如將當(dāng)前在仿真器里訓(xùn)練好的控制器遷移到真實(shí)的機(jī)械手上。“我們希望能在真實(shí)機(jī)械手上也能實(shí)現(xiàn)轉(zhuǎn)動(dòng)許多不同物體的目標(biāo)。如果之后有其他人在這款靈巧手中加入視覺(jué)的信息或觸覺(jué)的信息,使它的成功率更高,也要看在真實(shí)環(huán)境中的測(cè)試。”

 

 

未來(lái),這款機(jī)械手可以轉(zhuǎn)移到真實(shí)機(jī)器人系統(tǒng),或應(yīng)用到物流和制造業(yè)中,比如物體打包,插槽裝配等;或應(yīng)用于家庭場(chǎng)景中,處理雜物等。總之,它將使得機(jī)器人距離我們更近。

 

 

3

“無(wú)模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)”組CP

 

 

總結(jié)來(lái)看,今年的CoRL中的研究有兩種:一、基于無(wú)模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)的機(jī)器人;二、基于視覺(jué)觸覺(jué)等感知的機(jī)器學(xué)習(xí)系統(tǒng)。

 

 

為何“無(wú)模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)”組了CP?

 

 

說(shuō)到底,這是研究者們更加重視機(jī)器人在環(huán)境中的進(jìn)化結(jié)果。

 

 

比如,和ANYmal機(jī)器狗在現(xiàn)實(shí)環(huán)境中在線進(jìn)化不同,陳濤團(tuán)隊(duì)的靈巧手研究首先在仿真環(huán)境中訓(xùn)練,然后通過(guò)模仿學(xué)習(xí)一步一步提高泛化能力,并最終在真實(shí)的機(jī)械手上觀測(cè)遷移性能。

 

 

同樣,與陳濤團(tuán)隊(duì)的研究路徑相比,ANYmal機(jī)器狗強(qiáng)調(diào)在現(xiàn)實(shí)環(huán)境中進(jìn)化,從而獲得更合適的反饋,比如得到更適合機(jī)器“狗”的反饋數(shù)據(jù)。

 

 

總之,無(wú)論是用有模型的訓(xùn)練框架,還是用無(wú)模型的訓(xùn)練框架;是在真實(shí)環(huán)境內(nèi)中訓(xùn)練、在仿真環(huán)境中訓(xùn)練,各種方法并無(wú)優(yōu)劣,而是是否適配特定的機(jī)器本體(仿人,仿狗等等)。

 

 

拿無(wú)模型強(qiáng)化學(xué)習(xí)來(lái)說(shuō),它成為今年的CoRL會(huì)議上頻出的研究方法,其優(yōu)勢(shì)為何?

 

 

要解釋何為無(wú)模型強(qiáng)化學(xué)習(xí),首先要看向強(qiáng)化學(xué)習(xí)。

 

 

在定義中,強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式,它是通過(guò)與環(huán)境進(jìn)行交互來(lái)學(xué)習(xí),最終將累積收益最大化。而強(qiáng)化學(xué)習(xí)算法分為模型化強(qiáng)化學(xué)習(xí)和無(wú)模型強(qiáng)化學(xué)習(xí)。

 

 

基于模型的強(qiáng)化學(xué)習(xí)算法是智能體通過(guò)與環(huán)境交互獲得數(shù)據(jù),根據(jù)數(shù)據(jù)學(xué)習(xí)和擬合模型,智能體根據(jù)模型利用強(qiáng)化學(xué)習(xí)算法優(yōu)化自身的行為。

 

 

基于模型的強(qiáng)化學(xué)習(xí)算法的優(yōu)點(diǎn):由于智能體利用數(shù)據(jù)進(jìn)行模型的擬合,因此智能體將數(shù)據(jù)進(jìn)行了充分的利用,因?yàn)槟P鸵坏M合出來(lái),那么智能體就可以根據(jù)模型來(lái)推斷智能體從未訪問(wèn)過(guò)的區(qū)域。因?yàn)閿?shù)據(jù)得到了最高的利用效率。智能體與環(huán)境之間的交互次數(shù)會(huì)急劇減少。用一個(gè)詞來(lái)概括基于模型的強(qiáng)化學(xué)習(xí)算法就是Data efficiency。

 

 

從基于模型的強(qiáng)化學(xué)習(xí)算法的過(guò)程我們也可以很容易看到它的缺點(diǎn):擬合的模型存在偏差,因此基于模型的強(qiáng)化學(xué)習(xí)算法一般不能保證最優(yōu)解漸近收斂。

 

 

而在無(wú)模型強(qiáng)化學(xué)習(xí)中,智能體通過(guò)與環(huán)境進(jìn)行實(shí)時(shí)交互學(xué)習(xí)收斂得到最優(yōu)策略。由于沒(méi)有擬合環(huán)境模型,所以智能體對(duì)環(huán)境的感知和認(rèn)知只能通過(guò)與環(huán)境之間不斷的交互。這個(gè)交互量多大呢?在陳濤的研究中使用了2000個(gè)形狀各異的物體做仿真訓(xùn)練。如此多的交互次數(shù)使得無(wú)模型的強(qiáng)化學(xué)習(xí)算法效率很低,而且難以應(yīng)用到實(shí)際物理世界中。

 

 

然而,跟基于模型的強(qiáng)化學(xué)習(xí)算法相比,無(wú)模型的強(qiáng)化學(xué)習(xí)算法有一個(gè)很好的性質(zhì),該性質(zhì)是漸近收斂。也就是說(shuō),無(wú)模型的強(qiáng)化學(xué)習(xí)算法經(jīng)過(guò)無(wú)數(shù)次與環(huán)境的交互可以保證智能體得到最優(yōu)解。

 

 

然后從這點(diǎn)出發(fā),再尋找提高訓(xùn)練速度的方法,比如添加更多的輔助信息,然后再通過(guò)知識(shí)蒸餾方法去掉輔助信息。先做加法、

 

 

隨之而來(lái)的還有泛化問(wèn)題,從仿真環(huán)境到現(xiàn)實(shí)環(huán)境,訓(xùn)練出在某個(gè)問(wèn)題上泛化能力強(qiáng)的模型,才是機(jī)器學(xué)習(xí)最根本的目的。師生模仿學(xué)習(xí)成為這一階段的利器。

 

 

此外,為何小數(shù)據(jù)模型受到追捧,或許還能從近年來(lái)的技術(shù)研究范式看出端倪:

 

 

一方面,科學(xué)家們逐漸厭惡大數(shù)據(jù)研究,累瀆般的數(shù)據(jù)搬運(yùn)和數(shù)據(jù)標(biāo)記,勞神費(fèi)力又泛化能力弱。另一方面,隨著認(rèn)知神經(jīng)科學(xué)等學(xué)科的參與,生物進(jìn)化思想滲透到智能體迭代的研究中,科學(xué)家們逐漸認(rèn)識(shí)到:機(jī)器人研究,一端朝向“機(jī)器”,一端朝向“人”,只有將機(jī)器人置于環(huán)境中進(jìn)化,才能學(xué)到人類最根本的學(xué)習(xí)范式:經(jīng)驗(yàn)學(xué)習(xí)。

 

 

反思機(jī)器人與自己的數(shù)據(jù)化生存,成為研究者走出研究囹圄的第一步。

 

 

然而,技術(shù)并非抽象生存,將機(jī)器人置于環(huán)境進(jìn)化中,其背后的科學(xué)家處于何種浪潮?

 

 

 

4

后疫情時(shí)代的機(jī)器人研究

 

 

后疫情時(shí)代,很多故事圍繞機(jī)器人。但不樂(lè)見(jiàn)的是,疫情并未結(jié)束,不時(shí)以一種幽怨的方式臨場(chǎng)。兩年來(lái),這種非常態(tài)化的社會(huì)環(huán)境,如何籠罩機(jī)器人的前端研究?

 

 

以應(yīng)用場(chǎng)景劃分,機(jī)器人劃分為工業(yè)、服務(wù)、醫(yī)療三大領(lǐng)域,隨著機(jī)器人硬件市場(chǎng)規(guī)模持續(xù)增長(zhǎng)與迭代,機(jī)器人的底層研發(fā)邏輯也在改變:第一階段,機(jī)器人以“機(jī)械”名義入場(chǎng),成為人類感官的延伸,如醫(yī)療手術(shù)機(jī)器臂。

 

 

第二階段,受疫情特殊社會(huì)化環(huán)境影響,機(jī)器人以“車”的形式再度登場(chǎng),并發(fā)揮組織調(diào)度能力,延伸人的四肢,比如用于倉(cāng)儲(chǔ)分類,干線運(yùn)輸,清潔服務(wù)等機(jī)器人。也是從這一階段開(kāi)始,機(jī)器人玩家發(fā)力生活服務(wù)的最后一公里,愈發(fā)越接近人的環(huán)境,由此引出第三階段:面向非結(jié)構(gòu)化復(fù)雜場(chǎng)景的機(jī)器人。

 

 

隨著第三階段的到來(lái),機(jī)器人的研發(fā)模式也在變化,一面是鋼鐵本體的擬人化,出現(xiàn)更多的仿生機(jī)器人,模仿生物的骨骼和外形結(jié)構(gòu);一面是機(jī)器人智力的融合化,開(kāi)始調(diào)動(dòng)“耳目口舌”等多模態(tài)信息并與環(huán)境交互。

 

 

目前,機(jī)器人本體控制和軟件算法的快速耦合正在擴(kuò)大機(jī)器人能夠自主執(zhí)行的任務(wù)范圍,換句話說(shuō),也就是機(jī)器人的可商業(yè)化場(chǎng)景。

 

 

回頭來(lái)看,非常態(tài)化的疫情環(huán)境更像是為機(jī)器人研發(fā)建構(gòu)了一間屋子,加快前端研發(fā)沿著多模態(tài)和環(huán)境進(jìn)化的方向發(fā)展。而機(jī)器人玩家在這個(gè)時(shí)間點(diǎn)瘋狂入局,更是為這階段的技術(shù)研發(fā)打了一道墻,既將機(jī)器人產(chǎn)業(yè)的視線縮小在“最后一公里”,又迫使前端科學(xué)家專注于機(jī)器人技術(shù)的可用性,盡快完成機(jī)器人智力的升級(jí)。

 

 

房間里打墻,除了更狹塞,也會(huì)更聚焦。往前往后沒(méi)有出路,只有喚醒體內(nèi)所有暗流,鼓裂頭頂上的一點(diǎn)。

 

 

在疫情后的第二年,CoRL也驗(yàn)證了這一點(diǎn):多模態(tài)是通向機(jī)器人智慧的一條新路,無(wú)模型框架才能讓技術(shù)盡快走出實(shí)驗(yàn)室。

 

 

說(shuō)到底,技術(shù)是為人服務(wù)的。最后一公里的競(jìng)爭(zhēng),會(huì)更細(xì)分,也更有想象力。

 

 

億歐智庫(kù)曾對(duì)中國(guó)商用服務(wù)機(jī)器人及各細(xì)分市場(chǎng)均進(jìn)行測(cè)算,預(yù)期2025年中國(guó)商用服務(wù)機(jī)器人市場(chǎng)將突破1000億元規(guī)模,商用清潔機(jī)器人將呈現(xiàn)持續(xù)高增長(zhǎng)至約749億元,終端配送(不含室外)機(jī)器人約達(dá)348億元,講解引導(dǎo)機(jī)器人約達(dá)62億元。

 

 

相比工業(yè)機(jī)器人來(lái)說(shuō),服務(wù)機(jī)器人離人更近,應(yīng)用范圍更廣,商業(yè)化程度也更高。

 

 

雖然疫情沒(méi)有消失,甚至自2019年12月后轉(zhuǎn)為常態(tài)化,但后疫情時(shí)代,產(chǎn)業(yè)端是否會(huì)再打一堵墻,都不再撼動(dòng)機(jī)器人的前端研究。

 

 

然而,無(wú)模型強(qiáng)化學(xué)習(xí)通常需要大量的訓(xùn)練樣本和訓(xùn)練時(shí)間,如何提高數(shù)據(jù)利用率和學(xué)習(xí)效率成為無(wú)模型強(qiáng)化學(xué)習(xí)的研究重點(diǎn)。

 

 

所以,總體來(lái)看,CoRL中的三種研究模式各有側(cè)重:仿生機(jī)器狗的重點(diǎn)是測(cè)試無(wú)模型強(qiáng)化學(xué)習(xí)在環(huán)境交互中的收斂性能,靈巧手則是推進(jìn)最容易嫁接到機(jī)器人系統(tǒng)中的封裝模塊,視覺(jué)觸覺(jué)研究則是推進(jìn)多模態(tài)研究中的重要一環(huán)。

 

 

明年機(jī)器人會(huì)出現(xiàn)哪些重要的產(chǎn)學(xué)研發(fā)展,其實(shí)都離不開(kāi)這三塊。

 
 
聲明:凡資訊來(lái)源注明為其他媒體來(lái)源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑,請(qǐng)立即與中國(guó)機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行
?