高清色惰www日本com,国产99视频精品免费视看6,国产精品成人va在线播放

“深耕科技前沿動(dòng)態(tài)，解讀科技背后真相，瞄準(zhǔn)科技產(chǎn)品評(píng)測(cè)”

經(jīng)濟(jì)學(xué)家熊彼特認(rèn)為，所謂創(chuàng)新就是要”建立一種新的生產(chǎn)函數(shù)”，即"生產(chǎn)要素的重新組合”，就是要把一種從來(lái)沒(méi)有的關(guān)于生產(chǎn)要素和生產(chǎn)條件的“新組合”引進(jìn)生產(chǎn)體系中去，以實(shí)現(xiàn)對(duì)生產(chǎn)要素或生條件的“新組合”。目前，機(jī)器人就是新的生產(chǎn)要素，要妥帖地縫合在社會(huì)生活中。

后疫情時(shí)代的科學(xué)家與產(chǎn)業(yè)人士，已經(jīng)找到機(jī)器人與人工智能發(fā)展的方向，我們將看到，他們會(huì)逐漸把重心放在技術(shù)發(fā)展的時(shí)速上，保證機(jī)器人在進(jìn)擊的道路上，適應(yīng)這個(gè)時(shí)代的節(jié)奏。

CoRL中的11demo

CoRL展示了11個(gè)機(jī)器人項(xiàng)目，透露了本年度最受關(guān)注的機(jī)器人研究方向。

這11項(xiàng)中，其中四項(xiàng)為四足機(jī)器狗，即2，4，7，10，分別為瑞士ANYbotics的ANYmal 和杭州宇樹(shù)科技A1。

在性能上，它們都利用了機(jī)載本體感受和外感受反饋，將感官信息和所需的速度命令映射到腳步計(jì)劃中，實(shí)時(shí)、在線地適應(yīng)未見(jiàn)過(guò)的地形環(huán)境，表現(xiàn)顯著優(yōu)于其他腿式機(jī)器人。除此之外，它們還能在一系列運(yùn)動(dòng)步態(tài)之間隨意切換，以最小化其能量消耗。

而它們背后的無(wú)模型強(qiáng)化學(xué)習(xí)，也一舉成為腿式機(jī)器人運(yùn)動(dòng)控制器開(kāi)發(fā)中的最優(yōu)方法。

具體來(lái)說(shuō)，無(wú)模型強(qiáng)化學(xué)習(xí)指智能體與環(huán)境進(jìn)行實(shí)時(shí)交互和探索，并直接對(duì)得到的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行學(xué)習(xí)，最終實(shí)現(xiàn)累積收益最大化或達(dá)到特定目標(biāo)。它不需要擬合環(huán)境動(dòng)態(tài)模型，只要與環(huán)境的實(shí)時(shí)交互，就可以保證智能體漸近收斂得到最優(yōu)解。

擁有這種模型的四足機(jī)器狗，不僅能順利走出實(shí)驗(yàn)室，還能在更復(fù)雜的場(chǎng)景中自我決策，成就名副其實(shí)的--“跟著感覺(jué)走”。

接著，在機(jī)器人感知領(lǐng)域，視覺(jué)領(lǐng)域的項(xiàng)目有兩項(xiàng)，即1，3；觸覺(jué)領(lǐng)域有三項(xiàng)，即6，8，9。

在CV領(lǐng)域，實(shí)時(shí)密集三維映射稱為密集SLAM（Simultaneous localization and mapping，同步定位與建圖），一直是機(jī)器人技術(shù)的主要挑戰(zhàn)之一，問(wèn)題包括估計(jì)傳感器的自由度位姿和環(huán)境的三維重建。盡管目前存在RGB-D映射解決方案，但深度值不能簡(jiǎn)單地從傳感器讀取并融合，單目攝像機(jī)成為性價(jià)比最高的方案。

TANDEM框架的創(chuàng)新之處在于，它在攝像機(jī)跟蹤方面優(yōu)于其他基于學(xué)習(xí)的單目視覺(jué)里程計(jì)(VO)方法，并展現(xiàn)出實(shí)時(shí)三維重建的性能。

具體來(lái)說(shuō)，它采用了一種新的跟蹤前端，該前端使用由密集深度預(yù)測(cè)增量構(gòu)建的全局模型渲染的深度圖來(lái)執(zhí)行密集直接圖像對(duì)齊。其次，為了預(yù)測(cè)稠密的深度圖，作者提出了級(jí)聯(lián)視圖聚合MVSNet (CVA-MVSNet)，能夠利用整個(gè)活動(dòng)關(guān)鍵幀窗口，通過(guò)分層構(gòu)造具有自適應(yīng)視圖聚合的3D成本量來(lái)平衡關(guān)鍵幀之間的不同立體基線。最后，將預(yù)測(cè)的深度圖融合為一致的全局圖，并以截?cái)嗟膸Х?hào)距離函數(shù)(TSDF)體素網(wǎng)格表示。

而iMAP模型，則是第一個(gè)使用神經(jīng)隱式場(chǎng)景表示的 SLAM 系統(tǒng)，能夠MLP 在沒(méi)有先驗(yàn)數(shù)據(jù)的情況下在實(shí)時(shí)操作中進(jìn)行訓(xùn)練，構(gòu)建一個(gè)密集的、特定于場(chǎng)景的隱式 3D 占用和顏色模型。

除了視覺(jué)研究，機(jī)器人的觸覺(jué)研究也在今年展現(xiàn)出不俗的研究勢(shì)頭。

其中，ReSkin是一款利用機(jī)器學(xué)習(xí)和磁傳感技術(shù)的觸覺(jué)軟傳感器，能實(shí)現(xiàn)無(wú)源共形接觸（conformal contact），又能根據(jù)傳感器特性提供主動(dòng)接觸數(shù)據(jù)，可視化地表現(xiàn)其接觸定位和力預(yù)測(cè)。

此外，為解決長(zhǎng)期以來(lái)軟傳感器壽命短、退化快的問(wèn)題，ReSkin在設(shè)計(jì)中將磁傳感將電子電路從被動(dòng)接口中分離出來(lái)，便于更換接口。

雖然目前的皮膚感知難以起步，但在現(xiàn)階段，研究者不約而同將目光聚焦在“指尖感應(yīng)”上，通過(guò)深度學(xué)習(xí)解讀高分辨率的觸覺(jué)數(shù)據(jù)，可實(shí)現(xiàn)對(duì)手持物體的精細(xì)控制和輕而穩(wěn)的抓取。

最后，在機(jī)械臂運(yùn)動(dòng)規(guī)劃的研究中，模仿學(xué)習(xí)成為今年熱點(diǎn)。

視覺(jué)模仿學(xué)習(xí)可以建模為一個(gè)狀態(tài)估計(jì)問(wèn)題，狀態(tài)定義為對(duì)象交互開(kāi)始時(shí)末端執(zhí)行器的姿勢(shì)。因此在學(xué)習(xí)中，無(wú)需使用大量演示或強(qiáng)化學(xué)習(xí)來(lái)明確學(xué)習(xí)策略，也無(wú)需儲(chǔ)存對(duì)與之交互的對(duì)象的任何先驗(yàn)知識(shí)，而是訓(xùn)練一個(gè)自我監(jiān)督的姿態(tài)估計(jì)器，可從單個(gè)人類演示中學(xué)習(xí)各種技能，同時(shí)還產(chǎn)生一個(gè)穩(wěn)定且可解釋的控制器。

而重頭戲--最佳論文獎(jiǎng)，則將研究聚焦在“靈巧手”上。

2

最佳論文獎(jiǎng)：靈巧手

團(tuán)隊(duì)三人來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (MIT CSAIL），分別為陳濤、徐捷，以及陳濤的博導(dǎo)Pulkit Agrawal。

巧的是，陳濤與徐捷同為2016年本科畢業(yè)，分別畢業(yè)于上海交通大學(xué)的機(jī)械工程及自動(dòng)化專業(yè)與清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系。目前，兩人同在MIT CSAIL實(shí)驗(yàn)室，各自師從于Improbable AI實(shí)驗(yàn)室的Pulkit Agrawal教授與計(jì)算設(shè)計(jì)和制造組(CDFG)的Wojciech Matusik教授。

在研究方向上，兩人各有側(cè)重，陳濤擅長(zhǎng)機(jī)器人學(xué)習(xí)、操作和導(dǎo)航；徐捷擅長(zhǎng)機(jī)器人仿真、設(shè)計(jì)協(xié)同優(yōu)化與模擬現(xiàn)實(shí)，這為兩人在靈巧手的合作上奠定了最基本的優(yōu)勢(shì)。

從左至右為陳濤、徐捷、Pulkit Agrawal

在CoRL會(huì)后，AI科技評(píng)論聯(lián)系到陳濤，對(duì)項(xiàng)目的研究思路和三人的工作做了詳細(xì)的了解。陳濤談到，這個(gè)項(xiàng)目最大的貢獻(xiàn)是為大家提供了一種研究思路：如何用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)訓(xùn)練靈巧手控制器，并且展示了機(jī)械手在最為極端的情況（手面朝下）下轉(zhuǎn)動(dòng)形狀任意的物體。研究還發(fā)現(xiàn)，當(dāng)靈巧手控制器足夠魯棒時(shí)，即使不知道物體形狀信息，也可以以高成功率轉(zhuǎn)動(dòng)任意物體到指定朝向。

論文中表示，這個(gè)靈巧手有 24 個(gè)自由度，已通過(guò)無(wú)模型框架重新定位了超2000個(gè)形狀各異的物體，具有非常高的通用性。

對(duì)于許多小的圓形物體，比如蘋果、網(wǎng)球、彈珠，成功率接近 100%，對(duì)于更復(fù)雜的物體，如勺子、螺絲刀或剪刀，則接近 30%。研究發(fā)現(xiàn)，成功率因物體形狀而異，接下來(lái)還要基于對(duì)象形狀來(lái)訓(xùn)練模型來(lái)。

在性能上，這個(gè)靈巧手不僅能夠借助桌子平臺(tái)上向上和向下重定向物體，還能免除桌子支撐，在空中重定向，表現(xiàn)接近人手。

左邊為物體應(yīng)該定向的姿勢(shì)，右邊為定向演示。該圖為借助桌子支撐的重定向展示

空中重定向，且手掌向下，需要考慮重力因素

空中重新定向，且手掌向上，物體的形狀復(fù)雜性加大?？催@個(gè)靈活度，很適合盤核桃

在靈巧手研究領(lǐng)域，國(guó)內(nèi)外都不乏研究者，但是目前使用最多的控制器，形式上無(wú)非是真空式吸盤或者平行夾爪。性能上，它們的優(yōu)點(diǎn)在于抓取速度快且裝載系統(tǒng)的成本低，但缺點(diǎn)在于自由度有限，靈活度不高。

陳濤舉了一個(gè)例子：如果人手是鉗子的形狀，那么我們只能控制手部的打開(kāi)和閉合，這種情況下，我們還能使用我們家里的很多工具嗎，比如剪刀，螺絲刀等。而這，就是“靈巧手”研究所在。

“我們希望未來(lái)能進(jìn)入人們?nèi)粘Ｉ畹臋C(jī)器人，能夠幫我們處理最基本的家務(wù)，比如說(shuō)清理餐具，打掃廚房客廳，收拾衣物等。那么我們現(xiàn)有的機(jī)器人具有這個(gè)能力嗎？顯然是還不具備的。這個(gè)涉及到很多原因，其中一個(gè)物理?xiàng)l件就是是缺少靈巧的機(jī)械手。”陳濤談到。

那為什么要研究靈巧手重定向物體呢（轉(zhuǎn)動(dòng)物體到目標(biāo)朝向）？其實(shí)這是一個(gè)很實(shí)用的技能：在我們生活中，擰螺絲，擰瓶蓋等動(dòng)作都可以描述為物體在手上發(fā)生位移，由一開(kāi)始的水平朝向變?yōu)樨Q直朝向，如果用靈巧手來(lái)實(shí)現(xiàn)這一高頻技能，機(jī)器人就會(huì)使用更多的工具，解決了大部分的場(chǎng)景應(yīng)用問(wèn)題。

從機(jī)器人面向復(fù)雜場(chǎng)景的應(yīng)用到靈巧的末端控制器重定向研究，整個(gè)研究的轉(zhuǎn)向是極其自然又合理的。陳濤談到，靈巧手的研究源于自己和導(dǎo)師Pulkit Agrawal的一次飯后閑聊，隨后快速推進(jìn)，前后周期不過(guò)三、四個(gè)月。但因?yàn)槠陂g還給導(dǎo)師新開(kāi)的一門課程做助教花費(fèi)了大量的時(shí)間，所以實(shí)際周期要更短。

在項(xiàng)目推進(jìn)中，徐捷的加入則使得整個(gè)研究更加健備。囿于當(dāng)時(shí)疫情情況，想要在真實(shí)機(jī)械手上模擬成為難題，于是研究物理仿真的徐捷輔助搭建環(huán)境，解決了靈巧手在仿真環(huán)境中的棘手問(wèn)題。

涉及靈巧手的研究方法，陳濤談到，靈巧手的自由度很高，如果用傳統(tǒng)的控制理論以及建立動(dòng)力學(xué)模型的方法，項(xiàng)目將很難推進(jìn)。

靈巧手本身是一個(gè)高維度的控制系統(tǒng)，是否能跳過(guò)建立模型這一步，直接采用無(wú)模型的強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練靈巧手完成任務(wù)。

在一系列實(shí)驗(yàn)后，他們發(fā)現(xiàn)，如果只給控制器提供物體姿態(tài)，手指關(guān)節(jié)角，物體目標(biāo)朝向的信息，那么控制器學(xué)習(xí)訓(xùn)練過(guò)程非常慢，而且最后訓(xùn)練完成后的成功率也不夠高。所以他們又想到，如何能加快控制器的訓(xùn)練？

受2019年CoRL的一篇研究自動(dòng)駕駛的論文的啟發(fā)，他們想到，雖然最后測(cè)試過(guò)程中我們想要一個(gè)只依賴于物體姿態(tài)，手指關(guān)節(jié)角，物體目標(biāo)朝向信息的控制器，但是訓(xùn)練過(guò)程中我們并不應(yīng)該受限于只使用這些信息。也就是說(shuō)，在訓(xùn)練過(guò)程中，我們可以使用更多的輔助信息來(lái)幫助加快控制器的訓(xùn)練。等到控制器學(xué)會(huì)這個(gè)技能后，再考慮去掉這些輔助信息。

陳濤又舉了個(gè)例子，我們駕校學(xué)車的時(shí)候，科目二訓(xùn)練場(chǎng)地會(huì)有一些輔助線或者輔助桿幫助學(xué)員掌握側(cè)方停車的技能。這些輔助線就是訓(xùn)練過(guò)程中的輔助信息，學(xué)員可以更快掌握側(cè)方停車的方法，隨后應(yīng)用到現(xiàn)實(shí)世界中。

所以在陳濤他們的研究中也采用了相似的思路。

首先在訓(xùn)練過(guò)程中，給控制器提供了許多額外的狀態(tài)信息，比如物體的速度信息。這些輔助信息的加入極大地加速控制器的訓(xùn)練。當(dāng)訓(xùn)練好這樣一個(gè)控制器后，就需要考慮怎么讓控制器沒(méi)有這些額外輔助信息也能工作。這時(shí)就用到了知識(shí)蒸餾(Knowledge Distillation) 或者說(shuō)模仿學(xué)習(xí)（Imitation Learning）的技術(shù)。

他們把之前訓(xùn)練好的控制器作為“教師”，然后訓(xùn)練第二個(gè)控制器，即”學(xué)生”。“學(xué)生”控制器不需要使用額外的輔助信息作為輸入，但通過(guò)模仿學(xué)習(xí)去模仿“教師”控制器的行為。最終，將獲得一個(gè)聰明的“學(xué)生”控制器，也就是可以用來(lái)訓(xùn)練機(jī)械手轉(zhuǎn)動(dòng)大量形狀不一的物體。在測(cè)試中，陳濤他們一共重定向了2000多個(gè)形狀不同的物體。

解決了靈巧手學(xué)習(xí)框架的問(wèn)題，接下來(lái)就是模擬現(xiàn)實(shí)應(yīng)用。在真實(shí)場(chǎng)景中，手做任務(wù)時(shí)會(huì)有各種朝向，其中最極端的一種情況就是手掌朝下：不僅要操縱物體，還要避免重力因素導(dǎo)致物體脫落。

陳濤談到，經(jīng)過(guò)實(shí)驗(yàn)測(cè)試，我們發(fā)現(xiàn)現(xiàn)有的框架依然是夠用的，只是需要在每次轉(zhuǎn)物體開(kāi)始前給物體姿態(tài)和手指關(guān)節(jié)角提供一個(gè)好的初始值，而非隨機(jī)初始化。這里好的初始值是指能在初始時(shí)刻讓手指觸碰到物體，但是因?yàn)槲矬w形狀的復(fù)雜多樣，靈巧手的高維狀態(tài)空間，所以很難通過(guò)經(jīng)典方法比如運(yùn)動(dòng)學(xué)逆解來(lái)獲取這些好的初始值。

為了解決這一問(wèn)題，他們首先訓(xùn)練了一個(gè)借助桌子而向下抓取物體的控制器。那么抓起之后，自然而然就獲得了一個(gè)好的初始姿態(tài)設(shè)定。在此基礎(chǔ)上，就可以用之前提到的框架去訓(xùn)練控制器。

通過(guò)這樣的訓(xùn)練后，他們發(fā)現(xiàn)靈巧手朝下轉(zhuǎn)動(dòng)物體成功率僅有50%左右，實(shí)際上，即使與人相比，這個(gè)成功率已經(jīng)很高了。陳濤說(shuō)到，想象一下，你在閉眼時(shí)手掌朝下將一個(gè)任意形狀的物體轉(zhuǎn)到特定朝向，你的成功率有多高呢？

“但是我們依舊想進(jìn)一步提高成功率，由此想到物體重力的影響。這就啟發(fā)了我們下一個(gè)提高成功率的技巧：我們首先讓機(jī)械手在真空（無(wú)重力）環(huán)境下訓(xùn)練，等到它學(xué)會(huì)怎么轉(zhuǎn)東西了之后，我們逐漸增加重力加速度，并繼續(xù)訓(xùn)練控制器直到它能在正常的重力環(huán)境下轉(zhuǎn)動(dòng)物體。我們稱這個(gè)技巧為 「Gravity Curriculum」（重力課程）。”

最終，整個(gè)項(xiàng)目最出乎意料的發(fā)現(xiàn)是：無(wú)論是機(jī)械手朝上或朝下，都能成功訓(xùn)練一個(gè)控制器，使它在不知道物體形狀的情況下還能夠任意轉(zhuǎn)動(dòng)形狀各異的物體。即論文中所說(shuō)的“無(wú)感官預(yù)訓(xùn)練”。

最后，陳濤談到：靈巧手是在機(jī)器人領(lǐng)域尚未被充分研究的的一項(xiàng)研究，希望我們的工作能讓更多人關(guān)注到靈巧手操作這一領(lǐng)域，有更多人能進(jìn)入這一領(lǐng)域共同促進(jìn)靈巧手的發(fā)展。

但會(huì)議落幕，研究尚未結(jié)束。陳濤表示目前還會(huì)做一些拓展工作，比如將當(dāng)前在仿真器里訓(xùn)練好的控制器遷移到真實(shí)的機(jī)械手上。“我們希望能在真實(shí)機(jī)械手上也能實(shí)現(xiàn)轉(zhuǎn)動(dòng)許多不同物體的目標(biāo)。如果之后有其他人在這款靈巧手中加入視覺(jué)的信息或觸覺(jué)的信息，使它的成功率更高，也要看在真實(shí)環(huán)境中的測(cè)試。”

未來(lái)，這款機(jī)械手可以轉(zhuǎn)移到真實(shí)機(jī)器人系統(tǒng)，或應(yīng)用到物流和制造業(yè)中，比如物體打包，插槽裝配等；或應(yīng)用于家庭場(chǎng)景中，處理雜物等。總之，它將使得機(jī)器人距離我們更近。

“無(wú)模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)”組CP

總結(jié)來(lái)看，今年的CoRL中的研究有兩種：一、基于無(wú)模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)的機(jī)器人；二、基于視覺(jué)觸覺(jué)等感知的機(jī)器學(xué)習(xí)系統(tǒng)。

為何“無(wú)模型強(qiáng)化學(xué)習(xí)+模仿學(xué)習(xí)”組了CP？

說(shuō)到底，這是研究者們更加重視機(jī)器人在環(huán)境中的進(jìn)化結(jié)果。

比如，和ANYmal機(jī)器狗在現(xiàn)實(shí)環(huán)境中在線進(jìn)化不同，陳濤團(tuán)隊(duì)的靈巧手研究首先在仿真環(huán)境中訓(xùn)練，然后通過(guò)模仿學(xué)習(xí)一步一步提高泛化能力，并最終在真實(shí)的機(jī)械手上觀測(cè)遷移性能。

同樣，與陳濤團(tuán)隊(duì)的研究路徑相比，ANYmal機(jī)器狗強(qiáng)調(diào)在現(xiàn)實(shí)環(huán)境中進(jìn)化，從而獲得更合適的反饋，比如得到更適合機(jī)器“狗”的反饋數(shù)據(jù)。

總之，無(wú)論是用有模型的訓(xùn)練框架，還是用無(wú)模型的訓(xùn)練框架；是在真實(shí)環(huán)境內(nèi)中訓(xùn)練、在仿真環(huán)境中訓(xùn)練，各種方法并無(wú)優(yōu)劣，而是是否適配特定的機(jī)器本體（仿人，仿狗等等）。

拿無(wú)模型強(qiáng)化學(xué)習(xí)來(lái)說(shuō)，它成為今年的CoRL會(huì)議上頻出的研究方法，其優(yōu)勢(shì)為何?

要解釋何為無(wú)模型強(qiáng)化學(xué)習(xí)，首先要看向強(qiáng)化學(xué)習(xí)。

在定義中，強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式，它是通過(guò)與環(huán)境進(jìn)行交互來(lái)學(xué)習(xí)，最終將累積收益最大化。而強(qiáng)化學(xué)習(xí)算法分為模型化強(qiáng)化學(xué)習(xí)和無(wú)模型強(qiáng)化學(xué)習(xí)。

基于模型的強(qiáng)化學(xué)習(xí)算法是智能體通過(guò)與環(huán)境交互獲得數(shù)據(jù)，根據(jù)數(shù)據(jù)學(xué)習(xí)和擬合模型，智能體根據(jù)模型利用強(qiáng)化學(xué)習(xí)算法優(yōu)化自身的行為。

基于模型的強(qiáng)化學(xué)習(xí)算法的優(yōu)點(diǎn)：由于智能體利用數(shù)據(jù)進(jìn)行模型的擬合，因此智能體將數(shù)據(jù)進(jìn)行了充分的利用，因?yàn)槟Ｐ鸵坏M合出來(lái)，那么智能體就可以根據(jù)模型來(lái)推斷智能體從未訪問(wèn)過(guò)的區(qū)域。因?yàn)閿?shù)據(jù)得到了最高的利用效率。智能體與環(huán)境之間的交互次數(shù)會(huì)急劇減少。用一個(gè)詞來(lái)概括基于模型的強(qiáng)化學(xué)習(xí)算法就是Data efficiency。

從基于模型的強(qiáng)化學(xué)習(xí)算法的過(guò)程我們也可以很容易看到它的缺點(diǎn)：擬合的模型存在偏差，因此基于模型的強(qiáng)化學(xué)習(xí)算法一般不能保證最優(yōu)解漸近收斂。

而在無(wú)模型強(qiáng)化學(xué)習(xí)中，智能體通過(guò)與環(huán)境進(jìn)行實(shí)時(shí)交互學(xué)習(xí)收斂得到最優(yōu)策略。由于沒(méi)有擬合環(huán)境模型，所以智能體對(duì)環(huán)境的感知和認(rèn)知只能通過(guò)與環(huán)境之間不斷的交互。這個(gè)交互量多大呢？在陳濤的研究中使用了2000個(gè)形狀各異的物體做仿真訓(xùn)練。如此多的交互次數(shù)使得無(wú)模型的強(qiáng)化學(xué)習(xí)算法效率很低，而且難以應(yīng)用到實(shí)際物理世界中。

然而，跟基于模型的強(qiáng)化學(xué)習(xí)算法相比，無(wú)模型的強(qiáng)化學(xué)習(xí)算法有一個(gè)很好的性質(zhì)，該性質(zhì)是漸近收斂。也就是說(shuō)，無(wú)模型的強(qiáng)化學(xué)習(xí)算法經(jīng)過(guò)無(wú)數(shù)次與環(huán)境的交互可以保證智能體得到最優(yōu)解。

然后從這點(diǎn)出發(fā)，再尋找提高訓(xùn)練速度的方法，比如添加更多的輔助信息，然后再通過(guò)知識(shí)蒸餾方法去掉輔助信息。先做加法、

隨之而來(lái)的還有泛化問(wèn)題，從仿真環(huán)境到現(xiàn)實(shí)環(huán)境，訓(xùn)練出在某個(gè)問(wèn)題上泛化能力強(qiáng)的模型，才是機(jī)器學(xué)習(xí)最根本的目的。師生模仿學(xué)習(xí)成為這一階段的利器。

此外，為何小數(shù)據(jù)模型受到追捧，或許還能從近年來(lái)的技術(shù)研究范式看出端倪：

一方面，科學(xué)家們逐漸厭惡大數(shù)據(jù)研究，累瀆般的數(shù)據(jù)搬運(yùn)和數(shù)據(jù)標(biāo)記，勞神費(fèi)力又泛化能力弱。另一方面，隨著認(rèn)知神經(jīng)科學(xué)等學(xué)科的參與，生物進(jìn)化思想滲透到智能體迭代的研究中，科學(xué)家們逐漸認(rèn)識(shí)到：機(jī)器人研究，一端朝向“機(jī)器”，一端朝向“人”，只有將機(jī)器人置于環(huán)境中進(jìn)化，才能學(xué)到人類最根本的學(xué)習(xí)范式：經(jīng)驗(yàn)學(xué)習(xí)。

反思機(jī)器人與自己的數(shù)據(jù)化生存，成為研究者走出研究囹圄的第一步。

然而，技術(shù)并非抽象生存，將機(jī)器人置于環(huán)境進(jìn)化中，其背后的科學(xué)家處于何種浪潮？

4

后疫情時(shí)代的機(jī)器人研究

后疫情時(shí)代，很多故事圍繞機(jī)器人。但不樂(lè)見(jiàn)的是，疫情并未結(jié)束，不時(shí)以一種幽怨的方式臨場(chǎng)。兩年來(lái)，這種非常態(tài)化的社會(huì)環(huán)境，如何籠罩機(jī)器人的前端研究？

以應(yīng)用場(chǎng)景劃分，機(jī)器人劃分為工業(yè)、服務(wù)、醫(yī)療三大領(lǐng)域，隨著機(jī)器人硬件市場(chǎng)規(guī)模持續(xù)增長(zhǎng)與迭代，機(jī)器人的底層研發(fā)邏輯也在改變：第一階段，機(jī)器人以“機(jī)械”名義入場(chǎng)，成為人類感官的延伸，如醫(yī)療手術(shù)機(jī)器臂。

第二階段，受疫情特殊社會(huì)化環(huán)境影響，機(jī)器人以“車”的形式再度登場(chǎng)，并發(fā)揮組織調(diào)度能力，延伸人的四肢，比如用于倉(cāng)儲(chǔ)分類，干線運(yùn)輸，清潔服務(wù)等機(jī)器人。也是從這一階段開(kāi)始，機(jī)器人玩家發(fā)力生活服務(wù)的最后一公里，愈發(fā)越接近人的環(huán)境，由此引出第三階段：面向非結(jié)構(gòu)化復(fù)雜場(chǎng)景的機(jī)器人。

隨著第三階段的到來(lái)，機(jī)器人的研發(fā)模式也在變化，一面是鋼鐵本體的擬人化，出現(xiàn)更多的仿生機(jī)器人，模仿生物的骨骼和外形結(jié)構(gòu)；一面是機(jī)器人智力的融合化，開(kāi)始調(diào)動(dòng)“耳目口舌”等多模態(tài)信息并與環(huán)境交互。

目前，機(jī)器人本體控制和軟件算法的快速耦合正在擴(kuò)大機(jī)器人能夠自主執(zhí)行的任務(wù)范圍，換句話說(shuō)，也就是機(jī)器人的可商業(yè)化場(chǎng)景。

回頭來(lái)看，非常態(tài)化的疫情環(huán)境更像是為機(jī)器人研發(fā)建構(gòu)了一間屋子，加快前端研發(fā)沿著多模態(tài)和環(huán)境進(jìn)化的方向發(fā)展。而機(jī)器人玩家在這個(gè)時(shí)間點(diǎn)瘋狂入局，更是為這階段的技術(shù)研發(fā)打了一道墻，既將機(jī)器人產(chǎn)業(yè)的視線縮小在“最后一公里”，又迫使前端科學(xué)家專注于機(jī)器人技術(shù)的可用性，盡快完成機(jī)器人智力的升級(jí)。

房間里打墻，除了更狹塞，也會(huì)更聚焦。往前往后沒(méi)有出路，只有喚醒體內(nèi)所有暗流，鼓裂頭頂上的一點(diǎn)。

在疫情后的第二年，CoRL也驗(yàn)證了這一點(diǎn)：多模態(tài)是通向機(jī)器人智慧的一條新路，無(wú)模型框架才能讓技術(shù)盡快走出實(shí)驗(yàn)室。

說(shuō)到底，技術(shù)是為人服務(wù)的。最后一公里的競(jìng)爭(zhēng)，會(huì)更細(xì)分，也更有想象力。

億歐智庫(kù)曾對(duì)中國(guó)商用服務(wù)機(jī)器人及各細(xì)分市場(chǎng)均進(jìn)行測(cè)算，預(yù)期2025年中國(guó)商用服務(wù)機(jī)器人市場(chǎng)將突破1000億元規(guī)模，商用清潔機(jī)器人將呈現(xiàn)持續(xù)高增長(zhǎng)至約749億元，終端配送（不含室外）機(jī)器人約達(dá)348億元，講解引導(dǎo)機(jī)器人約達(dá)62億元。

相比工業(yè)機(jī)器人來(lái)說(shuō)，服務(wù)機(jī)器人離人更近，應(yīng)用范圍更廣，商業(yè)化程度也更高。

雖然疫情沒(méi)有消失，甚至自2019年12月后轉(zhuǎn)為常態(tài)化，但后疫情時(shí)代，產(chǎn)業(yè)端是否會(huì)再打一堵墻，都不再撼動(dòng)機(jī)器人的前端研究。

然而，無(wú)模型強(qiáng)化學(xué)習(xí)通常需要大量的訓(xùn)練樣本和訓(xùn)練時(shí)間，如何提高數(shù)據(jù)利用率和學(xué)習(xí)效率成為無(wú)模型強(qiáng)化學(xué)習(xí)的研究重點(diǎn)。

所以，總體來(lái)看，CoRL中的三種研究模式各有側(cè)重：仿生機(jī)器狗的重點(diǎn)是測(cè)試無(wú)模型強(qiáng)化學(xué)習(xí)在環(huán)境交互中的收斂性能，靈巧手則是推進(jìn)最容易嫁接到機(jī)器人系統(tǒng)中的封裝模塊，視覺(jué)觸覺(jué)研究則是推進(jìn)多模態(tài)研究中的重要一環(huán)。

明年機(jī)器人會(huì)出現(xiàn)哪些重要的產(chǎn)學(xué)研發(fā)展，其實(shí)都離不開(kāi)這三塊。

• “雙減”政策下，教育機(jī)器人行業(yè)的春天來(lái)了？	• 古人的機(jī)器人夢(mèng)
• 大界機(jī)器人完成B+輪融資，高瓴創(chuàng)投獨(dú)家領(lǐng)投	• 小i政務(wù)服務(wù)虛擬機(jī)器人亮相首屆數(shù)字政府建設(shè)峰
• 你以為只有貓是液體的？機(jī)器人也可以是液體的！	• CoRL2021落幕：多模態(tài)通向機(jī)器人智慧，無(wú)模型框
• 埃隆·馬斯克的新特斯拉機(jī)器人是科幻中的東西嗎	• 就像科幻電影一樣，中國(guó)分揀機(jī)器人出口國(guó)外，引	• 唯一航母命運(yùn)取決于機(jī)器人？俄媒：艦載無(wú)人機(jī)可

機(jī)器人賦能產(chǎn)業(yè)，智贏	機(jī)器人也會(huì)創(chuàng)造英國(guó)
2018年中國(guó)智慧機(jī)場(chǎng)行	智能工廠全面解讀！
艾貓?jiān)缃虣C(jī)器人亮相20	360智能硬件助力美國(guó)

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	北大機(jī)器人	金屬加工在線	AI中國(guó)網(wǎng)	埃森焊接展	機(jī)氣林
工博會(huì)	趕考網(wǎng)	中國(guó)機(jī)床網(wǎng)	ITES深圳工業(yè)展	電氣自動(dòng)化網(wǎng)	高壓電氣網(wǎng)	人工智能機(jī)器人
亞洲工業(yè)網(wǎng)	二手設(shè)備網(wǎng)	庫(kù)卡機(jī)器人	中國(guó)傳動(dòng)網(wǎng)	華北機(jī)床網(wǎng)	數(shù)控機(jī)床市場(chǎng)網(wǎng)	國(guó)家標(biāo)準(zhǔn)化委員會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

2021年最前沿的機(jī)器人研究：無(wú)模型框架擁抱現(xiàn)實(shí)應(yīng)用

2

最佳論文獎(jiǎng)：靈巧手

4

后疫情時(shí)代的機(jī)器人研究

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

2021年最前沿的機(jī)器人研究：無(wú)模型框架擁抱現(xiàn)實(shí)應(yīng)用

2 最佳論文獎(jiǎng)：靈巧手

4 后疫情時(shí)代的機(jī)器人研究

2

最佳論文獎(jiǎng)：靈巧手

4

后疫情時(shí)代的機(jī)器人研究