熱搜： irobot 機(jī)器人佳士科技工業(yè)機(jī)器人機(jī)器人產(chǎn)業(yè)聯(lián)盟機(jī)械手 ABB 發(fā)那科機(jī)器人展覽碼垛機(jī)器人

突破Pick&Place，實(shí)現(xiàn)長程任務(wù)泛化！首個(gè)端到端強(qiáng)化學(xué)習(xí)具身模型Psi R0，橫空出世！

日期：2024-12-30 來源：網(wǎng)絡(luò) 作者：angle 評論：0

標(biāo)簽：

近日，靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)（RL）的端到端具身模型Psi R0。該模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作，將多個(gè)技能串聯(lián)混訓(xùn)，生成具有推理能力的智能體，從而完成并閉環(huán)長程靈巧操作任務(wù)。并且，Psi R0還可以實(shí)現(xiàn)跨物品、跨場景級別的泛化。

真實(shí)世界中，人類生活近乎100%的場景涉及抓握、轉(zhuǎn)動(dòng)、捏取、觸摸等操作，而其中超過 90% 的操作屬于多技能融合的長程任務(wù)。然而在當(dāng)下具身業(yè)界，多局限于Pick and Place操作的泛化，一旦任務(wù)復(fù)雜化、長程化，泛化性和成功率則大大降低，無法兼顧——這也是具身智能只能存在于demo，遲遲無法在真實(shí)場景中落地的核心原因！機(jī)器人如何突破Pick and Place、脫離遙操作，擁有自主完成長程靈巧操作的能力，實(shí)現(xiàn)真正類人的場景級任務(wù)閉環(huán)，仍是具身智能亟待攻克的難題。

RL是長程靈巧操作實(shí)現(xiàn)任務(wù)閉環(huán)的唯一解

在真實(shí)世界中，機(jī)器人解決長程任務(wù)必須通過Learning-based模式，目前主流技術(shù)路徑有兩種：模仿學(xué)習(xí)（IL）和強(qiáng)化學(xué)習(xí)（RL）。

純模仿學(xué)習(xí)的泛化能力受限于示范行為的多樣性和質(zhì)量。加之長程任務(wù)步驟較多，更容易出現(xiàn)分布漂移問題，使得 IL實(shí)現(xiàn)長程任務(wù)的泛化性能較差，魯棒性也較弱。

基于RL的Psi R0 模型，使用海量仿真數(shù)據(jù)高效訓(xùn)練出雙手操作的智能體，并通過雙向訓(xùn)練框架串聯(lián)多技能，在業(yè)界率先完成開放環(huán)境中的長程任務(wù)，具備較強(qiáng)的泛化能力與較高的魯棒性。這一技能訓(xùn)練框架從物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù)，從而解決獎(jiǎng)勵(lì)函數(shù)難設(shè)計(jì)的問題。在后訓(xùn)練階段，通過少量高質(zhì)量真機(jī)數(shù)據(jù)對齊，進(jìn)一步提升長程任務(wù)的成功率。除此之外，雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用，它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性，同時(shí)賦予模型自主切換技能的能力，使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略，確保高成功率。

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu

Psi R0 模型表現(xiàn)出的靈巧性、高成功率以及泛化性，充分展示了其大腦的任務(wù)拆解與規(guī)劃能力，以及小腦的靈巧操作、泛化和魯棒能力。這一模型的誕生，突破了當(dāng)前具身機(jī)器人在商業(yè)化應(yīng)用進(jìn)程中所面臨的核心技術(shù)瓶頸，為整個(gè)行業(yè)的未來發(fā)展開拓出一片全新且廣闊的天地，有望引領(lǐng)具身機(jī)器人邁向全新的發(fā)展階段。

從理論概念到有效落地，Psi R0解答了具身智能商業(yè)化的終極命題

長程任務(wù)靈巧操作場景無處不在，從工廠產(chǎn)線組裝，到服務(wù)業(yè)的揀貨打包，到家居環(huán)境的清潔整理。

Psi R0模型的智能體展示了其強(qiáng)大的場景落地能力。以電商場景為例，商品打包是典型的長程任務(wù)作業(yè)，需對上萬件商品進(jìn)行抓取，掃碼，放置，塑料袋打結(jié)等多個(gè)操作。Psi R0能夠使用雙靈巧手流暢地完成這一系列動(dòng)作（此系列動(dòng)作在客戶現(xiàn)場可以取代一個(gè)完整工位），成為首個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練完成長程靈巧操作任務(wù)的具身機(jī)器人。

視頻中，機(jī)器人系統(tǒng)接收到的指令僅僅是“將桌面的物體打包”，而這一看似簡單的任務(wù)背后，是靈初智能極具創(chuàng)新性的端到端技術(shù)架構(gòu)在發(fā)揮作用。當(dāng)指令下達(dá)后，上層視覺語言模型（VLM）對桌上混亂擺放的商品進(jìn)行分析，編排出商品的操作順序，下層操作模型拆解出單個(gè)商品的子任務(wù)，如抓取、放置、掃碼、打包等，智能體依次執(zhí)行。

抓取環(huán)節(jié)，面對隨意擺放、形狀各異的商品，模型必須具備高度的泛化能力，才能成功完成商品的逐個(gè)抓取。視頻中展示的品客薯片，Psi R0 僅僅依靠 20 條真機(jī)數(shù)據(jù)，模型就成功實(shí)現(xiàn)了99%+的成功抓取率。

掃碼環(huán)節(jié)更是考驗(yàn)機(jī)器人的靈巧操作水平，需要雙手高度精細(xì)地協(xié)調(diào)彼此相對位置，以確保掃碼槍與商品條碼能夠精準(zhǔn)對齊，任何細(xì)微偏差都可能導(dǎo)致掃碼失敗。此時(shí)，RL訓(xùn)練策略為雙手雙臂構(gòu)成的高自由度復(fù)雜系統(tǒng)提供了可靠的實(shí)時(shí)閉環(huán)控制，保障掃碼動(dòng)作精準(zhǔn)流暢地完成。

打包環(huán)節(jié)，需要雙手協(xié)調(diào)完成對塑料袋的靈巧操作。在動(dòng)態(tài)打包的過程中，塑料袋的形狀會(huì)隨動(dòng)作變化，需要實(shí)時(shí)調(diào)整操作。為了提升機(jī)器人對柔性物體的操作適應(yīng)能力，Psi R0在仿真環(huán)境中模擬多種柔性物體的操作場景，同時(shí)結(jié)合真機(jī)數(shù)據(jù)進(jìn)行微調(diào)優(yōu)化。甚至在被打斷、干擾的情況下，也能自適應(yīng)調(diào)整策略，重新進(jìn)行打包動(dòng)作。

靈初智能Psi R0模型是具身智能遞歸性成長的第一步。具身智能將遵從從簡單到復(fù)雜、從保護(hù)到協(xié)同的漸進(jìn)式演進(jìn)。在早期，小腦是與真實(shí)世界交互的物理基礎(chǔ)，其設(shè)計(jì)需結(jié)合領(lǐng)域知識，滿足環(huán)境中的約束條件，同時(shí)具備容錯(cuò)性，支持大腦學(xué)習(xí)與優(yōu)化。Psi R0模型發(fā)揮RL算法探索的優(yōu)勢，支持小腦的快速迭代，生成支持長程靈巧操作的智能體。通過靈巧操作轉(zhuǎn)動(dòng)數(shù)據(jù)飛輪，實(shí)現(xiàn)從小腦Action到大腦Cognition的閉環(huán)回饋，驅(qū)動(dòng)大腦認(rèn)知能力優(yōu)化，模型持續(xù)迭代，形成小腦協(xié)同+大腦優(yōu)化的具身智能“神經(jīng)回路”，使端到端模型完成從簡單到復(fù)雜、從保護(hù)到協(xié)同的漸進(jìn)式演進(jìn)。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

^{<del id="oysmc"></del>}

• 標(biāo)準(zhǔn)化、有效性、通用性，具身智能數(shù)據(jù)集建設(shè)步	• 挑戰(zhàn)高通、紫光展銳，消息稱恒玄科技正研發(fā) AI
• 日本 6 家半導(dǎo)體企業(yè)就培養(yǎng)及獲得人才展開合作	• 億航智能與中交信科達(dá)成戰(zhàn)略合作，計(jì)劃未來三年
• “AI 教父”杰弗里?辛頓：30 年內(nèi)人工智能致人	• 京張鐵路遺址公園“上新”，AI餐飲機(jī)器人為游客
• “開著”飛機(jī)去種田我市對農(nóng)技人員開展無人機(jī)	• 高盛：2035年人形機(jī)器人市場規(guī)模達(dá)380億美元
• 全國政協(xié)委員賀晗：3D數(shù)據(jù)是人形機(jī)器人發(fā)展關(guān)鍵	• 浙北地區(qū)首臺達(dá)芬奇機(jī)器人手術(shù)開展

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	機(jī)氣林	人形機(jī)器人生態(tài)大會(huì)	ITES深圳工業(yè)展	廣西工博會(huì)	順企網(wǎng)
優(yōu)氣壓縮機(jī)（上海）有限公司	機(jī)器人研究院	庫卡機(jī)器人	中國傳動(dòng)網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會(huì)
國際現(xiàn)代工廠/過程自動(dòng)化技術(shù)與裝備展覽會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

突破Pick&Place，實(shí)現(xiàn)長程任務(wù)泛化！首個(gè)端到端強(qiáng)化學(xué)習(xí)具身模型Psi R0，橫空出世！

突破Pick&Place，實(shí)現(xiàn)長程任務(wù)泛化！首個(gè)端到端強(qiáng)化學(xué)習(xí)具身模型Psi R0，橫空出世！