以“具身智能,未來已來”為主題的2025張江具身智能開發(fā)者大會暨2025國際人形機器人技能大賽5月29日在上海舉行。2025國際人形機器人技能大賽設(shè)置5大賽道,覆蓋28個高難度場景,本次大賽旨在集中展示人形機器人解決實際問題的能力和場景應(yīng)用落地能力,助力機器人產(chǎn)業(yè)向“能看、會說、有智商”進階。
國家地方共建人形機器人創(chuàng)新中心首席科學(xué)家江磊在接受證券時報記者采訪時表示,上海聚焦人形機器人在生產(chǎn)制造、服務(wù)場景中的實際應(yīng)用,強調(diào) “解決實際問題”。本次大賽設(shè)定商超、藥店、工業(yè)制造等真實場景任務(wù),以場景驅(qū)動行業(yè)回歸實用。江磊說,公眾需以包容的心態(tài)看待機器人行業(yè)發(fā)展現(xiàn)狀。行業(yè)的快速發(fā)展僅有3年左右時間,如同“三歲兒童”,需給予它更長的時間發(fā)育。
記者了解到,此次賽事的所有項目均源自企業(yè)實際需求,每個賽道都還原了真實應(yīng)用場景,總體難度較大。因此,機器人未能完成任務(wù)并非其個別技術(shù)水平欠佳,而是全行業(yè)尚有提升空間,這也體現(xiàn)了大賽的客觀性和包容性。
在人形機器人應(yīng)用場景挑戰(zhàn)賽進行時,記者看到,機器人正在裁判員的監(jiān)督下完成汽車貼標(biāo)、料箱搬運等高精度任務(wù),另一側(cè)家庭場景則考驗機器人桌面整理、衣物折疊等服務(wù)能力。這些任務(wù),有利于驗證當(dāng)下機器人的負載、地面適應(yīng)、雙臂協(xié)作等關(guān)鍵能力的實際水準。
上海交通大學(xué)學(xué)生張林同團隊一起參加了工業(yè)場景賽,并聚焦汽車貼標(biāo)和零部件上下料兩項任務(wù)。張林對證券時報記者表示,縱觀整場賽事,機器人多依賴遙操作實現(xiàn)物料抓取等動作,尚未實現(xiàn)全自主操作,這表明其離真正的落地應(yīng)用仍有一定距離。
“機器人的自主行為需通過訓(xùn)練實現(xiàn),但當(dāng)前數(shù)據(jù)集缺失,且算法創(chuàng)新不足,難以支撐機器人對復(fù)雜任務(wù)的自主決策。此外,一些機器人的硬件自由度不足,表明機械結(jié)構(gòu)、控制精度等也有進步空間?!睆埩直硎?,相比大語言模型的快速發(fā)展,具身智能(機器人物理交互)因涉及硬件、算法、數(shù)據(jù)等多維度挑戰(zhàn),落地進度相對滯后。
近年來,機器人如何進入家庭、如何大規(guī)模入駐工業(yè)場景等正成為公眾關(guān)注的焦點。對此,多名專家在接受證券時報記者采訪時表示,機器人產(chǎn)業(yè)需要和大模型有機結(jié)合,形成軟硬協(xié)同和多元場景落地,進而搭建起商業(yè)模式的正向閉環(huán)。
千尋智能(杭州)科技有限公司CEO韓峰濤在接受證券時報記者采訪時表示,目前,機器人硬件相對成熟,但機器人表現(xiàn)較“笨”,關(guān)鍵在于智能缺失,這也是行業(yè)的一大瓶頸。
“要解決這一問題,需打造端到端的具身大模型,讓機器人能理解物理世界的規(guī)律和因果關(guān)系,從而自主調(diào)整動作。比如,讓機器人理解足球并自主完成踢球動作,而不是當(dāng)下的依賴遙控?!表n峰濤表示,中國憑借強大的供應(yīng)鏈、團隊和豐富場景,在AI與硬件結(jié)合方面頗具優(yōu)勢。不過,其中最大的難題是數(shù)據(jù)匱乏。訓(xùn)練大語言模型有互聯(lián)網(wǎng)海量數(shù)據(jù)可用,但機器人干活的數(shù)據(jù)卻需要重新采集,目前主要通過海量視頻預(yù)訓(xùn)練、遙操作微調(diào)以及強化學(xué)習(xí)來解決數(shù)據(jù)問題。
圍繞上述難題,光輪智能(北京)科技有限公司創(chuàng)始人、CEO楊海波提出了一定的解決方案。楊海波對證券時報記者表示,公司專注于為AI進入物理世界提供基于仿真技術(shù)的合成數(shù)據(jù),能通過合成數(shù)據(jù)加速AI大腦訓(xùn)練及落地場景應(yīng)用。
“仿真合成數(shù)據(jù)具有成本優(yōu)勢,無需依賴真實場景搭建與硬件設(shè)備,資源投入更低,數(shù)據(jù)生成效率更高。此外,仿真合成數(shù)據(jù)是泛化的、多樣的,可自定義各類極端或罕見場景,滿足AI訓(xùn)練對數(shù)據(jù)多樣性的需求?!睏詈2ū硎?,當(dāng)前行業(yè)通過真實數(shù)據(jù)、仿真合成數(shù)據(jù)、網(wǎng)絡(luò)視頻數(shù)據(jù)共同用于具身智能訓(xùn)練。公司積累了豐富的實踐經(jīng)驗,形成了合成數(shù)據(jù)的使用方法論,包括配比和使用順序等。事實上,具身智能訓(xùn)練階段90%以上使用仿真合成數(shù)據(jù)。