字節(jié)跳動旗下的Seed團隊在7月22日宣布了兩項重要成果:一款名為GR-3的高性能視覺語言動作(VLA)模型,以及一款與之配套的通用雙臂移動機器人ByteMini。這兩款產(chǎn)品的發(fā)布,標(biāo)志著Seed團隊在機器人智能化領(lǐng)域邁出了重要一步。
GR-3模型的最大亮點在于其卓越的泛化能力。與以往需要大量機器人軌跡數(shù)據(jù)訓(xùn)練的VLA模型不同,GR-3僅需少量人類數(shù)據(jù)即可實現(xiàn)高效微調(diào),迅速適應(yīng)新任務(wù)和新物體。這意味著,GR-3能夠快速“學(xué)習(xí)”并理解包含抽象概念的語言指令,從而在復(fù)雜多變的環(huán)境中展現(xiàn)出強大的適應(yīng)性。GR-3還能精細(xì)地操作柔性物體,這一能力在以往的VLA模型中并不常見。
GR-3在處理長程任務(wù)和高靈巧度操作方面也表現(xiàn)出色。這得益于其改進的模型結(jié)構(gòu),使得GR-3能夠同時處理雙手協(xié)同操作、柔性物體操作以及融合底盤移動的全身操作等多種復(fù)雜任務(wù)。這種多任務(wù)處理能力,使得GR-3在實際應(yīng)用中具有更高的靈活性和實用性。
為了實現(xiàn)GR-3的這些能力,Seed團隊采用了一種多樣的模型訓(xùn)練方法。他們不僅收集了遙操作機器人獲取的高質(zhì)量真機數(shù)據(jù),還通過用戶授權(quán)征集了基于VR設(shè)備的人類軌跡數(shù)據(jù),以及公開可用的大規(guī)模視覺語言數(shù)據(jù)。這些多樣性數(shù)據(jù)的融合,為GR-3的訓(xùn)練提供了豐富的“營養(yǎng)”,使其能夠在復(fù)雜多變的環(huán)境中快速學(xué)習(xí)和適應(yīng)。
而與GR-3配套的ByteMini機器人,則是一款高靈活性、高可靠性的通用雙臂移動機器人。這款機器人專為GR-3設(shè)計,搭載了無偏置7個自由度機械臂和22個自由度全身運動系統(tǒng)。機械臂手腕采用球形設(shè)計,能夠在狹小空間內(nèi)完成各種精細(xì)操作。同時,ByteMini還搭載了多顆攝像頭和全身運動控制系統(tǒng)(WBC),使其能夠高效地在真實環(huán)境中處理復(fù)雜任務(wù)。
在實際應(yīng)用中,GR-3和ByteMini的組合展現(xiàn)出了驚人的表現(xiàn)。在超長序列的餐桌整理任務(wù)中,GR-3能夠高魯棒性、高成功率地完成任務(wù),并嚴(yán)格遵循人類分步指令。在復(fù)雜靈巧的掛衣服任務(wù)中,GR-3能夠控制雙臂協(xié)同操作可形變?nèi)嵝晕矬w,并魯棒識別并整理不同擺放方式的衣服。在各類物體抓取放置任務(wù)中,GR-3能夠泛化到抓取未見過的物體,并理解包含復(fù)雜抽象概念的指令。
從技術(shù)層面來看,GR-3采用了MoT的網(wǎng)絡(luò)結(jié)構(gòu),將“視覺-語言模塊”和“動作生成模塊”結(jié)合成了一個40億參數(shù)的端到端模型。這種結(jié)構(gòu)使得GR-3在處理復(fù)雜任務(wù)時更加高效和準(zhǔn)確。同時,GR-3的數(shù)據(jù)訓(xùn)練方法也突破了傳統(tǒng)機器人的局限,采用了三合一數(shù)據(jù)訓(xùn)練法,從多種數(shù)據(jù)源中學(xué)習(xí)知識,進一步提升了其泛化能力和適應(yīng)性。