近日,美國(guó)機(jī)器人領(lǐng)域的創(chuàng)新企業(yè)Figure AI發(fā)布了一項(xiàng)重大突破:一款名為Helix的通用型視覺(jué)語(yǔ)言動(dòng)作(VLA)模型。這款模型首次實(shí)現(xiàn)了對(duì)人形機(jī)器人完整上半身的高速連續(xù)控制,將感知、語(yǔ)言理解與學(xué)習(xí)控制完美融合。
Helix模型的問(wèn)世,標(biāo)志著人形機(jī)器人在操作靈活性上邁出了重要一步。用戶只需發(fā)出簡(jiǎn)單的自然語(yǔ)言指令,無(wú)需任何事先演示或定制編程,機(jī)器人便能輕松抓取幾乎所有家庭小物件,即便是那些訓(xùn)練時(shí)從未接觸過(guò)的物品也不在話下。這一能力得益于Helix模型強(qiáng)大的物體泛化能力。
Figure發(fā)布VLA模型Helix:一句話指令,人形機(jī)器人協(xié)作干家務(wù)
Figure AI強(qiáng)調(diào),Helix模型創(chuàng)造了多項(xiàng)業(yè)界首次成就。它首次實(shí)現(xiàn)了對(duì)仿人機(jī)器人完整上半身的高速連續(xù)控制,包括手腕、軀干、頭部及每根手指的靈活操控。在測(cè)試中,機(jī)器人成功處理了數(shù)千件雜亂無(wú)章的新物品,從玻璃器皿、玩具到工具和衣服,均無(wú)需事先演示或編程。
Figure發(fā)布VLA模型Helix:一句話指令,人形機(jī)器人協(xié)作干家務(wù)
更令人驚嘆的是,Helix模型還具備多機(jī)器人協(xié)作能力。在測(cè)試中,兩臺(tái)機(jī)器人能夠協(xié)同完成長(zhǎng)期復(fù)雜任務(wù),共同處理從未見(jiàn)過(guò)的物品,如合作整理陌生雜貨。這種能力為機(jī)器人在家庭環(huán)境中的實(shí)際應(yīng)用提供了更多可能性。
Figure發(fā)布VLA模型Helix:一句話指令,人形機(jī)器人協(xié)作干家務(wù)
Helix模型還展現(xiàn)了出色的場(chǎng)景理解與語(yǔ)義解析能力。當(dāng)提示“撿起沙漠物品”時(shí),機(jī)器人不僅能夠識(shí)別出玩具仙人掌符合這一抽象概念,還能選擇最近的手并執(zhí)行精確的抓取動(dòng)作。這種從語(yǔ)言到動(dòng)作的通用抓取功能,為非結(jié)構(gòu)化環(huán)境中部署人形機(jī)器人提供了更大的便利。
Figure發(fā)布VLA模型Helix:一句話指令,人形機(jī)器人協(xié)作干家務(wù)
Helix模型之所以能夠?qū)崿F(xiàn)這些突破,得益于其開(kāi)創(chuàng)性的雙系統(tǒng)架構(gòu)。該架構(gòu)由系統(tǒng)1和系統(tǒng)2組成,分別負(fù)責(zé)高速精準(zhǔn)控制和場(chǎng)景理解與語(yǔ)義解析。系統(tǒng)2基于7B參數(shù)的開(kāi)源VLM,以7-9Hz頻率運(yùn)行,確??缥矬w、跨場(chǎng)景的泛化能力。而系統(tǒng)1則是一個(gè)80M參數(shù)的視覺(jué)運(yùn)動(dòng)策略模型,以200Hz頻率將系統(tǒng)2的語(yǔ)義表征轉(zhuǎn)化為連續(xù)動(dòng)作指令,實(shí)現(xiàn)毫秒級(jí)實(shí)時(shí)響應(yīng)。這種解耦架構(gòu)使得兩個(gè)系統(tǒng)能夠各司其職,共同實(shí)現(xiàn)高效的人形機(jī)器人控制。
Figure發(fā)布VLA模型Helix:一句話指令,人形機(jī)器人協(xié)作干家務(wù)
Helix模型在訓(xùn)練過(guò)程中使用了極少的資源。團(tuán)隊(duì)僅使用了約500小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù),便實(shí)現(xiàn)了強(qiáng)大的物體泛化能力。這些數(shù)據(jù)僅占先前收集的視覺(jué)語(yǔ)言動(dòng)作(VLA)數(shù)據(jù)集規(guī)模的5%不到,且無(wú)需依賴多機(jī)器人實(shí)體收集或多階段訓(xùn)練。這一成果不僅展示了Helix模型的高效性,也為未來(lái)人形機(jī)器人的發(fā)展提供了更多可能性。