機(jī)器人成為家務(wù)能手還要多久?

近日,meta AI發(fā)布了一項(xiàng)新的研究成果:基于開放知識的機(jī)器人框架OK-Robot。代碼即將開源。
OK-Robot是一個(gè)開放知識機(jī)器人系統(tǒng),它集成了各種在公開數(shù)據(jù)上訓(xùn)練的學(xué)習(xí)模型,在現(xiàn)實(shí)環(huán)境中挑選和丟棄物體。
在實(shí)驗(yàn)中,OK-Robot無需預(yù)訓(xùn)練,在10個(gè)真實(shí)家庭環(huán)境中測試表現(xiàn)出色,為機(jī)器人在家庭環(huán)境中的實(shí)際應(yīng)用帶來了新的可能。

項(xiàng)目網(wǎng)站:mahi cs.nyu.edu
論文鏈接:https://arxiv.org/pdf/2401.12202.pdf
近年來,視覺、語言和機(jī)器人技術(shù)等領(lǐng)域取得了顯著進(jìn)展:能夠基于語言查詢識別物體的視覺模型,能夠有效控制移動(dòng)系統(tǒng)的導(dǎo)航系統(tǒng),以及可以處理各種物體的抓取模型,但機(jī)器人技術(shù)的通用應(yīng)用仍然落后。
因此,團(tuán)隊(duì)采用了一種系統(tǒng)優(yōu)先的方法開發(fā)了一個(gè)新的基于開放知識的機(jī)器人框架——OK-Robot。在這里,開放知識指的是在大型的、公開可用的數(shù)據(jù)集上訓(xùn)練的學(xué)習(xí)模型。
通過將用于物體檢測的視覺語言模型(VLM)、用于運(yùn)動(dòng)的導(dǎo)航基元和用于對象操作的抓取基元相結(jié)合,OK-Robot無需任何培訓(xùn)即可為拾取和放下操作提供集成解決方案。
為了評估其性能,團(tuán)隊(duì)在10個(gè)真實(shí)世界的家庭環(huán)境中運(yùn)行OK-Robot。結(jié)果表明,OK-Robot在開放式拾取和丟棄任務(wù)中取得了58.5%的成功率,代表了開放詞匯移動(dòng)操作(OVMM)的新水平,其性能幾乎是先前工作的1.8倍。而在更干凈、整潔的環(huán)境中,OK-Robot的性能提高到82%。然而,從OK-Robot獲得的最重要的見解是,在將VLM等開放式知識系統(tǒng)與機(jī)器人模塊相結(jié)合時(shí),細(xì)微的細(xì)節(jié)起著關(guān)鍵作用。
通過實(shí)驗(yàn),他們得出了以下結(jié)論:
預(yù)先訓(xùn)練的視覺語言模型對開放詞匯導(dǎo)航非常有效:當(dāng)前的開放詞匯視覺語言模型,如CLIP或OWL-ViT,在現(xiàn)實(shí)世界中識別任意對象方面性能出色,并能以零樣本的方式導(dǎo)航、找到這些物體。
預(yù)先訓(xùn)練好的抓取模型可直接應(yīng)用于移動(dòng)操控:與VLM類似,根據(jù)大量數(shù)據(jù)預(yù)先訓(xùn)練的特殊機(jī)器人模型可以直接應(yīng)用于家庭中的開放詞匯抓取。這些機(jī)器人模型不需要任何額外的訓(xùn)練或微調(diào)。
組件如何組合至關(guān)重要:給定預(yù)先訓(xùn)練的模型,可以使用一個(gè)簡單的狀態(tài)機(jī)模型與不進(jìn)行訓(xùn)練的情況組合。使用啟發(fā)式方法來抵消機(jī)器人的物理限制,在現(xiàn)實(shí)世界中成功率更高。
這兩年,機(jī)器人做家務(wù)已屢見不鮮。從會(huì)炒菜的Mobile ALOHA、李飛飛的NOIR系統(tǒng),再到做咖啡的Figure 01,雖然還不完善,但這些機(jī)器人技術(shù)的出現(xiàn)和進(jìn)步使我們看到了機(jī)器人在家用市場的超級可能。
這種家用機(jī)器人為什么還沒有走進(jìn)千家萬戶呢?首先,它們做起事情來并不夠靈活,做不到下樓梯、開酒瓶等工作。另外,家庭房屋建筑樣式繁瑣,它們沒有足夠的智力去知道該怎么收拾。更現(xiàn)實(shí)的問題是,這種家用機(jī)器人往往價(jià)格不菲。
可能在我們看來,機(jī)器人做家務(wù)比在工廠里簡單很多,但是,機(jī)器人畢竟只是機(jī)器,工廠里的機(jī)械動(dòng)作并不麻煩,瑣碎的家務(wù)才是最大的挑戰(zhàn)。制造一輛汽車對它來說可能不是大事,但簡簡單單鋪個(gè)床它卻做不了。因此我們說,在人性化的角度上,機(jī)器人永遠(yuǎn)追不上人。
但是,隨著技術(shù)的進(jìn)步,家用機(jī)器人的普及是一件必然的事情,或許未來有一天,我們能夠享受到這種人性化的來自機(jī)器人的家政服務(wù)。