Google發(fā)布了一款名為機(jī)器人變形金剛2(Robotics Transformer 2 RT-2)的新型視覺-語(yǔ)言-動(dòng)作(VLA)模型,并將其稱為"同類首創(chuàng)"。據(jù)Google稱,RT-2能夠接受文本或圖像輸入,并輸出機(jī)器人動(dòng)作。


該公司表示,訓(xùn)練機(jī)器人可能是一項(xiàng)"艱巨的工作",因?yàn)樗鼈冃枰槍?duì)世界上的每個(gè)物體、環(huán)境、任務(wù)和情況進(jìn)行數(shù)十億點(diǎn)數(shù)據(jù)的訓(xùn)練。不過,Google表示,RT-2為更多的通用機(jī)器人帶來(lái)了巨大的發(fā)展前景。
雖然該公司對(duì)RT-2所能帶來(lái)的好處感到興奮,但它表示,要讓機(jī)器人在以人為中心的環(huán)境中發(fā)揮作用,還有很多工作要做。DeepMind認(rèn)為,通用物理機(jī)器人可以從VLA模型中產(chǎn)生,它們可以推理、解決問題和解釋信息,以執(zhí)行現(xiàn)實(shí)世界中的任務(wù)。
顧名思義,這并不是機(jī)器人變形VLA模型的第一次迭代。DeepMind表示,RT-2建立在RT-1的基礎(chǔ)上,與之前的模型相比,泛化能力有所提高,在新的、未見過的任務(wù)上表現(xiàn)更好。
與前代機(jī)器人相比,RT-2的另一項(xiàng)新技能是符號(hào)推理,這意味著它能理解抽象概念并對(duì)其進(jìn)行邏輯操作。其中一個(gè)例子是,機(jī)器人被要求將巴納移動(dòng)到2加1的總和處,盡管它并沒有接受過抽象數(shù)學(xué)或符號(hào)操作的明確訓(xùn)練,但它還是正確地完成了任務(wù)。
雖然RT-2是機(jī)器人技術(shù)向前邁出的一大步,但宣布終結(jié)者機(jī)器人已經(jīng)到來(lái)并不公平。該模型仍然需要人類的輸入和監(jiān)督,并且在實(shí)際機(jī)器人操作中會(huì)遇到很大的技術(shù)限制。
盡管如此,我們還是希望它能帶來(lái)一些有趣的機(jī)器人,完成以前不可能或不容易完成的任務(wù)。