在機器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的通用具身基座模型于近日震撼發(fā)布,標(biāo)志著機器人在理解和執(zhí)行人類指令方面邁出了重要一步。這款模型由智元機器人公司傾力打造,以其獨特的Vision-Language-Latent-Action(ViLLA)框架,展現(xiàn)了小樣本快速泛化、跨本體應(yīng)用、持續(xù)進化及人類視頻學(xué)習(xí)等多重優(yōu)勢。
GO-1的核心在于其創(chuàng)新的ViLLA框架,該框架融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為主干網(wǎng)絡(luò),繼承了開源多模態(tài)大模型的權(quán)重,并利用互聯(lián)網(wǎng)上的大規(guī)模文本和圖文數(shù)據(jù),賦予了GO-1強大的場景感知和理解能力。而MoE中的隱動作專家模型和動作專家模型,則分別通過學(xué)習(xí)互聯(lián)網(wǎng)上的人類操作視頻和高質(zhì)量的仿真及真機數(shù)據(jù),實現(xiàn)了對動作的理解和精細執(zhí)行能力。
GO-1的發(fā)布,不僅展示了其在技術(shù)上的突破,更體現(xiàn)了其在實際應(yīng)用中的廣泛潛力。其五大特點——采訓(xùn)推一體、小樣本快速泛化、一腦多形、持續(xù)進化以及人類視頻學(xué)習(xí),共同構(gòu)成了GO-1強大的競爭力。這意味著,無論是在家庭場景中的簡單任務(wù),還是在辦公和商業(yè)場景中的復(fù)雜工作,GO-1都能迅速適應(yīng)并高效完成。
在具身智能領(lǐng)域,GO-1的推出無疑是一次革命性的進展。它打破了傳統(tǒng)機器人在場景和物體泛化、語言理解能力以及新技能學(xué)習(xí)方面的局限。通過ViLLA框架,GO-1能夠?qū)⑤斎氲亩嘞鄼C視覺信號和人類語言指令直接轉(zhuǎn)化為機器人的動作執(zhí)行。這一能力,使得GO-1在面對各種復(fù)雜指令時,都能迅速拆解并精準(zhǔn)執(zhí)行。
例如,當(dāng)用戶告訴機器人“掛衣服”時,GO-1能夠首先理解這一指令的含義和要求,然后回憶并模擬掛衣服的過程,最后精準(zhǔn)完成整個任務(wù)。這種能力,不僅讓機器人在日常生活中更加便捷實用,也為其在更多場景中的應(yīng)用提供了無限可能。
GO-1的持續(xù)進化能力也是其不可忽視的一大亮點。通過數(shù)據(jù)回流系統(tǒng),GO-1能夠從實際執(zhí)行中遇到的問題數(shù)據(jù)中不斷學(xué)習(xí)進化,不斷提升自身的執(zhí)行任務(wù)能力。這意味著,隨著時間的推移和經(jīng)驗的積累,GO-1將變得越來越智能、越來越高效。
在商務(wù)會議、家庭生活、工業(yè)制造等多個場景中,GO-1都展現(xiàn)出了其強大的應(yīng)用潛力。無論是準(zhǔn)備餐食、收拾桌面這樣的簡單任務(wù),還是接待訪客、發(fā)放物品這類復(fù)雜工作,GO-1都能輕松應(yīng)對。這一能力的實現(xiàn),不僅極大地提升了機器人的實用性和智能化水平,也為人類的生活和工作帶來了更多的便利和可能。