Google DeepMind發(fā)布兩款基于Gemini 2.0的人工智能(AI)模型,分別為Gemini Robotics和Gemini Robotics-ER,標(biāo)志著AI在現(xiàn)實世界的應(yīng)用邁進(jìn)新階段。這兩款模型不僅能夠理解及回應(yīng)語言、圖像和視頻等資訊,更進(jìn)一步實現(xiàn)物理行動,讓AI具備“具身推理”(Embodied Reasoning),即像人類一樣感知環(huán)境并作出實際行動。
Gemini Robotics以Gemini 2.0為基礎(chǔ),加入了機(jī)械控制功能,令A(yù)I不只是停留于數(shù)碼世界,還能實際操作機(jī)器人執(zhí)行各種任務(wù)。該模型具備三大核心能力:
測試結(jié)果顯示,Gemini Robotics在通用性測試基準(zhǔn)上的表現(xiàn)超越現(xiàn)有視覺-語言-動作(VLA)模型超過兩倍,進(jìn)一步推動機(jī)器人在現(xiàn)實世界的應(yīng)用。
另一款模型Gemini Robotics-ER強(qiáng)化AI的空間感知能力,使機(jī)器人可更靈活運用Gemini 2.0進(jìn)行復(fù)雜場景的決策與操作。Google DeepMind也與一眾研究人員合作,讓開發(fā)者利用該技術(shù)研發(fā)更多應(yīng)用場景。
Google DeepMind正與機(jī)器人技術(shù)公司Apptronik合作,基于Gemini 2.0研發(fā)新一代人形機(jī)器人。其Apollo機(jī)器人平臺便是其中一個示范案例,展示Gemini Robotics如何適應(yīng)不同機(jī)械結(jié)構(gòu),進(jìn)行更復(fù)雜的任務(wù)。
Google DeepMind表示,未來將繼續(xù)探索Gemini Robotics的應(yīng)用,并邀請?zhí)剡x測試者參與開發(fā),期望將AI技術(shù)更廣泛應(yīng)用于現(xiàn)實世界。