《科創(chuàng)板日報》3月19日訊(編輯宋子喬)一個有靈魂的機器人/仿真人被制造出來,磕磕碰碰地生活在人類世界,在此過程中碰撞出愛情、友情、親情……相信你對這個劇本并不陌生,匹諾曹、剪刀手愛德華、銀翼殺手等作品都已精彩演繹。
在現實世界中,這類具備自主決策和行動能力的機器人/仿真人是通用AI的高級形態(tài)——具身智能機器人,一個具有物理實體、可與真實世界進行多模態(tài)交互,像人類一樣感知和理解環(huán)境,并通過自主學習完成任務的智能體。
正如斯坦福大學計算機科學教授李飛飛所說,“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。”
簡單來說,具身智能機器人可以聽懂人類語言并完成相應任務。理想很豐滿,現實科學止步于“聽懂人類語言”,人們依然嚴重依賴手寫代碼來實現對機器人的控制。
英偉達機器人研究高級主管、華盛頓大學教授DieterFox指出,機器人研究的一個關鍵目標是構建在現實世界中對人類有幫助的機器人。但要做到這一點,它們必須首先接觸并學習如何與人類交互。
如何實現更加便利的人機交互?
GPT等大模型的出現,為推翻樹立在人類與人工智能面前的“巴別塔”提供了新思路——已有不少研究者嘗試將多模態(tài)的大語言模型與機器人結合起來,通過將圖像、文字、具身數據聯合訓練,并引入多模態(tài)輸入,增強模型對現實中對象的理解,幫助機器人處理具身推理任務。
谷歌、微軟的AI團隊走在前列,試圖以大模型為機器人注入靈魂。
3月8日,谷歌和柏林工業(yè)大學的團隊重磅推出了史上最大的視覺語言模型——PaLM-E,參數量高達5620億(GPT-3的參數量為1750億)。作為一種多模態(tài)具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執(zhí)行各種復雜的機器人指令而無需重新訓練。谷歌研究人員計劃探索PaLM-E在現實世界場景中的更多應用,例如家庭自動化或工業(yè)機器人。他們希望PaLM-E能夠激發(fā)更多關于多模態(tài)推理和具身AI的研究。

在最近的一項研究中,微軟團隊在探索如何將OpenA研發(fā)的ChatGPT擴展到機器人領域,從而讓我們用語言直觀控制如機械臂、無人機、家庭輔助機器人等多個平臺。研究人員展示了多個ChatGPT解決機器人難題的示例,以及在操作、空中和導航領域的復雜機器人部署。

兩者抱有同樣的期許:人類操作機器人,不需要學習復雜的編程語言或機器人系統(tǒng)的細節(jié),“言出”(向機器人口述/比劃需求)即“法隨”(機器人完成任務)。
今年2月,谷歌拉響“紅色代碼”警報,以應對ChatGPT帶來的威脅。其新推出的PaLM-E模型與具身智能密不可分,完成機器人具身任務一直是該模型研究的重點,谷歌是否有意押注具身機器人,以完成對ChatGPT聊天機器人的超越?
這個我們不得而知,但顯然,微軟并不懈怠,同樣有志于此,其研究人員相信,基于語言的機器人控制將會為讓機器人從科學實驗室走進日常用戶的生活中奠定基礎。
如果說chatGPT為代表的大模型開啟了通用AI新時代,那么多模態(tài)的、具身的、主動交互式的人工智能體一定是這一時代的必由之路。
或許你并不需要聰明伶俐的在線陪聊教會你什么是量子糾纏,但你可能需要一個“身邊人”為你做飯洗碗遞工具。