2000年圖靈獎得主、中國科學(xué)院院士姚期智認(rèn)為,人工智能領(lǐng)域下一個挑戰(zhàn)將是實現(xiàn)“具身通用人工智能”;科技部副部長、中國科學(xué)院院士吳朝暉在2023中關(guān)村論壇上表示:以ChatGPT為代表的自然語言大模型并不是AI大模型的最終形態(tài),比它更高級的是多模態(tài)的具身智能。他的觀點與英偉達(dá)首席執(zhí)行官黃仁勛相仿,后者今年在一次演講中預(yù)測:人工智能的下一波浪潮是具身智能。其描述的“具身人工智能”是能夠理解、推理并與物理世界互動的智能系統(tǒng),包括機器人技術(shù)、自動駕駛汽車,甚至是聊天機器人,它們會更聰明,因為它們能了解物理世界。
今年以來,我們可以看到的是,具身智能作為人工智能發(fā)展的一個重要分支,正在成為廣泛關(guān)注的熱門,一時之間,具身智能機器人也成為了科技界的新風(fēng)向標(biāo)。那么到底什么是具身智能?
什么是具身智能
據(jù)CCF專家定義,具身智能是指一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應(yīng)性。
具身智能擁有支持感知和運動的物理身體,可以進行主動式感知,也可以執(zhí)行物理任務(wù)。更重要的是,具身智能強調(diào)“感知-行動回路”的重要性,即感受世界—對世界進行建模—進而采取行動—進行驗證并調(diào)整模型的過程;這一過程正是“紙上得來終覺淺,絕知此事要躬行”,與我們?nèi)祟惖膶W(xué)習(xí)和認(rèn)知過程一致。雖然在現(xiàn)今技術(shù)條件下通過與環(huán)境的互動以第一視角得到的數(shù)據(jù)不夠穩(wěn)定,但這種類似于人類自我中心感知的學(xué)習(xí),從視覺、語言和推理到一個人工具象,可以幫助解決更多現(xiàn)實世界中的問題。具身智能相比上一代傳統(tǒng)AI視覺機器人,更具有泛化性,適合重交互性、可自適應(yīng)的場景。
所謂具身智能機器人,即具有主動性的第一人稱智能,其本質(zhì)上是可與環(huán)境交互感知,能自主規(guī)劃、決策、行動,具有執(zhí)行能力的機器人。其核心目標(biāo)是能夠聽到人類語言,然后分解任務(wù),規(guī)劃子任務(wù),在移動中識別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。
具身智能的本質(zhì)是智能體具備和環(huán)境交互感知能力,以及基于感知到的任務(wù)和環(huán)境進行自主規(guī)劃-決策-行動-執(zhí)行等一系列行為的能力。我們判斷,未來的機器人需要真正做到和人一樣,通過實現(xiàn)規(guī)劃決策(大腦)、運動控制(小腦)、主控系統(tǒng)、主干結(jié)構(gòu)及零部件的組合(類似于人的一系列關(guān)節(jié)和肌肉)達(dá)成這一目標(biāo)。
萌芽與發(fā)展
具身智能的思想萌芽于人工智能誕生之初。1950年,圖靈在其為人工智能奠基、提出圖靈測試的經(jīng)典論文《Computing Machinery and Intelligence》的結(jié)尾展望了人工智能可能的兩條發(fā)展道路:一條路是聚焦抽象計算(比如下棋)所需的智能,另一條路則是為機器配備最好的傳感器、使其可以與人類交流、像嬰兒一樣地進行學(xué)習(xí)。這兩條道路便逐漸演變成了非具身和具身智能。
在具身智能的發(fā)展道路上,人們思考和探討人工智能系統(tǒng)是否需要擁有與人類相似的身體和感知能力,以及身體如何影響智能和認(rèn)知。早期的具身智能研究主要集中在機器人學(xué)和仿生學(xué)領(lǐng)域,逐漸發(fā)展并融合了跨學(xué)科的方法和技術(shù)。近年來,隨著深度學(xué)習(xí)等技術(shù)的快速發(fā)展,具身智能研究進入了一個新的階段。研究人員利用虛擬物理環(huán)境和強大的計算能力,設(shè)計和訓(xùn)練具備感知和行動能力的智能系統(tǒng),并將這種交互能力遷移到真實世界、使智能體進行自主決策和執(zhí)行物理交互任務(wù)。
目前,微軟、谷歌、英偉達(dá)以及斯坦福、卡耐基梅隆等高等學(xué)府均開展了具身智能的相關(guān)研究。其中斯坦福AI實驗室主任李飛飛認(rèn)為,具身智能不單單指人形機器人,任何能在空間中移動的有形智能機器都是人工智能的一種形式。
“具身智能”時代有望來臨
姚期智在“2023世界機器人大會”上表示,“具身AGI最理想身體的形式應(yīng)該就是人形機器人。人類的社會環(huán)境主要是為人類定制,比如說樓梯的結(jié)構(gòu)、門把手的高度、被子的形狀等等。如果我們能夠打造一個有泛應(yīng)用的通用機器人,人形是最適合的形態(tài),人形機器人能夠適應(yīng)人類的各種環(huán)境。”
業(yè)內(nèi)專家認(rèn)為,生成式人工智能與人形機器人融合,可以開啟“具身智能”時代。智元機器人彭志輝也表示,具身智能即將為通用機器人補全最后一塊拼圖。
在國內(nèi),2022年,小米發(fā)布了首款“全尺寸人形仿生機器人”CyberOne。在2023世界機器人大會期間,星動紀(jì)元、宇樹科技、智元機器人等企業(yè)對外發(fā)布了人形機器人。在10月24日科大訊飛開發(fā)者大會上,業(yè)界首個大模型+具身智能的人形機器人也在現(xiàn)場亮相。
以GPT為典型的預(yù)訓(xùn)練大模型多模態(tài),為人工智能的交互能力帶來革命性潛力,AI賦能實體設(shè)備實現(xiàn)“具身智能”引起全球期待,“具身智能”的機器人與人類的交流將不再是機械式的“查字典式問答”,而是結(jié)合個性化溝通、任務(wù)理解、交互、規(guī)劃和實體執(zhí)行的新局面。
現(xiàn)在的AI,思想方面頗為“成熟”,具身智能已經(jīng)給它提供了一個可以使用的軀體。而人形機器人正是通用人工智能“具身化”的載體。隨著技術(shù)和產(chǎn)業(yè)發(fā)展,裝有AI大模型“大腦”、運動能力很強的人形機器人有望從事多種工作,包括家政服務(wù)、養(yǎng)老陪護、教育、醫(yī)療、設(shè)施巡檢、搶險救災(zāi)等。
作為AI具身智能的下一代本體,通用人形機器人有望引領(lǐng)AI進入“具身智能”時代,同時也將推動專用機器人向通用機器人方向發(fā)展。具身智能把人工智能技術(shù)與機器人實體相結(jié)合,讓“大腦”有了可支配、可感知、可交互、可行動的“身體”,作為人類的重要伙伴和助手,帶來巨大便利和效益。
結(jié)語
姚期智指出,目前具身機器人遇到的主要挑戰(zhàn)有:第一,機器人不能夠像大語言模型一樣有一個基礎(chǔ)大模型直接一步到位,做到最底層的控制。第二,計算能力的挑戰(zhàn)。即使谷歌研發(fā)的Robotics Transformer模型,要做到機器人控制,距離實際需要的控制水平仍有許多事情要做。第三,如何把機器人多模態(tài)的感官感知全部融合起來,仍面臨諸多難題需要解決。第四,機器人的發(fā)展需要收集很多數(shù)據(jù),其中也面臨很多安全隱私等方面的問題。
11月2日,工業(yè)和信息化部印發(fā)《人形機器人創(chuàng)新發(fā)展指導(dǎo)意見》(簡稱《指導(dǎo)意見》),以推動人形機器人產(chǎn)業(yè)高質(zhì)量發(fā)展,高水平賦能新型工業(yè)化,有力支撐現(xiàn)代化產(chǎn)業(yè)體系建設(shè)。政策支持將加快中國人形機器人產(chǎn)業(yè)研發(fā)和落地,人形機器人產(chǎn)業(yè)化可期,是未來成長大賽道。