4月2日,由中國機器人網(wǎng)、智能谷產(chǎn)業(yè)園主辦的「2024中國人形機器人生態(tài)大會」在上海順利舉行!數(shù)千人齊聚,聚焦人形機器人產(chǎn)業(yè)前沿話題,剖析產(chǎn)業(yè)風口,共同探尋產(chǎn)業(yè)融合與落地的方向。
在上午的院士專家報告環(huán)節(jié)中,俄羅斯工程院院士孫立寧圍繞「微納感知促進人形機器人智能化發(fā)展」這一主題,展開了主題報告。

以下是本次報告實錄,「中國機器人網(wǎng)」整理刪改:
人形機器人的發(fā)展特別快,今天我從幾個角度來分享一下當前人形機器人的進展。
從國家這幾年發(fā)展機器人到十四五規(guī)劃,到近期工信部也提到了人形機器人發(fā)展的規(guī)劃:25年快速發(fā)展,到27年能夠達成深度結合。上個月我們也看到了19個方向,今天也看到一些展品,我們注意到,未來產(chǎn)業(yè)創(chuàng)新的規(guī)劃第一條就是人形機器人。從這點來看,國家非常重視這個領域的發(fā)展,近期大家也感受到無論是科技部還是工信部都在對白皮書進行制訂,而且各個省市也都成立了創(chuàng)新中心研究院。
人形機器人的好處大家都已經(jīng)很清楚了,主要是解決復雜場景。從美國的Atlas,到近期的擎天柱,非常高興看到一年半的時間,沉寂了20多年人形機器人再次爆發(fā),而且發(fā)展非常快。
那么,我們想達到什么目標?兩個方面,一個是從技術層面,想機器人像人一樣,能夠動,能夠跑,更重要的是能夠跟人一樣比對,這就是模仿人的仿生和智能。很多的場景還在探索之中,至少方向沒有變化。
回到技術層面,大家知道人形機器人有6項關鍵技術,從高爆發(fā)力的驅動,然后是環(huán)境感知,運動,然后是本體,大模型,然后是像計算機手機一樣,今天重點是感知和控制方面的介紹。
有了機器人這個概念,過去我們更關注內在的閉環(huán),像工業(yè)機器人,現(xiàn)在更關注外部。我們聽,我們看,我們聞,外部的手和皮膚,我們理解也比較容易,近期,我們也在探索這個技術,比如說,我們團隊搞機器人電子皮膚,摩擦發(fā)電,用先進材料研制出來可穿戴的皮膚。第二個是傳統(tǒng)的,不可少的微納感知技術,靈巧手觸覺。
環(huán)境感知,環(huán)境幾何特征感知,這個像人一樣精準化大場景,最終野外作業(yè)的時候,具備了野外的圖像采集,地形感知與分割,也是借鑒移動的技術,人形機器人解決應用就可以了。從宏觀到微觀到場景,操作應該是屬于協(xié)作機器人和人形機器人特有的,炒菜、抓取,對物體的感知,早期做視覺比較多,現(xiàn)在對軟體復雜的情況,這邊就發(fā)揮很大的作用,包括清華大學一些傳感器,已經(jīng)能夠識別材質,包括手指也已經(jīng)有了紋理,更加精準化。
系統(tǒng)建模,這比較難。早期做人體運動,普通倒立、彈簧附載倒立擺,如果是系統(tǒng)動力學模型,就能夠跟大數(shù)據(jù)行為結合,可能這是一個很好的辦法,再加上人形機器人的自學習訓練,像人一樣,人是沒有模型的,就是通過訓練學習過程。
運動控制,步態(tài)運動,這個方面看到了挑戰(zhàn),控制手段與要素,控制目標與模型的問題?,F(xiàn)在看全身運動控制應該是從早期的控制手段到控制要素仔細的變化,基本是動力學。現(xiàn)在全身動力學要搞沖擊力的柔性,人跳起來的樣子,基礎的模型多方面的,有基于動量,有基于動能,發(fā)展趨勢做了10年,高動態(tài)運動,最終是擬人化。
四肢協(xié)調,兩個胳膊兩個手,這里面的復雜動作是協(xié)調性帶來的挑戰(zhàn)。模型驅動總是很難做到那么精準,計算量很大。數(shù)據(jù)驅動非常重要,人的行為可能沒有很多的模型,通過學習進化變成了外部環(huán)境。數(shù)據(jù)平臺大模型結合了,未來發(fā)展在手的操作方面會給我們帶來很多的挑戰(zhàn),實現(xiàn)人形機器人真正的應用,包括物理模型的融合。
最終是多模態(tài),今天不講,但是我的理解是底層運動跟我們的行為結合,這是目前一個真正比較現(xiàn)實的問題。
今天講一講創(chuàng)新,我們人類的發(fā)展有39萬億的細胞節(jié)點,我們的運動實際上是最根本的神經(jīng)元。2006年、2008年把神經(jīng)元模型建起來了,經(jīng)過10年把生物芯片造出來了,這個模型非常好,如果能夠跟動力結合會很好。
那么,能不能把這個建好,通過一定的訓練,自己爆發(fā)出一個神經(jīng)元。我們發(fā)現(xiàn)神經(jīng)元包括人類對于聲覺和視覺的認識,是我們腦海馬體模擬對象的機器人仿生出來的,前期工作也得到了建圖、仿生強化學習結合起來,算力比較怪,這個比較前沿,未來研究上結合起來是一個新的思路。
ChatGPT熱了一年多了,但是真正對我們發(fā)展有幫助的,是神經(jīng)網(wǎng)絡和生成數(shù)據(jù),這兩個非常重要。算法AI,如果是神經(jīng)元這種借鑒可能更快更好,這是一個趨勢,需要大家探討。
應用前景大家非常清楚了。那么,這里面關鍵問題怎么弄?一個是語言模型,一個是機器人操作,動作怎么描述出來有很多數(shù)據(jù),操作發(fā)展過程當中,還有數(shù)據(jù)存儲,一個視頻幾百兆,一個動作,恐怕得非常巨大的海量數(shù)據(jù),后面還有很多模型神經(jīng)網(wǎng)絡,這方面很重要。
有了數(shù)據(jù)以后我們人的行為有了,怎么遷移到機器人來,包括人類行為遷移到機器人,數(shù)字遷移問題很重要。這個問題我們有不同的角度來遷移數(shù)據(jù),所以我們在面臨人形機器人的時候,大戰(zhàn)略思路非常清楚,細節(jié)問題很難。
感知方面也存在一些創(chuàng)新,最重要的就是人工智能技術怎么落地。一個數(shù)據(jù),一個操作,這些問題也給我們帶來挑戰(zhàn),這些問題如果能夠解決,就能回到人形機器人的初衷。
人形機器人在教育科普、特種環(huán)境、工廠里面都很重要。把技術結合起來,希望大家能夠從不同的角度去合作和交叉,解決共性問題,最后遷移到我們產(chǎn)業(yè)的載體,使我們機器人性能不斷提高,更好使用,從而達到我們的夢想。