8月27日下午,“機(jī)器人智能論壇”以線上分享的形式圓滿舉行。
該活動由中國人工智能學(xué)會主辦,中國人工智能學(xué)會認(rèn)知系統(tǒng)與信息處理專委會、南京清湛人工智能研究院承辦,北京容天匯海科技有限公司、鎂客網(wǎng)協(xié)辦。
在歷時4個半鐘頭的分享環(huán)節(jié),來自產(chǎn)業(yè)、學(xué)術(shù)和應(yīng)用三個方向的嘉賓,構(gòu)成了一個產(chǎn)學(xué)用全方位的“三方對話”,圍繞智能機(jī)器人相關(guān)主題帶來了各自的精彩分享。

陳學(xué)超北京理工大學(xué)機(jī)電學(xué)院教授、博士生導(dǎo)師
——仿人機(jī)器人高動態(tài)跳躍運(yùn)動關(guān)鍵
在陳學(xué)超看來,仿人機(jī)器人是智能機(jī)器人的一種高級形態(tài),具有兩手、兩腿、頭部和軀干等人類外形顏色特征,整機(jī)有30至60個自由度,有著復(fù)雜的多體動力學(xué)系統(tǒng),在公共安全、國防、社會服務(wù)等領(lǐng)域應(yīng)用前景廣泛。
回顧仿人機(jī)器人發(fā)展歷程大事記,自1973年日本早稻田大學(xué)研發(fā)出首臺可行走仿人機(jī)器人之后,包括日本本田公司的ASIMO、波士頓動力公司的Altas等都是里程碑式的產(chǎn)品。
而從自身研究項目出發(fā),陳學(xué)超表示跳躍能力對仿人機(jī)器人增長運(yùn)動敏捷性和環(huán)境適應(yīng)性有著重大意義,意味著機(jī)器人能夠在室內(nèi)外、野外環(huán)境中做到跑得快、跳得高,同時能夠執(zhí)行多種靈巧作業(yè)任務(wù)。其中所涉及的核心部件和多模態(tài)運(yùn)動技術(shù),也是其匯童仿人機(jī)器人項目當(dāng)下的研究重點(diǎn)。
陳學(xué)超闡述道,經(jīng)過對跳躍運(yùn)動階段劃分并進(jìn)行特點(diǎn)分析后得到總結(jié),機(jī)器人:
起跳階段——要求硬件本體需要做到大力矩、高轉(zhuǎn)速,規(guī)劃、控制方面做到協(xié)全身、精跟隨;
落地階段——要求硬件本體需要做到強(qiáng)回驅(qū),規(guī)劃、控制方面做到柔著地。
這一前提下,陳學(xué)超也指出,傳統(tǒng)仿人機(jī)器人關(guān)節(jié)(電機(jī)+諧波)力矩達(dá)到,但轉(zhuǎn)速低、回驅(qū)性弱,無法滿足需求,一般四足機(jī)器人關(guān)(電機(jī)+行星)也因為力矩小而難以適用。針對這一點(diǎn),他也提出了一些解決方案,包括采用高磁能密度硬磁材料打造高扭矩密度電機(jī),并基于多物理場綜合優(yōu)化技術(shù)提升轉(zhuǎn)矩,以及模擬人體肌肉布局作仿生跨關(guān)節(jié)耦合驅(qū)動,同時優(yōu)化變速結(jié)構(gòu)比等等。
此外,針對特斯拉、小米等企業(yè)對仿人機(jī)器人的布局,陳學(xué)超表示這類企業(yè)的入局將推動人工智能技術(shù)在仿人機(jī)器人產(chǎn)品上的落地,進(jìn)而推動仿人機(jī)器人整體產(chǎn)業(yè)的發(fā)展。與此同時他也指出,小米能夠在幾個月內(nèi)打造一臺仿人機(jī)器人,并完成一些基本操作,也是從另一個角度告訴大家,仿人機(jī)器人研發(fā)的行業(yè)門檻較之前已經(jīng)有所降低。
葛榮駿東南大學(xué)計算機(jī)科學(xué)與工程學(xué)院副教授
——用算法彌補(bǔ)國產(chǎn)成像設(shè)備硬件不足
圍繞人工智能與機(jī)器人產(chǎn)業(yè),醫(yī)學(xué)是一個繞不過去的細(xì)分市場,其中關(guān)于影像設(shè)備成像,更是一個重點(diǎn)研究方向。
葛榮駿表示,眼下國內(nèi)醫(yī)學(xué)影像設(shè)備正被國外企業(yè)壟斷,國產(chǎn)設(shè)備則存在成像質(zhì)量不足的問題。他以CT為例,常規(guī)CT存在輻射劑量較大、軟組織分辨率較低等問題,既會給孕婦、新生兒等高敏感人群帶來較大安全風(fēng)險,也會對其臨床應(yīng)用范圍造成諸多約束,同時不同診療場景的CT成像也受制于采集數(shù)據(jù)信噪比低或數(shù)據(jù)稀疏不全等問題。市場側(cè),85%以上相關(guān)設(shè)備市場則是被國外公司GPS壟斷。
針對國產(chǎn)設(shè)備成像不足的問題,葛榮駿表示可以通過成像算法來進(jìn)行彌補(bǔ)——基于不同臨床診療需求場景,非理想采樣條件的下優(yōu)質(zhì)CT成像算法。
圍繞這一研究,葛榮駿也指出傳統(tǒng)成影方法“解析重建”需要高質(zhì)量且完整的投影數(shù)據(jù),無法應(yīng)對低劑量和不完備數(shù)據(jù)重建,且特征提取能力弱,容易引起二次偽影,同時迭代速度慢,科學(xué)挖掘點(diǎn)少。
在這一基礎(chǔ)上,基于特征學(xué)習(xí)的CT成像算法受到關(guān)注,包括基于單層特征學(xué)習(xí)的字典學(xué)習(xí)算法、基于深度特征學(xué)習(xí)的重建算法。其中,深度特征學(xué)習(xí)能快速、充分地利用單層特征和各級深度特征,在最終效果上優(yōu)于單層特征學(xué)習(xí)。
李雨倩NVIDIA自主機(jī)器技術(shù)專家
——基于IsaacSim平臺為機(jī)器人訓(xùn)練“提速”
不管是算法開發(fā),還是智能機(jī)器人研究,過程中總是需要大量的數(shù)據(jù)處理與模型測試、驗證。而如果這些工作全部交由單個項目或企業(yè)來進(jìn)行,將面臨時間長、挑戰(zhàn)大、成本高,以及相關(guān)場景中結(jié)構(gòu)化環(huán)境缺失等問題。
針對這一點(diǎn),李雨倩提出的解決方案是NVIDIAIsaacSim,這是一個建立在數(shù)字孿生Omniverse平臺上的機(jī)器人模擬應(yīng)用與合成數(shù)據(jù)生成工具,能夠提供真實(shí)準(zhǔn)確的自然世界虛擬表示,允許導(dǎo)入各種對象類型,包括CAD文件,以生成在邏輯上與現(xiàn)實(shí)世界無法區(qū)分的模擬環(huán)境。
李雨倩表示,在Isaac平臺,僅需要4個步驟就可以完成一個閉環(huán)應(yīng)用的開發(fā):
模型訓(xùn)練——通過IsaacReplicator(形成虛擬合成數(shù)據(jù)集)、TaoToolkit(訓(xùn)練預(yù)訓(xùn)練的模型)工具對機(jī)器人進(jìn)行訓(xùn)練;
仿真——在整個Omniverse環(huán)境下,基于IsaacSim對整機(jī)進(jìn)行仿真和測試,模型訓(xùn)練好,整機(jī)算法測試完成之后就到第三步搭建;
搭建——在機(jī)器人本體嵌入式計算平臺Jetson上,利用IasscROSGEMs、RIVA、NovaOrin等來做一個整個機(jī)器人的搭建;
部署&管理——利用Triton做多個資源的調(diào)動管理,利用CuOpt做大場景下機(jī)器人最優(yōu)路徑的規(guī)劃……
“實(shí)際環(huán)境測試之后會暴露出機(jī)器人本身的一些問題和模型的不足,就可以回到第一步再完成一個訓(xùn)練。”
此外,李雨倩也總結(jié)稱,該平臺有測試場景和樣本,可以直觀體驗IsaacSim的一些功能;可以跟ROS生態(tài)進(jìn)行互動;增加了AI的屬性,包括強(qiáng)化學(xué)習(xí)等都集成在里面,基于這些優(yōu)勢,將能夠幫助大家快速搭建自己的應(yīng)用,開發(fā)一個更智能的、具有AI屬性的機(jī)器人。
王亮NVIDIA高級解決方案架構(gòu)師
——硬件加速機(jī)器人仿真與訓(xùn)練
面向海量數(shù)據(jù)處理與模型測試與驗證,除了平臺層面各類軟件工具的協(xié)助,背后的算力支撐也是不可或缺的。針對這一點(diǎn),王亮主要從NVIDIAA40和A100兩款產(chǎn)品進(jìn)行講解。
其中,提及A40就不得不提到“NVIDIAOVX”,這是為了在Omniverse中運(yùn)行數(shù)字孿生模擬而創(chuàng)建的數(shù)據(jù)中心級計算系統(tǒng),由8塊NvidiaA40GPU、3塊NvidiaConnectX-6Dx200Gbps網(wǎng)卡、雙IntelIceLake8362CPU、1TB系統(tǒng)內(nèi)存和16TBNVMe存儲組成,啟用RDMA以實(shí)現(xiàn)最低延遲,支持精確計時(PTP),可擴(kuò)展以滿足工作負(fù)載需求。
并且,當(dāng)使用Spectrum-3交換機(jī)連接時,OVX計算系統(tǒng)可以從包含8臺OVX服務(wù)器的單個Pod擴(kuò)展到32臺OVX服務(wù)器的超級Pod。多個超級POD可以用于部署更大的仿真需求。
至于A100,王亮表示“A10080GBPCIE”是世界上性能最高的AI超級計算GPU,也是主流EGX服務(wù)器的靈活部署選項。性能方面,相較于上一代產(chǎn)品,面對仿真、AI訓(xùn)練等應(yīng)用均得到了數(shù)倍的提升。
同時,王亮也提到了基于A100打造(20臺起步)的DGXSuperPOD系統(tǒng),串聯(lián)后將形成一站式AI超級計算機(jī),基于并行計算實(shí)現(xiàn)大規(guī)模AI模型的構(gòu)建、訓(xùn)練和部署。
孫玉潔中國兵器工業(yè)集團(tuán)高級工程師
——未來機(jī)器人作戰(zhàn)樣式
就分類來看,智能機(jī)器人可以分為多種類型,工業(yè)機(jī)器人體量最大,消費(fèi)級商用機(jī)器人更為貼近日常生活,特種機(jī)器人則較為少見,其歸屬下的軍用機(jī)器人,更是“神秘”。
對此孫玉潔講到,軍用機(jī)器人依據(jù)作戰(zhàn)環(huán)境的不同分為地面軍用機(jī)器人、空中軍用機(jī)器人、其他軍用機(jī)器人(如無人艇、無人船等)。
提及需求,軍用機(jī)器人部隊則是需要做到三點(diǎn),分別是能夠聚焦全維感知、街區(qū)突貫、要點(diǎn)奪控、樓宇清繳等城市作戰(zhàn)環(huán)境,實(shí)現(xiàn)信息主導(dǎo)、火力主戰(zhàn)、智能主控、體系致勝,做到多域精確跨域協(xié)同。
只是就目前來看,軍用機(jī)器人部隊在構(gòu)建上還存在一些短板,這也對當(dāng)前業(yè)界提出了幾點(diǎn)建議:
第一,發(fā)展機(jī)器人彈性算力和可拓展的硬件平臺,設(shè)計相關(guān)接口和標(biāo)準(zhǔn)協(xié)議,基于“軟硬解難”思路,提升硬件能力;
第二,完成地面軍用機(jī)器人、空中軍用機(jī)器人及其他機(jī)器人部隊體系要素的需求論證;
第三,統(tǒng)籌推進(jìn)相關(guān)科技競賽,以及優(yōu)質(zhì)智能技術(shù)成果的轉(zhuǎn)化應(yīng)用。
屆時,比如空中機(jī)器人,將能夠做到集偵查、監(jiān)視、軟干擾和硬打擊于一體,以及長時滯空、空中戰(zhàn)場遮斷、空中格斗等等。地面機(jī)器人則將呈現(xiàn)“無人軍團(tuán)”模式,就像電影中的機(jī)械戰(zhàn)士。
黃洪波墨影科技聯(lián)合創(chuàng)始人、VP
——機(jī)器人產(chǎn)業(yè)“非標(biāo)+長尾”現(xiàn)象如何破局?
黃洪波以冰山作比,浮出水面的一小塊冰山是如今簡單容易的項目或值得投入的大客戶,但另外沉在水面下、體積占比約80%的冰山則代表著那些無法被觸達(dá)和滿足的大量潛在需求機(jī)器人和自動化改造的行業(yè)和項目。
這也導(dǎo)致雖然機(jī)器人市場各垂直場景的價值達(dá)到了千億級、萬億級,大量機(jī)器人公司和集成商也僅僅是在“冰山一角”中進(jìn)行競爭。
為什么會這樣?黃洪波解釋道,機(jī)器人企業(yè)開拓產(chǎn)品、集成商部署項目少則一兩年,多則三五年,投入資源重、周期長、成本高迫使他們提高報價、延長實(shí)施周期,繼而導(dǎo)致機(jī)器人和自動化改造價格高、周期長。但對于客戶來說,他們的需求是快速完成機(jī)器人和自動化改造,降低產(chǎn)險停產(chǎn)時間,實(shí)現(xiàn)降本增效目的,也因此,低價格、短周期的壓力自然而然就給到了企業(yè)和集成商,最終造成機(jī)器人企業(yè)、集成商普遍存在低價競爭、虧本賺吆喝現(xiàn)象。“這就是一個惡性循環(huán)。”
當(dāng)然,目前存在的“非標(biāo)+長尾”現(xiàn)象只是機(jī)器人產(chǎn)業(yè)發(fā)展過程中階段性的必然結(jié)果,“需求種類和數(shù)量進(jìn)一步增加,單一廠商的能力和開發(fā)速度逐漸無法滿足所有需求,跨廠商系統(tǒng)集成又異常復(fù)雜,與此同時很多客戶想用機(jī)器人和自動化,但需求和場景各不相同,導(dǎo)致非標(biāo)+長尾。”
至于如何破局,響應(yīng)“更快滿足急速增長的客戶需求、更快更簡單地開發(fā)新產(chǎn)品新功能”的趨勢,黃洪波則是提出“平臺型系統(tǒng)”。在其看來,平臺型系統(tǒng)將能夠提供行業(yè)基礎(chǔ)共性功能,簡化開發(fā)流程,整合上下游,進(jìn)而共同促進(jìn)行業(yè)爆發(fā)。
楊磊南京清湛人工智能研究院執(zhí)行副院長
——“云+邊+端”架構(gòu)賦能機(jī)器人視頻感知
在楊磊看來,產(chǎn)業(yè)內(nèi)諸多公司為機(jī)器人的感知和計算基礎(chǔ)都提供了杰出的支撐,但就目前來說,“感知”依舊是機(jī)器人技術(shù)發(fā)展的一個重要瓶頸。
其中,視頻感知不同于以往更多討論的機(jī)器視覺,所處理的數(shù)據(jù)基本上是實(shí)時連續(xù)幀圖片序列,需要處理的數(shù)據(jù)量更大,且多數(shù)數(shù)據(jù)都沒有經(jīng)過加工處理器,落地之后更具實(shí)用性,是眼下計算機(jī)視覺與人工智能領(lǐng)域發(fā)展比較活躍的研究方向。
“相較于視頻監(jiān)控,視頻感知除了要獲取數(shù)據(jù)、分析數(shù)據(jù),還要理解視頻內(nèi)容以及目標(biāo)前后關(guān)系。”
而就落地來看,隨著工業(yè)場景新需求的出現(xiàn),傳統(tǒng)視頻監(jiān)控已經(jīng)不足以完成安全保障等方面的新挑戰(zhàn),視頻感知逐漸在工業(yè)場景獲得極大應(yīng)用。
與此同時,就機(jī)器人整個發(fā)展來看,“原先機(jī)器人平臺算力較小,存在巨大的算力障礙,而現(xiàn)在提出的新架構(gòu)——‘云-邊-端感知架構(gòu)’,依據(jù)不同場景需求通過云端或邊端的算力去解決算力不足的問題,幫助進(jìn)行視頻運(yùn)算和解析,這是未來發(fā)展的一個重要方向。”
針對這一點(diǎn)楊磊也說到,清湛人工智能研究院采用“云+邊+端”架構(gòu)打造了一套基于視頻行為分析的智能監(jiān)造系統(tǒng),在前端網(wǎng)絡(luò)中增加邊緣分析設(shè)備,基于計算機(jī)視覺深度學(xué)習(xí)技術(shù),構(gòu)建專有的安全生產(chǎn)預(yù)警模型,是面向大型企業(yè)用戶,提供簡單、易用、優(yōu)質(zhì)視覺算法的開放平臺。