8月12日,成都人形機(jī)器人創(chuàng)新中心發(fā)布最新研發(fā)成果:中國首個(gè)機(jī)器人多模態(tài)模型RRMM(Raydiculous Robot Multimodal Model)及雙臂協(xié)作系統(tǒng)RTACS(Raydiculous Two-Arm Cooperation System)。多模態(tài)模型(RRMM)能使機(jī)器人理解推理抽象的語義指令,并調(diào)度雙臂協(xié)作系統(tǒng)(RTACS)執(zhí)行任務(wù)。目前僅OpenAI等國外頭部企業(yè)發(fā)布類似成果,這標(biāo)志成都人形機(jī)器人創(chuàng)新中心在我國多模態(tài)模型應(yīng)用于人形機(jī)器人領(lǐng)域的率先突破,使“AI 物理化”進(jìn)程加速,也讓人形機(jī)器人從“預(yù)設(shè)擺拍”“遙控操作”進(jìn)化到擁有更強(qiáng)的“大腦”和自主執(zhí)行能力。
多模態(tài)(即多種異構(gòu)模態(tài))數(shù)據(jù)協(xié)同推理能融合兩種或兩種以上不同感知來源進(jìn)行綜合推理,并完成復(fù)雜任務(wù)、
例如最新的ChatGPT4o展示其強(qiáng)大功能時(shí),測試者不用傳統(tǒng)的鍵盤輸入問題指令,而是在一張紙上手寫一個(gè)待解方程,以及手繪一個(gè)幾何圖形并用語音指令要求GPT4o解題,GPT4o通過圖像識別、語音識別和語義理解及推理,快速給出準(zhǔn)確答案,這就是典型的多模態(tài)應(yīng)用。
多模態(tài)應(yīng)用于人形機(jī)器人領(lǐng)域,使人形機(jī)器人能融合圖像、語義、力感知、環(huán)境感知等多種因素,綜合判斷、生成任務(wù)并執(zhí)行任務(wù),這是人形機(jī)器人具有自主思考能力的關(guān)鍵核心技術(shù)。

成都人形機(jī)器人創(chuàng)新中心發(fā)布的相關(guān)資料顯示,語義指令有相對明確的將水果和非水果、飲料和非飲料進(jìn)行區(qū)分和分揀,也有相對抽象的將圓柱體和長方體物體進(jìn)行區(qū)分和分揀,還有比較抽象的把可食用和不可食用物品進(jìn)行區(qū)分和分揀,完成以上任務(wù)需要機(jī)器人通過多模態(tài)模型自主對所有物品進(jìn)行提取歸納,特別是對多個(gè)相似瓶子形狀的物體,需進(jìn)一步通過瓶身包裝上的文字、圖片等要素綜合判斷其是否為可食用,而非化妝品、洗滌劑等非食用瓶裝物,才能最終完成任務(wù)。
當(dāng)前,以成都人形機(jī)器人創(chuàng)新中心為代表的成都人工智能與機(jī)器人企業(yè)加快進(jìn)行關(guān)鍵核心技術(shù)攻關(guān),促進(jìn)成都人工智能與機(jī)器人成果轉(zhuǎn)化及產(chǎn)業(yè)化。成都也將按照inktype="2" style="margin: 0px; padding: 0px; outline: 0px; text-decoration-line: none; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); -webkit-user-drag: none; cursor: default; max-width: 100%; font-size: 15px; box-sizing: border-box !important; overflow-wrap: break-word !important;">《成都市進(jìn)一步促進(jìn)人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策措施》inktype="2" style="margin: 0px; padding: 0px; outline: 0px; text-decoration-line: none; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); -webkit-user-drag: none; cursor: default; max-width: 100%; font-size: 15px; box-sizing: border-box !important; overflow-wrap: break-word !important;">《成都市人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展三年行動(dòng)計(jì)劃(2024—2026年)》等相關(guān)政策,以平臺建設(shè)帶動(dòng)技術(shù)創(chuàng)新,以數(shù)據(jù)驅(qū)動(dòng)拓展場景應(yīng)用,以算力布局支撐產(chǎn)業(yè)發(fā)展,以要素聚集優(yōu)化產(chǎn)業(yè)生態(tài),助力成都打造創(chuàng)新活躍、規(guī)模領(lǐng)先、生態(tài)完備的人工智能產(chǎn)業(yè)發(fā)展高地。