當眾多行業(yè)還在探索大模型接入時,機器人行業(yè)已率先迭代,特別是在人形機器人領域。微軟、亞馬遜、谷歌、智元機器人、優(yōu)必選、宇樹等科技公司紛紛入局,馬斯克公布了大模型加持的Optimus(擎天柱)第二代機器人,OpenAI則與人形機器人初創(chuàng)公司Figure合作推出了Figure 01機器人。
過去,語音識別、計算機視覺、自然語言理解等智能技術,推動機器人在多領域成為市場“寵兒”。數(shù)據(jù)顯示,當前我國工業(yè)機器人銷量已占全球一半以上,連續(xù)10年居世界首位。大模型時代,機器人行業(yè)迎來全新的發(fā)展機遇,新一代人機交互與具身智能正在重新定義!
機器人運動能力大幅提升 交互和腦力升級亟待突破
從1927年美國西屋造出第一臺人形機器人Televox,到AlphaGo擊敗人類棋手成為第一個戰(zhàn)勝圍棋世界冠軍的機器人,再到波士頓動力的機器人能夠流暢奔跑、倒立、跳馬甚至跳舞,機器人在智慧和運動上的能力持續(xù)突破。
然而,與科幻電影中呈現(xiàn)的全能機器人相比,現(xiàn)實中的機器人仍有很大的差距。在我們所處的物理現(xiàn)實世界里,機器人更接近于一種可編程的特定用途設備,在實現(xiàn)“聽得清、聽得懂、有溫度的交流”方面,它們的表現(xiàn)尚未達到理想水準。
多模態(tài)感知和行為決策構成了機器人的關鍵技能。然而,在與這些機器進行交互時,用戶常常面臨這樣的挑戰(zhàn):
復雜環(huán)境下的機器人交互挑戰(zhàn):在醫(yī)院、商場這樣的繁忙公共場所中,用聲音與機器人溝通往往伴隨著識別錯誤。例如,當你在地鐵里請求“購買一張到大東門的票”,嘈雜的環(huán)境可能會干擾機器的聽力,導致它難以立即準確回應,有時你甚至需要多次重復指令。
▲ 復雜環(huán)境下,人機交互容易出現(xiàn)語音識別錯誤
自由解釋意圖和計劃行動的挑戰(zhàn):很多機器人搭載了簡單的聊天功能,能應對諸如“北京有哪些旅游景點?”或“講個笑話”等簡單查詢。但當問題稍微復雜,比如提出“如何安排五一假期三天游北京?”時,機器人可能就無法正確理解,并有可能給出錯誤或完全不相關的答復,后續(xù)更無法執(zhí)行正確的行動。
最后是對于更貼近人類情感的需求:傳統(tǒng)機器人通常僅能提供基于預設程序的標準響應,其語調(diào)聽起來生硬且缺乏感情。由于它們難以捕捉人類語音中的情緒變化,有時會造成不合時宜的情況,比如在你悲傷時試圖開玩笑,這限制了它們在情感上與人產(chǎn)生共鳴的能力。
如何讓機器人能在更復雜場景下執(zhí)行任務,更好地理解我們,滿足我們的需求?大模型在自然語言連續(xù)對話、通識理解、少樣本/零樣本學習等能力的突破,帶來曙光。
大模型加持機器人超腦平臺 為機器人注入“靈魂”
作為人工智能國家隊,訊飛很早就開始了在機器人產(chǎn)業(yè)的布局。
2022科大訊飛全球1024開發(fā)者節(jié)上,訊飛正式對外發(fā)布了訊飛機器人超腦平臺。機器人超腦平臺是以“訊飛超腦2030”技術為底座,面向物理世界、虛擬世界和元宇宙,以AI能力星云、多模態(tài)交互、大模型、模型訓練、資產(chǎn)生成和軟硬件接入為核心的機器人開發(fā)平臺,幫助開發(fā)者快速搭建多場景適配、具有深厚知識底蘊以及擅長自我進化的實體機器人和虛擬數(shù)字人產(chǎn)品。
面對功能更多樣、任務更專業(yè)、交互更自然、決策更智能的挑戰(zhàn),訊飛機器人超腦平臺再次升級,全面接入訊飛星火認知大模型,從終端多模態(tài)交互和大模型理解決策兩個方面出發(fā),構建面向機器人的新交互,賦能機器人發(fā)展進入到一個全新的階段。
▲ 接入星火大模型的訊飛機器人超腦平臺
視聽融合的感知交互:平臺融合了語音、視覺、語義等多個維度的信息,定義了包含開啟交互、交互保持、切換交互權和結束交互在內(nèi)的機器人交互新范式。升級麥克風陣列算法,融合人臉和唇形信息,使得機器人能夠在嘈雜、高噪場景下精準拾音,利用語音大模型和超擬人合成使機器人聊天更有生命力,能夠模擬人對話情況下的思考停頓,聲音復刻和高表現(xiàn)力的語音合成能夠提升機器人對話的感染力。
▲視聽融合的感知交互可以在嘈雜環(huán)境下精準拾音
基于大模型的機器人交互大腦:以星火大模型為基礎,實現(xiàn)控制級指令、官方技能、核心業(yè)務功能、快速知識問答、閑聊陪伴的多交互場景的統(tǒng)一。通過設計多風格多情感的AI人設,讓每一個機器人都與眾不同。整個體驗會變得非常自然,像和身邊的朋友交流一樣,提供給我們更多的情緒價值。
▲人形機器人準確執(zhí)行具體指令
據(jù)悉,訊飛機器人超腦平臺現(xiàn)在已為工業(yè)、教育、服務、特種等領域398家企業(yè)提供了服務。
2023科大訊飛全球1024開發(fā)者節(jié)上,科大訊飛董事長劉慶峰表示,下一步訊飛將以人形機器人為牽引,來推動‘視覺-語言-動作’多模態(tài)具身大模型,能夠更好地賦能人形機器人。
在剛剛結束的首屆中國人形機器人產(chǎn)業(yè)大會暨具身智能峰會,科大訊飛榮獲“LeadeRobot 2024年度人形機器人智能革新獎”,并成功入選“人形機器人最具投資價值榜單”。
“星河行動”開啟 打造機器人交互新紀元
2021年12月,《“十四五”機器人產(chǎn)業(yè)發(fā)展規(guī)劃》明確了機器人產(chǎn)業(yè)規(guī)劃的重大意義并提出了機器人產(chǎn)業(yè)規(guī)劃的目標,將中國機器人產(chǎn)業(yè)再一次推向新的高度。
近日,訊飛開放平臺對外宣布,將聯(lián)合訊飛創(chuàng)投正式啟動“星河行動”,面向機器人領域招募生態(tài)合作伙伴,與訊飛共建機器人產(chǎn)業(yè)生態(tài)。通過前沿大模型計劃與機器人產(chǎn)業(yè)的融合,共同建立機器人交互領域全新里程碑。
商湯科技、寒武紀、優(yōu)必選、主線科技等眾多大家熟知的優(yōu)秀獨角獸公司,背后都有訊飛創(chuàng)投參與投資,其管理的創(chuàng)投基金金額超20億元。
科大訊飛此舉將為中國機器人產(chǎn)業(yè)的發(fā)展注入新的力量,讓機器人走進每個家庭變成現(xiàn)實。