熱搜： irobot 佳士科技機(jī)器人工業(yè)機(jī)器人機(jī)器人產(chǎn)業(yè)聯(lián)盟 ABB 機(jī)械手發(fā)那科機(jī)器人展覽碼垛機(jī)器人

多模態(tài)+大模型，如何構(gòu)建人形機(jī)器人新交互？

日期：2024-04-09 來源：中國機(jī)器人網(wǎng) 評論：0

在4月2日的「2024中國人形機(jī)器人生態(tài)大會」上，多名人形機(jī)器人產(chǎn)業(yè)鏈企業(yè)代表齊聚，就人形機(jī)器人產(chǎn)業(yè)前沿話題，市場風(fēng)口與落地方向等維度作了精彩分享。

其中，科大訊飛開放平臺研發(fā)總監(jiān)劉可為圍繞「多模態(tài)+大模型，構(gòu)建人形機(jī)器人新交互」這一主題，展開了主題演講。

640 (1)

以下是本次演講實(shí)錄，「中國機(jī)器人網(wǎng)」整理刪改：

在過去一年半時間里，伴隨著大模型的橫空出世，人工智能在全社會取得廣泛關(guān)注。過去我們認(rèn)為人工智能是高高在上，不接地氣，是某些高端應(yīng)用錦上添花的功能模塊。現(xiàn)在，人工智能開始真正走向大面積生產(chǎn)和實(shí)踐，以大模型為代表的通用人工智能發(fā)展正在快速推動我們進(jìn)入第四次人工智能浪潮。

人工智能的發(fā)展尤為矚目，特別是以具身智能為代表的人形機(jī)器人，已經(jīng)成為人形機(jī)器人發(fā)展的重要和頭部力量。

其實(shí)，這種新的趨勢正在推動著機(jī)器人走向更縱深的應(yīng)用場景。這種更縱深的應(yīng)用場景意味著用戶對于機(jī)器人的要求越來越高，特別是當(dāng)整個機(jī)器人的形態(tài)從傳統(tǒng)的機(jī)器人開始向人形機(jī)器人轉(zhuǎn)變時，這就要求我們的人形機(jī)器人一定要具備一套非常強(qiáng)大的人機(jī)交互系統(tǒng)。

人機(jī)交互說出來是比較泛的概念，它的使用門檻非常高。如果每一家機(jī)器人廠家都從0到1研發(fā)，超多研發(fā)資源的投入與獲得的成效往往不成正比。所以，業(yè)內(nèi)急需一套規(guī)范標(biāo)準(zhǔn)面向未來人形機(jī)器人的交互解決方案。

我今天帶來的就是這樣一套解決方案。它由三個部分構(gòu)成，首先是視聽融合的感知交互，然后是基于大模型的機(jī)器人大腦，以軟硬件一體的形式進(jìn)一步做了封裝，使得機(jī)器人廠家集成我們這套產(chǎn)品時能夠變得更加便捷。

首先是感知，要想和機(jī)器人實(shí)現(xiàn)智能的交互，第一步就是讓機(jī)器人能夠聽清我們的交互內(nèi)容?，F(xiàn)在整個機(jī)器人的交互依然是基于麥克風(fēng)陣列，它通過我們的波束對內(nèi)部聲音進(jìn)行做增強(qiáng)，外部聲音做抑制。

但是，傳統(tǒng)的算法波束形成角度太寬，它所帶來的最直接影響就是主說話人兩側(cè)的噪聲很容易錄進(jìn)去，導(dǎo)致機(jī)器人在稍微復(fù)雜的環(huán)境下幾乎不可用。我們加上了神經(jīng)網(wǎng)絡(luò)，從而大幅限制了正向方的角度，從60度變成30度，兩側(cè)的噪聲得到了抑制，能夠在比較惡劣的場景下實(shí)現(xiàn)比較好的交互。

前面提到的窄波束，經(jīng)過時間的驗(yàn)證能夠比較好地抑制兩側(cè)的噪聲。但是，在實(shí)際生產(chǎn)過程當(dāng)中，前后人聲的噪聲則是更為普遍和棘手的現(xiàn)象。一來，這種現(xiàn)象廣泛存在于生產(chǎn)當(dāng)中，除了非常安靜的家居環(huán)境下，雞尾酒環(huán)境攻克難度非常難，依靠傳統(tǒng)的聲學(xué)比較難做到提升。

我們加上了攝像頭，通過引入人臉，實(shí)時進(jìn)行嘴巴檢測和實(shí)時聲音檢測，錄音信息加上物體跟蹤，這三個系統(tǒng)進(jìn)行融合，畫面中只聽他的聲音，其他人聲音完全屏蔽掉。

如何讓機(jī)器人聽得更清？我們拿機(jī)器人做語音交互更多需要把音頻轉(zhuǎn)成文字，大模型對于語義體現(xiàn)業(yè)內(nèi)都有目共睹，它的整套基于神經(jīng)網(wǎng)絡(luò)大模型的方案，為我們做語音相關(guān)的能力提供了非常好的技術(shù)路線和思路。

傳統(tǒng)語音識別模型的參數(shù)和體量非常有限，我們現(xiàn)在可以做到多語種的聯(lián)合建模，實(shí)現(xiàn)多種語言的識別，而且通過多語種的聯(lián)合建模，還得到了意外的呈現(xiàn)，因?yàn)榇竽Ｐ途哂凶銐虼蟮囊曇昂痛翱?，能夠看到上下的信息，我們把語義識別帶到語音識別當(dāng)中，使語音識別內(nèi)容更加提升。

現(xiàn)在我們的訊飛星火語音識別大模型，已經(jīng)遠(yuǎn)遠(yuǎn)超過了我們訊飛基線的效果。無論是音質(zhì)、音色還是流暢度，幾乎可以媲美專業(yè)主播的聲音。越是完美無瑕的聲音越容易給顧客產(chǎn)生距離感，科大訊飛構(gòu)建了超擬人口語化的合成，具備擬人化程度，能夠模擬人對話情況下的思考停頓等。交互鏈路變長了，使得我們整個交互時間控制在200毫米以內(nèi)，真正達(dá)到商用水平。

訊飛超擬人語音合成技術(shù)更加有人情味，如果我們的機(jī)器人都能夠發(fā)出這樣的聲音，它傳遞給用戶的就不再是冷冰冰的數(shù)據(jù)信息，而是情感和思想的共鳴。

前面講到語音合成，下面我們講一下發(fā)言人的定制。如果想定制自己特色的聲音需要多少的成本和多長的周期？針對這樣的問題，我們現(xiàn)在的目標(biāo)是只需要一句在30字以內(nèi)的話，就可以生成專屬于你的發(fā)言人，同時基于這樣的音色復(fù)刻4種語音。

前面我們提到都是基于對話機(jī)器閑聊的場景，比如說陪伴型機(jī)器人需要給我們講長故事，短文本我們更多關(guān)注它的口語化、親近感，長文本我們更多需要有上下文的理解，基于上下文的理解將整個故事說得繪聲繪色。我們實(shí)現(xiàn)了整個長文本的合成在音質(zhì)、音調(diào)和情感轉(zhuǎn)折上都能夠達(dá)到擬人化程度非常高的水平，真正實(shí)現(xiàn)聲情并茂。

現(xiàn)在機(jī)器人眾多，場景也非常復(fù)雜，如何將這些能力整合起來？我們通過已有的AI傳感能力形成的一套多模態(tài)交互下的指導(dǎo)規(guī)范，能夠比較準(zhǔn)確地根據(jù)客戶的需求和場景快速地幫他定制出一套比較貼合的多模態(tài)的交互邏輯，讓整個機(jī)器人的交互變得更加自然，這是基于多種模態(tài)的技術(shù)應(yīng)用，構(gòu)建機(jī)器人內(nèi)容的交互范式。

前面需要的是基于視頻感知交互，那么怎么樣將大模型超強(qiáng)的語義理解用到機(jī)器人上？一方面是理性的部分，希望機(jī)器人幫我們完成特定的任務(wù)，包括信息查詢、指令操作等；另外一方面，我們對機(jī)器人有感性的訴求，希望機(jī)器人能夠進(jìn)行多輪的對話，并且感知我們的情緒，結(jié)合我們的情緒提供情感的呵護(hù)和陪伴。

基于整個人機(jī)對話領(lǐng)域，我們做了定向增強(qiáng)大模型。作為訊飛機(jī)器人大模型的底座，它的輸出會更加的貼近人機(jī)交互產(chǎn)品的輸出。這里需要強(qiáng)調(diào)的是我們的星火交互大模型。星火交互大模型深度融合到過去人機(jī)交互的鏈路，不同功能模塊對應(yīng)單點(diǎn)的大模型，最后形成人機(jī)交互體系。通過這樣一套體系可以實(shí)現(xiàn)：既保留原有語音交互準(zhǔn)確性，也大大放大了它的對話能力。

文檔知識問答大家比較熟練了，我們這套文檔問答體系比較核心的特點(diǎn)：針對人機(jī)交互的特點(diǎn)，定制了線下檢索模型，大幅度提升了檢索效率，并且有一些關(guān)鍵詞和知識干預(yù)，后續(xù)也會進(jìn)一步升級。因?yàn)榇竽Ｐ捅旧砭邆涞闹R理解和對話能力，整個閑聊對話體驗(yàn)就會變得非常自然。我們現(xiàn)在說的智能交互產(chǎn)品，風(fēng)格化和情感化是核心非常重要的點(diǎn)。

什么樣的產(chǎn)品叫智能化產(chǎn)品？不同的定制化產(chǎn)品體驗(yàn)是智能化產(chǎn)品的重要點(diǎn)，星火交互大模型里內(nèi)置了星火有伴，使得這一套大模型不僅和用戶有風(fēng)格和情感化的對話聊天，并且能夠形成用戶短時和長時的記憶。同時，我們?yōu)檫@套記憶設(shè)定衰減參數(shù)，完全模擬人的交互體驗(yàn)，真正讓機(jī)器人有了靈魂，這是在風(fēng)格化和AI人設(shè)化做的一些工作。

最后我們再來看一下軟硬件接入一體的解決方案，人機(jī)交互非常復(fù)雜，為了降低接入門檻，它的算力足夠支撐人形機(jī)器人的應(yīng)用。人機(jī)交互的算法全部集成到這一套模組上面，支持二次開發(fā)。整套的所有技術(shù)平臺和能力，背后都是依托于訊飛的超腦平臺，堅(jiān)持面向機(jī)器人提供多模態(tài)的感知交互、開放式語義理解以及軟硬件的交互方式。

我們深知機(jī)器人產(chǎn)業(yè)的發(fā)展離不開整個生態(tài)，因此，我們堅(jiān)持共生共創(chuàng)共享的理念，包括工業(yè)設(shè)計(jì)大賽，開發(fā)者論壇，服務(wù)市場，創(chuàng)業(yè)孵化等等，通過一系列豐富多樣的活動和大家形成緊密的關(guān)系。在未來，我們將通過訊飛倡導(dǎo)2030年計(jì)劃不斷加強(qiáng)技術(shù)和產(chǎn)品創(chuàng)新，聯(lián)合大家一同探索人機(jī)合作的無限可能。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

• 訊飛機(jī)器人超腦平臺亮相中國人形機(jī)器人生態(tài)大會	• 科大訊飛亮相CEAI 2024，引領(lǐng)具身智能新風(fēng)潮
• 全國人大代表、科大訊飛董事長劉慶峰：建議制定	• 申昊科技攜手科大訊飛賦能機(jī)器人在工業(yè)大場景
• 科大訊飛，“硬”啃 AI	• 科大訊飛攜AI大模型創(chuàng)新成果亮相首屆鏈博會
• AI觸手可及，科大訊飛推新品掃拖機(jī)器人進(jìn)入家庭	• 金山辦公與科大訊飛在 AI 等領(lǐng)域達(dá)成戰(zhàn)略合作
• 科大訊飛劉慶峰：通用人工智能賦能千行百業(yè)	• 科大訊飛官宣：訊飛星火認(rèn)知大模型 V2.0 將在 8

恰佩克獎	機(jī)器人高峰論壇	機(jī)氣林	人形機(jī)器人生態(tài)大會	ITES深圳工業(yè)展	機(jī)器人研究院	庫卡機(jī)器人
中國傳動網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

多模態(tài)+大模型，如何構(gòu)建人形機(jī)器人新交互？

多模態(tài)+大模型，如何構(gòu)建人形機(jī)器人新交互？