国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: irobot  佳士科技  機(jī)器人  工業(yè)機(jī)器人  機(jī)器人產(chǎn)業(yè)聯(lián)盟  ABB  機(jī)械手  發(fā)那科  機(jī)器人展覽  碼垛機(jī)器人 

多模態(tài)+大模型,如何構(gòu)建人形機(jī)器人新交互?

   日期:2024-04-09     來源:中國機(jī)器人網(wǎng)     評論:0    
 在4月2日的「2024中國人形機(jī)器人生態(tài)大會」上,多名人形機(jī)器人產(chǎn)業(yè)鏈企業(yè)代表齊聚,就人形機(jī)器人產(chǎn)業(yè)前沿話題,市場風(fēng)口與落地方向等維度作了精彩分享。


其中,科大訊飛開放平臺研發(fā)總監(jiān)劉可為圍繞「多模態(tài)+大模型,構(gòu)建人形機(jī)器人新交互」這一主題,展開了主題演講。

 

640 (1)

 

以下是本次演講實(shí)錄,「中國機(jī)器人網(wǎng)」整理刪改:


在過去一年半時間里,伴隨著大模型的橫空出世,人工智能在全社會取得廣泛關(guān)注。過去我們認(rèn)為人工智能是高高在上,不接地氣,是某些高端應(yīng)用錦上添花的功能模塊。現(xiàn)在,人工智能開始真正走向大面積生產(chǎn)和實(shí)踐,以大模型為代表的通用人工智能發(fā)展正在快速推動我們進(jìn)入第四次人工智能浪潮。


人工智能的發(fā)展尤為矚目,特別是以具身智能為代表的人形機(jī)器人,已經(jīng)成為人形機(jī)器人發(fā)展的重要和頭部力量。


其實(shí),這種新的趨勢正在推動著機(jī)器人走向更縱深的應(yīng)用場景。這種更縱深的應(yīng)用場景意味著用戶對于機(jī)器人的要求越來越高,特別是當(dāng)整個機(jī)器人的形態(tài)從傳統(tǒng)的機(jī)器人開始向人形機(jī)器人轉(zhuǎn)變時,這就要求我們的人形機(jī)器人一定要具備一套非常強(qiáng)大的人機(jī)交互系統(tǒng)。


人機(jī)交互說出來是比較泛的概念,它的使用門檻非常高。如果每一家機(jī)器人廠家都從0到1研發(fā),超多研發(fā)資源的投入與獲得的成效往往不成正比。所以,業(yè)內(nèi)急需一套規(guī)范標(biāo)準(zhǔn)面向未來人形機(jī)器人的交互解決方案。


我今天帶來的就是這樣一套解決方案。它由三個部分構(gòu)成,首先是視聽融合的感知交互,然后是基于大模型的機(jī)器人大腦,以軟硬件一體的形式進(jìn)一步做了封裝,使得機(jī)器人廠家集成我們這套產(chǎn)品時能夠變得更加便捷。


首先是感知,要想和機(jī)器人實(shí)現(xiàn)智能的交互,第一步就是讓機(jī)器人能夠聽清我們的交互內(nèi)容?,F(xiàn)在整個機(jī)器人的交互依然是基于麥克風(fēng)陣列,它通過我們的波束對內(nèi)部聲音進(jìn)行做增強(qiáng),外部聲音做抑制。


但是,傳統(tǒng)的算法波束形成角度太寬,它所帶來的最直接影響就是主說話人兩側(cè)的噪聲很容易錄進(jìn)去,導(dǎo)致機(jī)器人在稍微復(fù)雜的環(huán)境下幾乎不可用。我們加上了神經(jīng)網(wǎng)絡(luò),從而大幅限制了正向方的角度,從60度變成30度,兩側(cè)的噪聲得到了抑制,能夠在比較惡劣的場景下實(shí)現(xiàn)比較好的交互。


前面提到的窄波束,經(jīng)過時間的驗(yàn)證能夠比較好地抑制兩側(cè)的噪聲。但是,在實(shí)際生產(chǎn)過程當(dāng)中,前后人聲的噪聲則是更為普遍和棘手的現(xiàn)象。一來,這種現(xiàn)象廣泛存在于生產(chǎn)當(dāng)中,除了非常安靜的家居環(huán)境下,雞尾酒環(huán)境攻克難度非常難,依靠傳統(tǒng)的聲學(xué)比較難做到提升。


我們加上了攝像頭,通過引入人臉,實(shí)時進(jìn)行嘴巴檢測和實(shí)時聲音檢測,錄音信息加上物體跟蹤,這三個系統(tǒng)進(jìn)行融合,畫面中只聽他的聲音,其他人聲音完全屏蔽掉。


如何讓機(jī)器人聽得更清?我們拿機(jī)器人做語音交互更多需要把音頻轉(zhuǎn)成文字,大模型對于語義體現(xiàn)業(yè)內(nèi)都有目共睹,它的整套基于神經(jīng)網(wǎng)絡(luò)大模型的方案,為我們做語音相關(guān)的能力提供了非常好的技術(shù)路線和思路。


傳統(tǒng)語音識別模型的參數(shù)和體量非常有限,我們現(xiàn)在可以做到多語種的聯(lián)合建模,實(shí)現(xiàn)多種語言的識別,而且通過多語種的聯(lián)合建模,還得到了意外的呈現(xiàn),因?yàn)榇竽P途哂凶銐虼蟮囊曇昂痛翱?,能夠看到上下的信息,我們把語義識別帶到語音識別當(dāng)中,使語音識別內(nèi)容更加提升。


現(xiàn)在我們的訊飛星火語音識別大模型,已經(jīng)遠(yuǎn)遠(yuǎn)超過了我們訊飛基線的效果。無論是音質(zhì)、音色還是流暢度,幾乎可以媲美專業(yè)主播的聲音。越是完美無瑕的聲音越容易給顧客產(chǎn)生距離感,科大訊飛構(gòu)建了超擬人口語化的合成,具備擬人化程度,能夠模擬人對話情況下的思考停頓等。交互鏈路變長了,使得我們整個交互時間控制在200毫米以內(nèi),真正達(dá)到商用水平。


訊飛超擬人語音合成技術(shù)更加有人情味,如果我們的機(jī)器人都能夠發(fā)出這樣的聲音,它傳遞給用戶的就不再是冷冰冰的數(shù)據(jù)信息,而是情感和思想的共鳴。


前面講到語音合成,下面我們講一下發(fā)言人的定制。如果想定制自己特色的聲音需要多少的成本和多長的周期?針對這樣的問題,我們現(xiàn)在的目標(biāo)是只需要一句在30字以內(nèi)的話,就可以生成專屬于你的發(fā)言人,同時基于這樣的音色復(fù)刻4種語音。


前面我們提到都是基于對話機(jī)器閑聊的場景,比如說陪伴型機(jī)器人需要給我們講長故事,短文本我們更多關(guān)注它的口語化、親近感,長文本我們更多需要有上下文的理解,基于上下文的理解將整個故事說得繪聲繪色。我們實(shí)現(xiàn)了整個長文本的合成在音質(zhì)、音調(diào)和情感轉(zhuǎn)折上都能夠達(dá)到擬人化程度非常高的水平,真正實(shí)現(xiàn)聲情并茂。


現(xiàn)在機(jī)器人眾多,場景也非常復(fù)雜,如何將這些能力整合起來?我們通過已有的AI傳感能力形成的一套多模態(tài)交互下的指導(dǎo)規(guī)范,能夠比較準(zhǔn)確地根據(jù)客戶的需求和場景快速地幫他定制出一套比較貼合的多模態(tài)的交互邏輯,讓整個機(jī)器人的交互變得更加自然,這是基于多種模態(tài)的技術(shù)應(yīng)用,構(gòu)建機(jī)器人內(nèi)容的交互范式。


前面需要的是基于視頻感知交互,那么怎么樣將大模型超強(qiáng)的語義理解用到機(jī)器人上?一方面是理性的部分,希望機(jī)器人幫我們完成特定的任務(wù),包括信息查詢、指令操作等;另外一方面,我們對機(jī)器人有感性的訴求,希望機(jī)器人能夠進(jìn)行多輪的對話,并且感知我們的情緒,結(jié)合我們的情緒提供情感的呵護(hù)和陪伴。


基于整個人機(jī)對話領(lǐng)域,我們做了定向增強(qiáng)大模型。作為訊飛機(jī)器人大模型的底座,它的輸出會更加的貼近人機(jī)交互產(chǎn)品的輸出。這里需要強(qiáng)調(diào)的是我們的星火交互大模型。星火交互大模型深度融合到過去人機(jī)交互的鏈路,不同功能模塊對應(yīng)單點(diǎn)的大模型,最后形成人機(jī)交互體系。通過這樣一套體系可以實(shí)現(xiàn):既保留原有語音交互準(zhǔn)確性,也大大放大了它的對話能力。


文檔知識問答大家比較熟練了,我們這套文檔問答體系比較核心的特點(diǎn):針對人機(jī)交互的特點(diǎn),定制了線下檢索模型,大幅度提升了檢索效率,并且有一些關(guān)鍵詞和知識干預(yù),后續(xù)也會進(jìn)一步升級。因?yàn)榇竽P捅旧砭邆涞闹R理解和對話能力,整個閑聊對話體驗(yàn)就會變得非常自然。我們現(xiàn)在說的智能交互產(chǎn)品,風(fēng)格化和情感化是核心非常重要的點(diǎn)。


什么樣的產(chǎn)品叫智能化產(chǎn)品?不同的定制化產(chǎn)品體驗(yàn)是智能化產(chǎn)品的重要點(diǎn),星火交互大模型里內(nèi)置了星火有伴,使得這一套大模型不僅和用戶有風(fēng)格和情感化的對話聊天,并且能夠形成用戶短時和長時的記憶。同時,我們?yōu)檫@套記憶設(shè)定衰減參數(shù),完全模擬人的交互體驗(yàn),真正讓機(jī)器人有了靈魂,這是在風(fēng)格化和AI人設(shè)化做的一些工作。


最后我們再來看一下軟硬件接入一體的解決方案,人機(jī)交互非常復(fù)雜,為了降低接入門檻,它的算力足夠支撐人形機(jī)器人的應(yīng)用。人機(jī)交互的算法全部集成到這一套模組上面,支持二次開發(fā)。整套的所有技術(shù)平臺和能力,背后都是依托于訊飛的超腦平臺,堅(jiān)持面向機(jī)器人提供多模態(tài)的感知交互、開放式語義理解以及軟硬件的交互方式。


我們深知機(jī)器人產(chǎn)業(yè)的發(fā)展離不開整個生態(tài),因此,我們堅(jiān)持共生共創(chuàng)共享的理念,包括工業(yè)設(shè)計(jì)大賽,開發(fā)者論壇,服務(wù)市場,創(chuàng)業(yè)孵化等等,通過一系列豐富多樣的活動和大家形成緊密的關(guān)系。在未來,我們將通過訊飛倡導(dǎo)2030年計(jì)劃不斷加強(qiáng)技術(shù)和產(chǎn)品創(chuàng)新,聯(lián)合大家一同探索人機(jī)合作的無限可能。

 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行
?