想足不出戶游覽祖國大好河山?與表情豐富、情感細(xì)膩的虛擬導(dǎo)游來一場對話吧,無須穿戴設(shè)備就能“打破”空間界限,“說走就走”帶你“瞬移”到旅游景點,目及之處皆是美景、遠(yuǎn)觀近瞧隨心所欲,開啟一場身臨其境的沉浸式“云旅游”。
這個AI能力“硬核”的虛擬導(dǎo)游就是AI虛擬人,它集成“訊飛超腦2030計劃”的多模感知、多維表達(dá)、深度理解等多項前沿技術(shù),使真人和虛擬人可以非常自然地“穿越”不同場景對話,給人機交互帶來全新的沉浸式體驗。
11月18日,2022科大訊飛全球1024開發(fā)者節(jié)在合肥正式啟幕,在發(fā)布會上,科大訊飛AI研究院副院長高建清以“AI新紀(jì)元,訊飛超腦2030”為主題,解密“訊飛超腦2030計劃”階段性技術(shù)突破。他表示,隨著AI虛擬人的誕生,一大波“預(yù)演未來”的創(chuàng)新應(yīng)用將走入百姓生活,讓AI惠及每個人。
超腦2030計劃賦能AI虛擬人更懂知識
“面包在低溫下會馬上發(fā)霉嗎”?AI虛擬人要回答這一問題,就必須理解“低溫變質(zhì)慢”等常識,在引入海量知識的基礎(chǔ)上,用預(yù)訓(xùn)練模型進(jìn)行知識重要性排序,并融合知識與問題進(jìn)行推理,這樣才能與人暢聊“面包變質(zhì)的二三事”。
然而,讓AI虛擬人擁有這種知識推理卻并非易事,必須要“超腦”賦能才行。2022年伊始,科大訊飛正式發(fā)布“訊飛超腦2030計劃”,核心是通過AI技術(shù)持續(xù)的核心源頭技術(shù)創(chuàng)新和系統(tǒng)性創(chuàng)新,讓機器遠(yuǎn)不止具備“你問我答”的基礎(chǔ)智能,還擁有更強的交互和運動能力。只有讓人工智能“懂知識、善學(xué)習(xí)、能進(jìn)化”,才能讓機器人走進(jìn)每一個家庭,以解決未來社會重大剛需命題。
“實現(xiàn)‘訊飛超腦2030計劃’,要突破人工智能共性基礎(chǔ)算法,攻克多模感知、多維表達(dá)、認(rèn)知智能、運動智能等核心技術(shù),也要研究軟硬一體的機器人關(guān)鍵技術(shù)。此外,要探索虛擬人交互、機器人等方面的示范應(yīng)用。”高建清說。
作為“訊飛超腦2030計劃”的階段性成果,今年,訊飛已打造多款專業(yè)虛擬人,分別用于客服、助理、招聘、財務(wù)、法務(wù)等工作,為金融、電信、媒體等行業(yè)提供專業(yè)虛擬人解決方案,為“數(shù)字經(jīng)濟”服務(wù)。
“目前科大訊飛虛擬人播報支持包括中文、英語、日語、韓語、西班牙語等多種語言及四川話、粵語、藏語、維吾爾語等多種方言。”高建清介紹,科大訊飛強大的AI技術(shù)支撐,使虛擬人不僅可以滿足各場景的播報需要,也可以出色地完成主持、客服、陪伴、直播等交互工作,提供導(dǎo)航導(dǎo)覽、業(yè)務(wù)知識、生活服務(wù)、信息查詢等交互式AI服務(wù)。
創(chuàng)新“交互”技術(shù)對話“滔滔不絕”
想向AI虛擬人了解《獨行月球》這部電影的內(nèi)容?沒問題!今年,科大訊飛在交互系統(tǒng)的認(rèn)知關(guān)鍵技術(shù)取得突破性進(jìn)展,依托科大訊飛建設(shè)的認(rèn)知智能國家重點實驗室相關(guān)團隊在認(rèn)知智能技術(shù)突破方面奪得3項國際冠軍——在常識推理挑戰(zhàn)賽中刷新機器常識推理水平世界紀(jì)錄,在科學(xué)常識推理挑戰(zhàn)賽中以準(zhǔn)確率94.2%的絕對優(yōu)勢奪冠,在常識推理挑戰(zhàn)賽中以多模型準(zhǔn)確率93.48%、單模型準(zhǔn)確率92.07%奪冠,后兩項比賽成績更是超越人類平均水平。
隨著核心源頭技術(shù)創(chuàng)新和系統(tǒng)性創(chuàng)新的持續(xù)突破,AI虛擬人擁有更加“智慧”的語義理解和對話生成能力。“好的人機交互系統(tǒng),在開放式場景下要具備深度理解能力,并能了解交互對象從而發(fā)起主動對話。”高建清說,圍繞認(rèn)知智能技術(shù),訊飛實現(xiàn)了基于語義圖網(wǎng)絡(luò)的開放場景語義理解、基于事理圖譜的對話管理以及基于知識學(xué)習(xí)的可控對話生成。其中,面向開放世界的基于圖表示的深度語義理解體系,通過增加關(guān)系預(yù)測模塊形成了信息豐富的語義表示圖,并將要素和關(guān)系進(jìn)行具體化,從而可以更精準(zhǔn)地理解用戶意圖、更準(zhǔn)確回答用戶問題,解決了AI對開放問題無能為力的痛點。目前,訊飛定義了1517個意圖、近2000個事件。“通過這個框架的提出,我們在深度語義理解技術(shù)上又邁進(jìn)了一大步。”高建清說。

機器人與小觀眾現(xiàn)場互動
“唇形+語音”多模感知“喚醒”交互新模式
環(huán)境太吵、人聲太多,語音交互怎么辦?在“訊飛超腦2030計劃”中,科大訊飛用“唇形+語音”的多模態(tài)語音增強技術(shù),喚醒智能語音交互新模式。
“機器想更自然地與人類進(jìn)行交互,需要通過聽覺、視覺、語義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài),逐步擬人化。”高建清表示。
繼“語音識別在多人討論場景下效果做到70%”“多點噪聲干擾場景做到了可用”之后,今年,科大訊飛挑戰(zhàn)商場、醫(yī)院、地鐵等復(fù)雜場景,提出全新的多模態(tài)語音增強與識別框架。結(jié)合視頻信息輸入,新技術(shù)可以利用人臉、唇形、語音等多模態(tài)信息的互補,將主說話人的干凈人聲從嘈雜背景環(huán)境中分離出來,顯著提升開放場景的識別效果。
一個典型的場景是,當(dāng)你在嘈雜的環(huán)境中通話,旁邊其他人也在說話,搭載多模感知技術(shù)的應(yīng)用系統(tǒng)能夠只“聽”到你的聲音,不受旁邊嘈雜音干擾,從而順利完成溝通。“這一方案,從用戶主觀理解度層面有了極大改善,是真正站在用戶體驗角度優(yōu)化系統(tǒng)的一種方法。”高建清表示,這個算法主要解決“語音識別準(zhǔn)確率高,但用戶體驗不好”的現(xiàn)實問題。
多情感多風(fēng)格語音合成虛擬人有溫度有個性
如何讓機器的聲音媲美人類?這是智能語音合成技術(shù)領(lǐng)域需求量大、技術(shù)門檻高的難題。高建清分享了科大訊飛在語音合成技術(shù)領(lǐng)域的新突破——多風(fēng)格多情感合成系統(tǒng)SMART-TTS,語音合成從簡單的信息播報“變身”具備喜怒哀樂情感的語音助手。
據(jù)介紹,SMART-TTS系統(tǒng)可提供“高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感,每種情感有20檔強弱度不同的調(diào)節(jié)能力;也能提供聲音的創(chuàng)造能力,如停頓、重音、語速等,用戶可以根據(jù)自己喜好調(diào)節(jié),真正實現(xiàn)了合成系統(tǒng)媲美具備個性化特點的真人表達(dá)能力。
當(dāng)你漫步林蔭路,它可以用字正腔圓的“播音腔”為你讀新聞;當(dāng)你結(jié)束一天工作準(zhǔn)備入睡,它可以輕聲細(xì)語為你讀散文;當(dāng)你驅(qū)車去公司上班,它可以用你最喜歡的歌手聲音告訴你走哪條路不堵車;當(dāng)你和家人一起觀看紀(jì)錄片,它可以為紀(jì)錄片不同人物配音。人機交互表達(dá)自然、情感飽滿。
在聲音和虛擬形象生成技術(shù)方面,科大訊飛實現(xiàn)語義可控的聲音、形象生成,語義驅(qū)動的情感、動作表達(dá)。比如,輸入“一頭長發(fā)”,系統(tǒng)智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊瀟灑”,生成商務(wù)范兒的男生形象,聲音略帶磁性。據(jù)了解,訊飛開放平臺將開放500個虛擬合成的聲音。
此外,科大訊飛還實現(xiàn)了語音語義驅(qū)動的動作合成,通過對語音節(jié)奏、韻律體會和語義理解,虛擬人可以隨時、流暢地切換動作,擁有更加自然的肢體語言。