告別2022,你的答卷是什么?

對(duì)于17歲的科大訊飛研究院(下文簡(jiǎn)稱“訊飛研究院”)來(lái)說(shuō),這是踏上“AI新征程”的一年,春天發(fā)布的“訊飛超腦2030計(jì)劃”點(diǎn)燃了未來(lái)十年夢(mèng)想的火種,讓機(jī)器人走進(jìn)每一個(gè)家庭;這是延續(xù)“AI源動(dòng)力”的一年,通過(guò)系統(tǒng)性創(chuàng)新,用技術(shù)賦能教育、醫(yī)療、車載等千行百業(yè);這是“AI科技樹”茁壯成長(zhǎng)的一年,用“板凳甘坐十年冷”的平常心,奪得15項(xiàng)全球人工智能競(jìng)賽冠軍。
不動(dòng)如山,滔滔如水。高山,是頂天立地,流水,是勇往直前。高山流水之間,訊飛研究院的攀登者們,堅(jiān)守初心,勇攀高峰,追求卓越,訊飛研究院一直在路上。
AI新征程:“訊飛超腦2030計(jì)劃”
“預(yù)見(jiàn)未來(lái)最好的方式就是創(chuàng)造未來(lái)”。

2022年年初,科大訊飛吹響了未來(lái)10年戰(zhàn)略布局的號(hào)角,正式對(duì)外發(fā)布“訊飛超腦2030計(jì)劃”(下文簡(jiǎn)稱“超腦2030計(jì)劃”),在不同的階段推出不同功能的機(jī)器人和虛擬人,讓“懂知識(shí)、善學(xué)習(xí)、能進(jìn)化”的AI走進(jìn)每一個(gè)家庭,用技術(shù)去關(guān)懷人、熱愛(ài)人、溫暖人、成就人。就在不久前舉辦的科大訊飛全球1024開發(fā)者節(jié)上,“超腦2030計(jì)劃”在多模感知、多維表達(dá)、深度理解、運(yùn)動(dòng)智能四大核心技術(shù)領(lǐng)域獲得階段性突破,真正解決復(fù)雜的虛擬和現(xiàn)實(shí)場(chǎng)景應(yīng)用問(wèn)題。
AI虛擬人交互平臺(tái)“扣響”元宇宙大門
全球1024開發(fā)者節(jié)的技術(shù)發(fā)布會(huì)上,一場(chǎng)“真人與AI虛擬人安安”的對(duì)話扣動(dòng)了現(xiàn)場(chǎng)無(wú)數(shù)觀眾的心靈扳機(jī):不用出門就能游覽黃山迎客松,無(wú)須穿戴任何設(shè)備就能和表情豐富、情感細(xì)膩的虛擬導(dǎo)游暢聊。
這位具有硬核AI能力的虛擬導(dǎo)游,集成了“超腦2030計(jì)劃”的多模感知、多維表達(dá)、深度理解等多項(xiàng)前沿技術(shù),讓真人和虛擬人可以非常自然地“穿越”不同場(chǎng)景對(duì)話,給人機(jī)交互帶來(lái)全新的沉浸式體驗(yàn)。
“多模感知”技術(shù)可以幫助機(jī)器更“懂”人類。環(huán)境太吵、人多口雜,語(yǔ)音識(shí)別領(lǐng)域挑戰(zhàn)難度最高的“雞尾酒會(huì)難題”怎么解決?此前曾在國(guó)際多通道語(yǔ)音分離和識(shí)別大賽CHiME獲得多項(xiàng)冠軍的訊飛研究院,今年突破性地運(yùn)用了“唇形+語(yǔ)音”的多模態(tài)語(yǔ)音增強(qiáng)技術(shù),讓語(yǔ)音識(shí)別的結(jié)果更精準(zhǔn)。AI感知方式從單模態(tài)發(fā)展到多模態(tài),通過(guò)聽(tīng)覺(jué)、視覺(jué)、語(yǔ)義以及各種傳感器的組合去獲取更多的有用信息,通過(guò)多模感知技術(shù),可以實(shí)現(xiàn)人和機(jī)器更加自然的交互。
“多維表達(dá)”技術(shù)可以幫助人類更“懂”機(jī)器。當(dāng)你結(jié)束一天工作準(zhǔn)備入睡,TA可以輕聲細(xì)語(yǔ)讀為你散文;當(dāng)你驅(qū)車去公司上班,TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車……這已不僅僅是電影橋段。今年,訊飛研究院最新發(fā)布的多風(fēng)格多情感語(yǔ)音合成系統(tǒng)SMART-TTS,就可以生成這樣的虛擬聲音助理,能夠提供“高興、抱歉、撒嬌、嚴(yán)肅、悲傷、害怕、鼓勵(lì)”等11種情感、每種情感有20檔強(qiáng)弱度不同的調(diào)節(jié)能力,讓創(chuàng)造聲音成為可能,領(lǐng)跑業(yè)界。
除了在語(yǔ)音合成等“強(qiáng)項(xiàng)”上持續(xù)進(jìn)步,訊飛研究院還在虛擬形象生成技術(shù)上取得新突破,實(shí)現(xiàn)語(yǔ)義可控的聲音、形象生成,語(yǔ)義驅(qū)動(dòng)的情感、動(dòng)作表達(dá),比如,輸入“一頭長(zhǎng)發(fā)”,系統(tǒng)智能生成溫柔大方的女性形象,聲音端莊又不失甜美;語(yǔ)音語(yǔ)義驅(qū)動(dòng)的動(dòng)作合成,則能通過(guò)對(duì)語(yǔ)音節(jié)奏、韻律體會(huì)和語(yǔ)義理解,讓虛擬人可以隨時(shí)、流暢地切換動(dòng)作,擁有更加自然的肢體語(yǔ)言。
無(wú)論是多模感知還是多維表達(dá),都是“系統(tǒng)性創(chuàng)新”持續(xù)探索的結(jié)晶。如今,這些技術(shù)已在“AI虛擬人交互平臺(tái)”開放,能夠基于此實(shí)現(xiàn)全方位的AIGC創(chuàng)作——構(gòu)建3D個(gè)性化虛擬人形象、生成多語(yǔ)種主播音視頻、虛擬人直播等。一幅繁茂的虛擬人生態(tài)圖景——通過(guò)建設(shè)覆蓋虛擬助理、虛擬服務(wù)機(jī)器人、虛擬IP等數(shù)百個(gè)形象和聲音,AI虛擬人交互平臺(tái)為媒體、金融、文旅、政務(wù)、電商等行業(yè)場(chǎng)景提供虛擬人打造服務(wù)。
“機(jī)器人超腦平臺(tái)”帶來(lái)“人機(jī)協(xié)同”新時(shí)代
“身懷絕技”的四足機(jī)器狗小黑成為網(wǎng)紅——頭頂鋼球健步如飛、爬坡下樓穩(wěn)穩(wěn)當(dāng)當(dāng)、聞到氣體泄漏馬上預(yù)警,現(xiàn)場(chǎng)觀眾驚嘆“穩(wěn)如老狗”。
為什么這么“穩(wěn)”?靠的是訊飛研究院研發(fā)的基于多模態(tài)強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制算法,通過(guò)無(wú)偏差信息輸入的評(píng)價(jià)網(wǎng)絡(luò),指導(dǎo)帶噪信息輸入的動(dòng)作網(wǎng)絡(luò)訓(xùn)練,最終實(shí)現(xiàn)可預(yù)測(cè)目標(biāo)關(guān)節(jié)位置和真實(shí)關(guān)節(jié)位置。強(qiáng)大的不是“小黑”,而是小黑內(nèi)嵌的“機(jī)器人超腦平臺(tái)”,也是“超腦2030計(jì)劃”階段性突破——訊飛研究院將多模交互、運(yùn)動(dòng)控制、硬件模組結(jié)合深度理解能力全部集中到這一平臺(tái),為廣大生態(tài)伙伴賦能,推動(dòng)“人機(jī)協(xié)同”新時(shí)代的到來(lái)。未來(lái),一個(gè)工作人員可能會(huì)和數(shù)百上千的“機(jī)器狗”共事,人通過(guò)收集前端機(jī)器狗排查到的問(wèn)題,集中調(diào)度力量解決,從而大幅提升效率,人機(jī)協(xié)同的模式將廣泛應(yīng)用到服務(wù)領(lǐng)域、工業(yè)領(lǐng)域等各行各業(yè)。
“小黑”邁出的一小步,是AI機(jī)器人發(fā)展歷程前進(jìn)的一大步。根據(jù)“超腦2030計(jì)劃”,科大訊飛將分階段推出可養(yǎng)成的寵物機(jī)器人、外骨骼機(jī)器人、服務(wù)機(jī)器人,未來(lái)十年,讓機(jī)器人走進(jìn)每一個(gè)家庭,陪伴孩子成長(zhǎng)、輔助老人獨(dú)立行走、幫助家庭減輕勞動(dòng)。
AI源動(dòng)力:系統(tǒng)性創(chuàng)新解決社會(huì)剛需命題
2022年,人工智能技術(shù)的演進(jìn)仍然不斷落入各行各業(yè),成為拓新變革的源動(dòng)力。人們?cè)诠ぷ?、生活中感受到的全新體驗(yàn)與變化,也許都蘊(yùn)含著訊飛研究院在技術(shù)上的每一次邁步。
在教育領(lǐng)域,訊飛研究院的知識(shí)圖譜技術(shù)不僅登頂國(guó)際評(píng)測(cè)榜首,并且深入融合至教育相關(guān)產(chǎn)品中,真正實(shí)現(xiàn)了“通過(guò)知識(shí)圖譜找弱項(xiàng)”。備受家長(zhǎng)青睞的科大訊飛AI學(xué)習(xí)機(jī)獨(dú)有的“AI個(gè)性化精準(zhǔn)學(xué)系統(tǒng)”,也正是在此技術(shù)上今年再度升級(jí),覆蓋多學(xué)科、全階段、區(qū)域化分層級(jí)的內(nèi)容診斷,為AI+學(xué)習(xí)樹立了行業(yè)標(biāo)準(zhǔn)的標(biāo)桿。
融合貫穿了訊飛研究院全學(xué)科OCR識(shí)別、知識(shí)圖譜、多維度學(xué)情畫像、語(yǔ)義理解等核心技術(shù),“因材施教”充分打通了過(guò)程學(xué)情記錄、學(xué)情分析、智慧教學(xué)等環(huán)節(jié),在2022年持續(xù)落地。目前,教育的區(qū)域級(jí)因材施教解決方案走向全國(guó)40多個(gè)城市、縣區(qū),人工智能正在深入教育的本質(zhì)。
在醫(yī)療領(lǐng)域,依托于訊飛研究院在認(rèn)知智能方面的持續(xù)創(chuàng)新,讓機(jī)器的深度理解能力提升到了知識(shí)推理所能達(dá)到的新高度,科大訊飛研發(fā)出多模態(tài)AI問(wèn)診系統(tǒng),聯(lián)合北師大和北京安定醫(yī)院構(gòu)建了抑郁癥篩查平臺(tái),實(shí)測(cè)數(shù)據(jù)表明對(duì)抑郁癥篩查的準(zhǔn)確率已經(jīng)達(dá)到91.2%,在北京安定醫(yī)院等實(shí)現(xiàn)了常態(tài)化試點(diǎn),并將于明年向全國(guó)正式推廣開來(lái)。全社會(huì)關(guān)注的青少年心理健康問(wèn)題或許有了更加專業(yè)、精準(zhǔn)的解決方案,呵護(hù)祖國(guó)的花朵們健康成長(zhǎng)。與此同時(shí),學(xué)習(xí)了人類醫(yī)學(xué)知識(shí)、具備全科輔診能力的智醫(yī)助理,也因訊飛研究院在認(rèn)知智能領(lǐng)域的技術(shù)突破有了更好的表現(xiàn),在這一年里輔助基層醫(yī)生修正診斷數(shù)超63萬(wàn)次,輔助診斷準(zhǔn)確率提升至97%,覆蓋疾病數(shù)量超過(guò)1400種,讓每個(gè)人的生命健康都有了更智慧的AI守護(hù)者。
在車載領(lǐng)域,隨著訊飛研究院創(chuàng)新提出多模態(tài)語(yǔ)音識(shí)別技術(shù)的率先落地,車載的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了結(jié)合駕駛員唇形與語(yǔ)音特征,即使在后排、副駕、艙內(nèi)外較為嘈雜的環(huán)境下,也能準(zhǔn)確識(shí)別駕駛員說(shuō)話內(nèi)容并精準(zhǔn)響應(yīng),同時(shí)添加的硬件設(shè)備還能實(shí)現(xiàn)視線檢測(cè)、疲勞檢測(cè)、手勢(shì)檢測(cè)等用途。智能座艙體驗(yàn)全面升級(jí),車載人機(jī)智能交互有了全新的體驗(yàn)。
提起北京2022年冬奧會(huì)和冬殘奧會(huì),很多人仍然記憶猶新。作為北京2022年冬奧會(huì)和冬殘奧會(huì)官方自動(dòng)語(yǔ)音轉(zhuǎn)換與翻譯獨(dú)家供應(yīng)商,這一年,科大訊飛承擔(dān)的國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“冬奧多語(yǔ)種語(yǔ)言服務(wù)關(guān)鍵支撐技術(shù)及設(shè)備”順利通過(guò)課題績(jī)效評(píng)價(jià),通過(guò)把多語(yǔ)種語(yǔ)音識(shí)別、多語(yǔ)種語(yǔ)音合成、多語(yǔ)種機(jī)器翻譯、智能交互等各項(xiàng)技術(shù)用在冬奧會(huì)的具體場(chǎng)景中,打造史上首個(gè)溝通無(wú)障礙冬奧會(huì),實(shí)現(xiàn)“人和人之間溝通無(wú)障礙、人和組織之間溝通無(wú)障礙、人和賽事之間溝通無(wú)障礙”。
AI科技樹:用正確的方法,做有用的研究
成立17年以來(lái),訊飛研究院堅(jiān)持“面向世界前沿的技術(shù)創(chuàng)新、基于系統(tǒng)性思維的模式創(chuàng)新、前后貫穿的機(jī)制創(chuàng)新”,實(shí)現(xiàn)了從0到1的源頭核心技術(shù)創(chuàng)新和從1到N的系統(tǒng)性創(chuàng)新,構(gòu)建起“研究+工程+平臺(tái)+資源”的完整研發(fā)體系,離不開“AI科技樹”的底座支撐。以基礎(chǔ)算法為主干節(jié)點(diǎn),以技術(shù)體系為生長(zhǎng)方向,以場(chǎng)景理解為發(fā)展動(dòng)力——訊飛研究院的AI科技樹,全面支撐了訊飛面向全行業(yè)的業(yè)務(wù)生命樹。
在核心源頭技術(shù)上,攀登從未停歇。2022年,訊飛研究院有47篇論文被ACL、KDD、SIGIR、ICASSP等國(guó)際人工智能領(lǐng)域頂級(jí)會(huì)議錄用;獲得15項(xiàng)全球人工智能競(jìng)賽評(píng)測(cè)的冠軍,例如感知智能方面的2022 ECCV OOV-ST挑戰(zhàn)賽文字識(shí)別賽道、國(guó)際聲學(xué)場(chǎng)景和事件檢測(cè)及分類挑戰(zhàn)賽(DCASE),認(rèn)知智能方面在科學(xué)知識(shí)推理挑戰(zhàn)賽OpenBookQA中實(shí)現(xiàn)單模型全球首次超過(guò)人類平均水平,以及常識(shí)推理挑戰(zhàn)賽CommonsenseQA 2.0中刷新機(jī)器科學(xué)常識(shí)推理水平的世界紀(jì)錄。
AI科技樹的枝繁葉茂,離不開國(guó)家級(jí)平臺(tái)春風(fēng)化雨的哺育。今年,“語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室”已正式通過(guò)評(píng)估,轉(zhuǎn)建為“語(yǔ)音及語(yǔ)言信息處理國(guó)家工程研究中心”,發(fā)力語(yǔ)音語(yǔ)言等人工智能技術(shù)創(chuàng)新更遠(yuǎn)的未來(lái),在服務(wù)國(guó)家重大戰(zhàn)略需求以及帶動(dòng)產(chǎn)業(yè)發(fā)展方面發(fā)揮關(guān)鍵作用。至此,科大訊飛承建了國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)、語(yǔ)音及語(yǔ)言信息處理國(guó)家工程研究中心等國(guó)家級(jí)平臺(tái),在多個(gè)技術(shù)方向奠定多項(xiàng)人工智能領(lǐng)域的里程碑。
這一年,訊飛研究院也積極參與行業(yè)重大趨勢(shì)發(fā)聲。面向元宇宙,在世界制造業(yè)大會(huì)人工智能創(chuàng)新論壇上,科大訊飛AI研究院執(zhí)行院長(zhǎng)、語(yǔ)音及語(yǔ)言信息處理國(guó)家工程研究中心副主任劉聰發(fā)表主旨演講,提出了“人類不應(yīng)僅是元宇宙的體驗(yàn)者,更應(yīng)是主導(dǎo)者和設(shè)計(jì)者;元宇宙空間作為技術(shù)和數(shù)據(jù)樞紐,應(yīng)更多地去做現(xiàn)實(shí)世界;‘需有所為而不可為’的事情;堅(jiān)持推動(dòng)數(shù)字經(jīng)濟(jì)賦能實(shí)體經(jīng)濟(jì),以虛助實(shí)”的行業(yè)前瞻性思考。
這一年,數(shù)學(xué)家丘成桐來(lái)到了訊飛研究院,寄語(yǔ)訊飛研究院的青年科學(xué)家們“尋智能根基,興數(shù)學(xué)科技”,“一路學(xué)一路做應(yīng)用”,在實(shí)戰(zhàn)當(dāng)中不斷提升數(shù)學(xué)能力,丘成桐和多所國(guó)內(nèi)知名院校的數(shù)學(xué)研究團(tuán)隊(duì)的到來(lái),是訊飛下一步基礎(chǔ)研究發(fā)展重要的標(biāo)志性事件。
因?yàn)榭匆?jiàn),所以堅(jiān)信。從單語(yǔ)種單場(chǎng)景到多語(yǔ)種多場(chǎng)景、從單模態(tài)智能到多模態(tài)智能、從算法創(chuàng)新到軟硬一體化創(chuàng)新的拓展,AI生命樹向陽(yáng)而生,欣欣向榮。
站在全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家、向第二個(gè)百年奮斗目標(biāo)進(jìn)軍的新征程歷史節(jié)點(diǎn)上,面對(duì)高質(zhì)量發(fā)展的時(shí)代之問(wèn),訊飛研究院答案篤定:“用正確的方法,做有用的研究”,以價(jià)值創(chuàng)造為根本,用系統(tǒng)性創(chuàng)新解決重大社會(huì)剛需命題。