人工智能日益“火熱”,可目前的智能語音技術(shù),機器還不能充分理解自然語言,聽懂“弦外之音”的情景僅存在于科幻作品中。但這正在起變化!

國內(nèi)最新的智能語音技術(shù)成果表明:機器已能以較高的準確率實現(xiàn)語音轉(zhuǎn)化文字、多語種同步翻譯、甚至模仿某個人的聲線講話,以假亂真。
在上千人的會場,多位嘉賓近3小時的演講交流,全程無速記員,演講內(nèi)容卻能實時轉(zhuǎn)成文字顯示在大屏幕上。
能糾錯,能秒懂
近日在科大訊飛年度發(fā)布會上看到,除了演講中個別人名地名的差錯,以及說話者口語表達中冗余的詞匯外,絕大部分演講內(nèi)容都被整理得非常準確,并能同步翻譯成英、日、韓等多種語言。

在智能車載系統(tǒng)的展示中,面對駕駛員任性地打斷、隨意地插話,車載系統(tǒng)竟能通過上下文語境“秒懂”駕駛員意圖,甚至對故意“刁難”的極簡指令,也能迅速聽懂“弦外之音”,導航、聽歌、團票都不在話下。
據(jù)介紹,這些都是基于深度神經(jīng)網(wǎng)絡的語音識別技術(shù)來實現(xiàn)的。語音識別技術(shù),簡單說就是讓計算機“聽懂”人類的語音,將語音中包含的文字信息提取出來。該項技術(shù)在智能計算機系統(tǒng)中扮演著重要角色,相當于給計算機裝上了“耳朵”,使其實現(xiàn)人機通信和交互。目前語音識別準確率可達到97%。
“隨著萬物互聯(lián)時代到來,以語音為主、鍵盤觸摸為輔的人機交互正逐漸成為剛需。未來5到10年,人工智能會像水和電一樣成為我們生活的必需品,深刻改變我們的世界。”科大訊飛董事長劉慶峰說。
聰明的機器人會說話
聰明的機器人要能聽會說,語音合成技術(shù)就是“讓機器像人一樣開口說話”,它是涉及聲學、語言學、數(shù)字信號處理、計算機科學等多個學科的一項信息處理的前沿技術(shù)。
中國工程院院士、中國人工智能學會理事長李德毅表示,在人工智能領(lǐng)域,對話是目前最直接、最便捷的交互方式,對話智能是幾乎所有服務機器人的必備技能。
目前,中國在智能語音技術(shù)上已經(jīng)實現(xiàn)了5到8米的遠場識別、多輪交互對話、免喚醒詞交流、交流隨時打斷等多項突破,人機交互越來越流暢自然。
“不僅中文語音合成技術(shù)取得突破,在今年的全球語音合成大賽中,科大訊飛的語音合成技術(shù)能夠聲情并茂講英文故事,在多種語言的測試中表現(xiàn)不俗。”劉慶峰說。
讓機器人“開口”說話的技術(shù)并不新鮮,電子萬年歷、計算器上都能用得到,但要像人一樣說得自然流利、有聲調(diào)起伏,并非易事。
現(xiàn)場用手機試用科大訊飛開發(fā)的語音合成軟件,發(fā)現(xiàn)語音合成功能不僅能將文字信息轉(zhuǎn)化為可聽的聲音信息,還能將某個人的聲線特征收入語音庫中,然后用很短的時間將文本用被模仿者的聲線特點讀出來,確有以假亂真之效。未來,人們的聲音也可能存在被“盜”用的風險。