熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人 ABB 機(jī)器人產(chǎn)業(yè)聯(lián)盟發(fā)那科機(jī)械手碼垛機(jī)器人庫卡

智能語音交互的概念

日期：2021-10-14 來源：知乎作者：吉米哥評論：0

標(biāo)簽：

2020年庚子年開了不太好的一個(gè)頭，新冠疫情在全國開始蔓延，對各行各業(yè)都產(chǎn)生了很大的影響。“危”和“機(jī)”總是并存的，在我們審視這場災(zāi)難的同時(shí)，疫情也將深刻的改變?nèi)藗兊墓ぷ骱蜕罘绞?。面對疫情大家肯定大量聽?ldquo;測溫”“消毒”“無接觸”等等需求和對應(yīng)的產(chǎn)品方案給此次疫情防控帶來的幫助。智能語音先天的無接觸特性，在本次抗疫斗爭中發(fā)揮了巨大的作用，作為國家推進(jìn)的人工智能核心能力的一個(gè)重要組成部分，智能語音行業(yè)勢必將迎來新的發(fā)展機(jī)會。

本專題《智能語音》嘗試總結(jié)梳理智能語音的相關(guān)內(nèi)容，希望為大家了解智能語音概念，業(yè)務(wù)流程，能力現(xiàn)狀，產(chǎn)業(yè)鏈提供幫助，涉及篇幅較多，會分為幾個(gè)章節(jié)逐步更新完善。

隨著人工智能各種應(yīng)用的不斷滲透，人們已經(jīng)接觸了越來越多的智能語音產(chǎn)品，從形態(tài)上可以簡單的分為軟件類產(chǎn)品和硬件類產(chǎn)品。

智能語音軟件或SAAS類產(chǎn)品

微信、個(gè)人助理（Siri、小冰、Home、Alexa）、呼叫中心、智能客服等等。

（曾經(jīng)智能語音外呼由于大量的AI客服通過騷擾電話進(jìn)行廣告推銷，被大家深惡痛覺，但此次疫情期間智能語音外呼系統(tǒng)，輔助進(jìn)行重點(diǎn)人群發(fā)熱篩查和跟進(jìn)隨訪，起到了相當(dāng)明顯的作用，降低的大量的重復(fù)工作量。）

微信轉(zhuǎn)語音功能

智能語音硬件類產(chǎn)品

家居：智能音箱、智能電視、智能機(jī)頂盒等等

兒童：兒童機(jī)器人、智能故事機(jī)、智能學(xué)習(xí)機(jī)等等

隨身：藍(lán)牙語音TWS耳機(jī)、智能手表、智能翻譯機(jī)等等

汽車：車載智能導(dǎo)航、手機(jī)智能支架、智能車載機(jī)器人等等

商務(wù)：智能錄音筆、商務(wù)錄音轉(zhuǎn)寫器、智能辦公本等等

硬件智能語音產(chǎn)品

以上的產(chǎn)品形態(tài)，使用了智能語音當(dāng)中全部或部分能力，以滿足實(shí)際的業(yè)務(wù)場景需求。人們開始更多的認(rèn)識和了解語音產(chǎn)品和語音技術(shù)，也知道了相關(guān)的語音技術(shù)供應(yīng)商，比如科大訊飛，知道亞馬遜的Alexa，知道了Google的Dialog Flow。了解語音行業(yè)的人，大多都知道了ASR是語音識別、NLP是自然語言處理。

哦，你是XX公司的，你們是做ASR的吧。（而內(nèi)心的想法是，智能語音除了ASR其實(shí)還有很多技術(shù)能力；同樣的我們希望把語音產(chǎn)品做好，需要涉及的工作也很多很多。）

智能語音不只是語音識別。

一次語音交互示意

以上是一次智能語音問答的演示，我們同機(jī)器（假設(shè)是智能音箱，忽略喚醒步驟）語音如下。

用戶：“明天出門要帶傘嗎？”

音箱：“您好，成都明天晴，氣溫5-10℃，不需要帶傘哦。”

人的聽覺形成過程是將聲能轉(zhuǎn)變?yōu)闄C(jī)械能、再轉(zhuǎn)為生物電信號，在聽覺中樞加工、分析的結(jié)果。以上整個(gè)交互過程就涉及了機(jī)器需要“聽清”“識別”“理解”“行動”“想話術(shù)”“播報(bào)”整整6個(gè)環(huán)節(jié)，類比“人”聽到了同樣的語音指令所需要進(jìn)行的步驟。對應(yīng)的智能語音主要技術(shù)領(lǐng)域就包含了“信號處理”“語音識別”“自然語言處理”“語音合成”4個(gè)主要方向。在每個(gè)方向上針對不同的應(yīng)用場景，又有更多細(xì)分的業(yè)務(wù)能力。

智能語音是希望實(shí)現(xiàn)人與機(jī)器以語言為紐帶的通信。我們的長期目標(biāo)肯定是能夠同機(jī)器像人一樣的自由溝通，機(jī)器像人一樣智能應(yīng)答交互。多思考人與人做對話時(shí)的特征，再類比到人與機(jī)器的交互過程，我們還有很多工作要做。

雞尾酒會效應(yīng)

“聽清”和“識別”

人類在聽覺上是天賦異稟的，我們的人耳是一個(gè)很特殊的器官，可以分辨聲音的方位和距離，感覺聲音的遠(yuǎn)近變化，選擇我們感興趣的聲音進(jìn)行聆聽。在燈紅酒綠的雞尾酒會上，即使周圍有各種各樣的噪音，盡管周圍的人使用的是各自的母語，英文、西語、法語、葡萄牙語等等，此時(shí)，如果遠(yuǎn)處突然有人用中文叫你的名字時(shí)，你還是能夠馬上就注意到他，你甚至可以和他聊天，聽到他說的內(nèi)容，注意力集中在你和他的談話之中而忽略背景中其他的對話或噪音。

而如果把機(jī)器放到同樣的環(huán)境中，我們是很難從各種聲音中找到需要機(jī)器真正傾聽的聲音，機(jī)器“聽清”和“識別”在交互的開頭就出了問題，后續(xù)的交互體驗(yàn)怎么保證了。

這個(gè)時(shí)候你也許會跳出來說，我試了手機(jī)上的語音識別感覺做的還不錯(cuò)啊，我在酒吧里發(fā)個(gè)微信還是能很好的識別，轉(zhuǎn)換為文字。

聲音是一種波，在傳播中會不斷的反射、折射、衍射、吸收，在任何場景中設(shè)備接收到的聲音都會包含”需要識別的聲音”、“不需要識別的的聲音”。不需要識別的聲音會是多元的，包含噪音、額外的人聲、回聲、混響疊加在一起，在不同的場景中會有不同的疊加效果，形成一個(gè)專有的聲場，傳入機(jī)器的耳朵（麥克風(fēng)）中。

如上，我們稱為機(jī)器所處的”聲學(xué)場景”。曾經(jīng)語音產(chǎn)品大多為手機(jī)里的APP，都是低噪音加近場，“信號處理” 很少提及。我們一般把聲源和麥克風(fēng)之間的距離在“半米”以內(nèi)，稱之為“近場場景”，大于“半米”的，稱之為“遠(yuǎn)場場景”。我們需要不同的前端“信號處理”方案去適配不同的“聲學(xué)場景”。

聲學(xué)場景 = 需要識別的聲音 + 不需要識別的聲音（對應(yīng)場景下的“信號處理”直接決定了語音入口體驗(yàn)。）

近場對比遠(yuǎn)場

在酒吧里發(fā)微信的場景，這是一個(gè)明顯的近場應(yīng)用。雖然其環(huán)境噪音很大，但是我們的發(fā)聲源距離機(jī)器的耳朵（麥克風(fēng)）很近，聲學(xué)場景中“需要識別的聲音”遠(yuǎn)大于“不需要識別的聲音”，機(jī)器“聽”的難度更低。而遠(yuǎn)場場景中，比如在機(jī)器人產(chǎn)品，機(jī)器人可能位于機(jī)場的候機(jī)廳、醫(yī)院的導(dǎo)診室、展廳的引導(dǎo)臺、人滿為患的餐廳等等。每一種機(jī)器與環(huán)境空間的相對位置變化都會形成不同的“聲學(xué)場景”給機(jī)器“聽清”和“識別”增加難度。

一個(gè)好的智能語音產(chǎn)品，“信號處理”和“語音識別”能力必然是針對其投放的“聲學(xué)場景”深度適配優(yōu)化后的，如此才能保障后續(xù)的語音交互體驗(yàn)。

語音交互 VUI

這里我們單獨(dú)強(qiáng)調(diào)一個(gè)詞叫做“語音交互 Voice User Interface”。

大家或許都知道User Interface，而沒有聽過VUI。在傳統(tǒng)的人機(jī)交互中，我們都是通過圖型的方式，進(jìn)行強(qiáng)視覺弱邏輯的交互，也被稱為GUI（Graphic User Interface）；而VUI則是通過語音的方式進(jìn)行人機(jī)交互，強(qiáng)邏輯而無視覺（或者弱視覺），我們要通過語音傳遞所有足夠的信息，承載我們的認(rèn)知、邏輯、價(jià)值、情緒等等一切元素，這才是真正賦予智能語音靈魂的部分，而前面提到的“聽清”和“識別”只是VUI中的一部分。

語音交互VUI

完整的語音步驟包含以上多個(gè)步驟，而多次交互才能形成一次完整的語音交互。

我們先要“聽清楚”對應(yīng)的過程 “信號處理”，找出我們想要識別的語音信號；然后”識別”對應(yīng)的就是語音識別，聽懂對應(yīng)的語音信號說的是啥，把聲音轉(zhuǎn)換為文字的過程，他說的是“明天出門要帶傘嗎？”；此部分作為語音的入口，識別可以進(jìn)一步泛化為模式識別，基于“聲學(xué)場景”和“語音”導(dǎo)入當(dāng)前對話的語音對象所處的情景，聲紋特征，性別，年齡，情緒等等更多元素。

知道內(nèi)容了，然后就要理解要做什么，過程叫做“自然語言理解NLU”，他的意思是問我“明天”的“天氣”，當(dāng)前所在的城市是否“下雨”；理解了，之后就要去行動，查一查明天的天氣，告訴他一些關(guān)鍵信息：成都、明天、晴、溫度5-10度；行動完了之后，就要去想話術(shù)，怎么表達(dá)更好，不同的表達(dá)方式會給人不一樣的交互體驗(yàn)，”他問的是帶傘，那我肯定要對應(yīng)的答復(fù)“，這個(gè)過程叫做自然語言生成，NLG；NLU+行動+NLG 對應(yīng)的可以統(tǒng)稱為自然語言處理，我們需要賦予機(jī)器以個(gè)性、邏輯、通識、對語音對象的理解、對上下文情景的理解等等都需要從NLP層面去渲染機(jī)器想要表達(dá)的思想。

想清楚怎么表達(dá)之后，就要播報(bào)說出來，采用不同的聲音、林志玲的還是岳云鵬的，是溫柔、知性、親切的還是活波、可愛、俏皮的會帶來不同的語音交互體驗(yàn)。如此形成單次的語音交互，反復(fù)以上完成智能語音交互的完整體驗(yàn)。

智能語音目前從技術(shù)上包含幾大關(guān)鍵環(huán)節(jié)：

VSP信號處理：通過麥克風(fēng)陣列進(jìn)行“聲學(xué)場景”的信號處理，研究方向上涵蓋。降噪NS，對聲學(xué)場景中的非語音噪音信號進(jìn)行抑制；語音增強(qiáng)SE，從含有噪音的的語音信號中提取純凈語音；去混響DER，弱化混響引起的不同步的語音相互疊加、從而提升語音識別效果；回聲消除AEC，去除語音交互設(shè)備自己發(fā)出的聲音（播報(bào)、音樂等等），而只保留用戶的人聲；語音活性檢測VAD，檢測出一段音頻中真正的語音部分；聲源定位DOA，確定發(fā)聲源的距離、角度等等；盲源分離BSS，從多個(gè)語音信號中分離出不同語音信號，例如不同的說話人聲。

ASR模式識別：不局限于將語音識別為文字，更廣的針對語音和音頻的模式識別，研究方向上涵蓋。ASR，通過將人類語音轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入，由特征提取、聲學(xué)模型、語言模型組成，包括近場識別、遠(yuǎn)場識別，近年的應(yīng)用中還涉及切分說話人、全雙工語音等；聲紋識別VPR，通過比對說話人聲紋特征來判斷是否為同一個(gè)人；語音喚醒WUW，在連續(xù)語流中實(shí)時(shí)檢測出說話人特定片段，將設(shè)備從休眠狀態(tài)激活至運(yùn)行狀態(tài)；特定聲音檢測，識別聲音特征，檢測音頻流當(dāng)中的特殊事件，例如檢測嬰兒啼哭，狗叫等等；情緒識別，識別聲音特征中的性別、年齡、情緒等等元素；謊言識別等等。

NLP自然語言處理：自然語言理解NLU，基于詞法分析、句法分析、意圖提取和填槽獲得語言的含義；對話管理DM，考慮歷史對話信息和上下文的語境等信息進(jìn)行全面地分析，承載機(jī)器的個(gè)性和邏輯狀態(tài)，決定系統(tǒng)要采取的相應(yīng)的動作，如追問、澄清和確認(rèn)等；自然語言生成NLG，將機(jī)器輸出的抽象表達(dá)轉(zhuǎn)換為句法合法、語義準(zhǔn)確的自然語言句子；內(nèi)容知識庫CMS，承載機(jī)器的通識，對于聊天對象的理解；知識圖譜KG，同知識庫結(jié)合，擴(kuò)展機(jī)器的認(rèn)知能力，獲得更多相關(guān)信息等等。

TTS語音合成：把文字智能地轉(zhuǎn)化為自然語音流，也就是輸入是文本，輸出是波形；近年個(gè)性化TTS、帶有情緒的TTS成為熱點(diǎn)。

以上我們對于智能語音有了概要性的認(rèn)知，而人類大腦皮層每天處理的信息中，聲音信息占20%，它是溝通最重要的紐帶，所以人機(jī)對話將方便人們的工作與生活。因此當(dāng)很多人問我們是做什么的時(shí)候，我們更愿意說我們是做VUI的，而非是做語音識別。

“智能語音交互”承載著更多的希望與寄托，時(shí)代的一粒沙，落在每個(gè)人頭上就是一座山，讓我們把它鑄成堡壘。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

機(jī)器人賦能產(chǎn)業(yè)，智贏	機(jī)器人也會創(chuàng)造英國
2018年中國智慧機(jī)場行	智能工廠全面解讀！
艾貓?jiān)缃虣C(jī)器人亮相20	360智能硬件助力美國

推薦資訊

點(diǎn)擊排行

?

• 智能制造轉(zhuǎn)型如何破局？	• 智能制造對產(chǎn)業(yè)效率提升的配置效應(yīng)，體現(xiàn)在哪些
• 人工智能企業(yè)爭相上市商用模式待拓展業(yè)績爆發(fā)	• 美前官員稱中國在人工智能領(lǐng)域正占據(jù)全球主導(dǎo)地
• 環(huán)衛(wèi)車輛——酷哇機(jī)器人完成2.5億美元C輪融資	• 豐田家務(wù)機(jī)器人，驚艷亮相！
• 智慧醫(yī)院創(chuàng)新: 源頭在臨床機(jī)器人來幫忙	• 中國首次推出人工智能道德規(guī)范，確保人工智能處
• 當(dāng)世界模型被用于sim2real：機(jī)器人通過視覺想象	• 沒有任何槍炮，美國這種戰(zhàn)斗機(jī)器人太土豪：搭載

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	北大機(jī)器人	金屬加工在線	AI中國網(wǎng)	埃森焊接展	機(jī)氣林
工博會	趕考網(wǎng)	中國機(jī)床網(wǎng)	ITES深圳工業(yè)展	電氣自動化網(wǎng)	高壓電氣網(wǎng)	人工智能機(jī)器人
亞洲工業(yè)網(wǎng)	二手設(shè)備網(wǎng)	中國（南京）國際應(yīng)急產(chǎn)業(yè)博覽會	庫卡機(jī)器人	2022SSE職業(yè)技術(shù)教育現(xiàn)代化博覽會	海南教育裝備展覽會	VLAI未來四足機(jī)器人官網(wǎng)
中國傳動網(wǎng)	華北機(jī)床網(wǎng)	數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

智能語音交互的概念