国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  機(jī)械手  碼垛機(jī)器人  庫卡 

智能語音交互的概念

   日期:2021-10-14     來源:知乎    作者:吉米哥     評論:0    
標(biāo)簽:
2020年庚子年開了不太好的一個(gè)頭,新冠疫情在全國開始蔓延,對各行各業(yè)都產(chǎn)生了很大的影響。“危”和“機(jī)”總是并存的,在我們審視這場災(zāi)難的同時(shí),疫情也將深刻的改變?nèi)藗兊墓ぷ骱蜕罘绞?。面對疫情大家肯定大量聽?ldquo;測溫”“消毒”“無接觸”等等需求和對應(yīng)的產(chǎn)品方案給此次疫情防控帶來的幫助。智能語音先天的無接觸特性,在本次抗疫斗爭中發(fā)揮了巨大的作用,作為國家推進(jìn)的人工智能核心能力的一個(gè)重要組成部分,智能語音行業(yè)勢必將迎來新的發(fā)展機(jī)會。
本專題《智能語音》嘗試總結(jié)梳理智能語音的相關(guān)內(nèi)容,希望為大家了解智能語音概念,業(yè)務(wù)流程,能力現(xiàn)狀,產(chǎn)業(yè)鏈提供幫助,涉及篇幅較多,會分為幾個(gè)章節(jié)逐步更新完善。

隨著人工智能各種應(yīng)用的不斷滲透,人們已經(jīng)接觸了越來越多的智能語音產(chǎn)品,從形態(tài)上可以簡單的分為軟件類產(chǎn)品和硬件類產(chǎn)品。

智能語音軟件或SAAS類產(chǎn)品
微信、個(gè)人助理(Siri、小冰、Home、Alexa)、呼叫中心、智能客服等等。

(曾經(jīng)智能語音外呼由于大量的AI客服通過騷擾電話進(jìn)行廣告推銷,被大家深惡痛覺,但此次疫情期間智能語音外呼系統(tǒng),輔助進(jìn)行重點(diǎn)人群發(fā)熱篩查和跟進(jìn)隨訪,起到了相當(dāng)明顯的作用,降低的大量的重復(fù)工作量。)

微信轉(zhuǎn)語音功能

智能語音硬件類產(chǎn)品

家居:智能音箱、智能電視、智能機(jī)頂盒等等
兒童:兒童機(jī)器人、智能故事機(jī)、智能學(xué)習(xí)機(jī)等等
隨身:藍(lán)牙語音TWS耳機(jī)、智能手表、智能翻譯機(jī)等等
汽車:車載智能導(dǎo)航、手機(jī)智能支架、智能車載機(jī)器人等等
商務(wù):智能錄音筆、商務(wù)錄音轉(zhuǎn)寫器、智能辦公本等等

硬件智能語音產(chǎn)品


以上的產(chǎn)品形態(tài),使用了智能語音當(dāng)中全部或部分能力,以滿足實(shí)際的業(yè)務(wù)場景需求。人們開始更多的認(rèn)識和了解語音產(chǎn)品和語音技術(shù),也知道了相關(guān)的語音技術(shù)供應(yīng)商,比如科大訊飛,知道亞馬遜的Alexa,知道了Google的Dialog Flow。了解語音行業(yè)的人,大多都知道了ASR是語音識別、NLP是自然語言處理。

哦,你是XX公司的,你們是做ASR的吧。(而內(nèi)心的想法是,智能語音除了ASR其實(shí)還有很多技術(shù)能力;同樣的我們希望把語音產(chǎn)品做好,需要涉及的工作也很多很多。)

智能語音不只是語音識別。

一次語音交互示意

以上是一次智能語音問答的演示,我們同機(jī)器(假設(shè)是智能音箱,忽略喚醒步驟)語音如下。

用戶:“明天出門要帶傘嗎?”

音箱:“您好,成都明天晴,氣溫5-10℃,不需要帶傘哦。”

人的聽覺形成過程是將聲能轉(zhuǎn)變?yōu)闄C(jī)械能、再轉(zhuǎn)為生物電信號,在聽覺中樞加工、分析的結(jié)果。以上整個(gè)交互過程就涉及了機(jī)器需要“聽清”“識別”“理解”“行動”“想話術(shù)”“播報(bào)”整整6個(gè)環(huán)節(jié),類比“人”聽到了同樣的語音指令所需要進(jìn)行的步驟。對應(yīng)的智能語音主要技術(shù)領(lǐng)域就包含了“信號處理”“語音識別”“自然語言處理”“語音合成”4個(gè)主要方向。在每個(gè)方向上針對不同的應(yīng)用場景,又有更多細(xì)分的業(yè)務(wù)能力。

智能語音是希望實(shí)現(xiàn)人與機(jī)器以語言為紐帶的通信。我們的長期目標(biāo)肯定是能夠同機(jī)器像人一樣的自由溝通,機(jī)器像人一樣智能應(yīng)答交互。多思考人與人做對話時(shí)的特征,再類比到人與機(jī)器的交互過程,我們還有很多工作要做。


雞尾酒會效應(yīng)

“聽清”和“識別”

人類在聽覺上是天賦異稟的,我們的人耳是一個(gè)很特殊的器官,可以分辨聲音的方位和距離,感覺聲音的遠(yuǎn)近變化,選擇我們感興趣的聲音進(jìn)行聆聽。在燈紅酒綠的雞尾酒會上,即使周圍有各種各樣的噪音,盡管周圍的人使用的是各自的母語,英文、西語、法語、葡萄牙語等等,此時(shí),如果遠(yuǎn)處突然有人用中文叫你的名字時(shí),你還是能夠馬上就注意到他,你甚至可以和他聊天,聽到他說的內(nèi)容,注意力集中在你和他的談話之中而忽略背景中其他的對話或噪音。

而如果把機(jī)器放到同樣的環(huán)境中,我們是很難從各種聲音中找到需要機(jī)器真正傾聽的聲音,機(jī)器“聽清”和“識別”在交互的開頭就出了問題,后續(xù)的交互體驗(yàn)怎么保證了。

這個(gè)時(shí)候你也許會跳出來說,我試了手機(jī)上的語音識別感覺做的還不錯(cuò)啊,我在酒吧里發(fā)個(gè)微信還是能很好的識別,轉(zhuǎn)換為文字。

聲音是一種波,在傳播中會不斷的反射、折射、衍射、吸收,在任何場景中設(shè)備接收到的聲音都會包含”需要識別的聲音”、“不需要識別的的聲音”。不需要識別的聲音會是多元的,包含噪音、額外的人聲、回聲、混響疊加在一起,在不同的場景中會有不同的疊加效果,形成一個(gè)專有的聲場,傳入機(jī)器的耳朵(麥克風(fēng))中。
如上,我們稱為機(jī)器所處的”聲學(xué)場景”。曾經(jīng)語音產(chǎn)品大多為手機(jī)里的APP,都是低噪音加近場,“信號處理” 很少提及。我們一般把聲源和麥克風(fēng)之間的距離在“半米”以內(nèi),稱之為“近場場景”,大于“半米”的,稱之為“遠(yuǎn)場場景”。我們需要不同的前端“信號處理”方案去適配不同的“聲學(xué)場景”。

聲學(xué)場景 = 需要識別的聲音 + 不需要識別的聲音(對應(yīng)場景下的“信號處理”直接決定了語音入口體驗(yàn)。)

近場對比遠(yuǎn)場

在酒吧里發(fā)微信的場景,這是一個(gè)明顯的近場應(yīng)用。雖然其環(huán)境噪音很大,但是我們的發(fā)聲源距離機(jī)器的耳朵(麥克風(fēng))很近,聲學(xué)場景中“需要識別的聲音”遠(yuǎn)大于“不需要識別的聲音”,機(jī)器“聽”的難度更低。而遠(yuǎn)場場景中,比如在機(jī)器人產(chǎn)品,機(jī)器人可能位于機(jī)場的候機(jī)廳、醫(yī)院的導(dǎo)診室、展廳的引導(dǎo)臺、人滿為患的餐廳等等。每一種機(jī)器與環(huán)境空間的相對位置變化都會形成不同的“聲學(xué)場景”給機(jī)器“聽清”和“識別”增加難度。

一個(gè)好的智能語音產(chǎn)品,“信號處理”和“語音識別”能力必然是針對其投放的“聲學(xué)場景”深度適配優(yōu)化后的,如此才能保障后續(xù)的語音交互體驗(yàn)。

語音交互 VUI

這里我們單獨(dú)強(qiáng)調(diào)一個(gè)詞叫做“語音交互 Voice User Interface”。

大家或許都知道User Interface,而沒有聽過VUI。在傳統(tǒng)的人機(jī)交互中,我們都是通過圖型的方式,進(jìn)行強(qiáng)視覺弱邏輯的交互,也被稱為GUI(Graphic User Interface);而VUI則是通過語音的方式進(jìn)行人機(jī)交互,強(qiáng)邏輯而無視覺(或者弱視覺),我們要通過語音傳遞所有足夠的信息,承載我們的認(rèn)知、邏輯、價(jià)值、情緒等等一切元素,這才是真正賦予智能語音靈魂的部分,而前面提到的“聽清”和“識別”只是VUI中的一部分。

語音交互VUI

完整的語音步驟包含以上多個(gè)步驟,而多次交互才能形成一次完整的語音交互。

我們先要“聽清楚”對應(yīng)的過程 “信號處理”,找出我們想要識別的語音信號;然后”識別”對應(yīng)的就是語音識別,聽懂對應(yīng)的語音信號說的是啥,把聲音轉(zhuǎn)換為文字的過程,他說的是“明天出門要帶傘嗎?”;此部分作為語音的入口,識別可以進(jìn)一步泛化為模式識別,基于“聲學(xué)場景”和“語音”導(dǎo)入當(dāng)前對話的語音對象所處的情景,聲紋特征,性別,年齡,情緒等等更多元素。

知道內(nèi)容了,然后就要理解要做什么,過程叫做“自然語言理解NLU”,他的意思是問我“明天”的“天氣”,當(dāng)前所在的城市是否“下雨”;理解了,之后就要去行動,查一查明天的天氣,告訴他一些關(guān)鍵信息:成都、明天、晴、溫度5-10度;行動完了之后,就要去想話術(shù),怎么表達(dá)更好,不同的表達(dá)方式會給人不一樣的交互體驗(yàn),”他問的是帶傘,那我肯定要對應(yīng)的答復(fù)“,這個(gè)過程叫做自然語言生成,NLG;NLU+行動+NLG 對應(yīng)的可以統(tǒng)稱為自然語言處理,我們需要賦予機(jī)器以個(gè)性、邏輯、通識、對語音對象的理解、對上下文情景的理解等等都需要從NLP層面去渲染機(jī)器想要表達(dá)的思想。

想清楚怎么表達(dá)之后,就要播報(bào)說出來,采用不同的聲音、林志玲的還是岳云鵬的,是溫柔、知性、親切的還是活波、可愛、俏皮的會帶來不同的語音交互體驗(yàn)。如此形成單次的語音交互,反復(fù)以上完成智能語音交互的完整體驗(yàn)。

智能語音目前從技術(shù)上包含幾大關(guān)鍵環(huán)節(jié):

VSP信號處理:通過麥克風(fēng)陣列進(jìn)行“聲學(xué)場景”的信號處理,研究方向上涵蓋。降噪NS,對聲學(xué)場景中的非語音噪音信號進(jìn)行抑制;語音增強(qiáng)SE,從含有噪音的的語音信號中提取純凈語音;去混響DER,弱化混響引起的不同步的語音相互疊加、從而提升語音識別效果;回聲消除AEC,去除語音交互設(shè)備自己發(fā)出的聲音(播報(bào)、音樂等等),而只保留用戶的人聲;語音活性檢測VAD,檢測出一段音頻中真正的語音部分;聲源定位DOA,確定發(fā)聲源的距離、角度等等;盲源分離BSS,從多個(gè)語音信號中分離出不同語音信號,例如不同的說話人聲。

ASR模式識別:不局限于將語音識別為文字,更廣的針對語音和音頻的模式識別,研究方向上涵蓋。ASR,通過將人類語音轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,由特征提取、聲學(xué)模型、語言模型組成,包括近場識別、遠(yuǎn)場識別,近年的應(yīng)用中還涉及切分說話人、全雙工語音等;聲紋識別VPR,通過比對說話人聲紋特征來判斷是否為同一個(gè)人;語音喚醒WUW,在連續(xù)語流中實(shí)時(shí)檢測出說話人特定片段,將設(shè)備從休眠狀態(tài)激活至運(yùn)行狀態(tài);特定聲音檢測,識別聲音特征,檢測音頻流當(dāng)中的特殊事件,例如檢測嬰兒啼哭,狗叫等等;情緒識別,識別聲音特征中的性別、年齡、情緒等等元素;謊言識別等等。

NLP自然語言處理:自然語言理解NLU,基于詞法分析、句法分析、意圖提取和填槽獲得語言的含義;對話管理DM,考慮歷史對話信息和上下文的語境等信息進(jìn)行全面地分析,承載機(jī)器的個(gè)性和邏輯狀態(tài),決定系統(tǒng)要采取的相應(yīng)的動作,如追問、澄清和確認(rèn)等;自然語言生成NLG,將機(jī)器輸出的抽象表達(dá)轉(zhuǎn)換為句法合法、語義準(zhǔn)確的自然語言句子;內(nèi)容知識庫CMS,承載機(jī)器的通識,對于聊天對象的理解;知識圖譜KG,同知識庫結(jié)合,擴(kuò)展機(jī)器的認(rèn)知能力,獲得更多相關(guān)信息等等。

TTS語音合成:把文字智能地轉(zhuǎn)化為自然語音流,也就是輸入是文本 ,輸出是波形 ;近年個(gè)性化TTS、帶有情緒的TTS成為熱點(diǎn)。

以上我們對于智能語音有了概要性的認(rèn)知,而人類大腦皮層每天處理的信息中,聲音信息占20%,它是溝通最重要的紐帶,所以人機(jī)對話將方便人們的工作與生活。因此當(dāng)很多人問我們是做什么的時(shí)候,我們更愿意說我們是做VUI的,而非是做語音識別。

“智能語音交互”承載著更多的希望與寄托,時(shí)代的一粒沙,落在每個(gè)人頭上就是一座山,讓我們把它鑄成堡壘。
 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對其真實(shí)性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行
?