熱搜： 佳士科技 irobot 工業(yè)機器人機器人 ABB 機器人產(chǎn)業(yè)聯(lián)盟發(fā)那科庫卡碼垛機器人機械手

為了讓機器聽懂你的聲音，深度學(xué)習(xí)是如何發(fā)揮作用的？

日期：2017-09-15 來源：36氪作者：dc136 評論：0

　　深度學(xué)習(xí)在 2006 年嶄露頭角后，近幾年取得了快速發(fā)展，在學(xué)術(shù)界和工業(yè)界均呈現(xiàn)出指數(shù)級增長的趨勢；伴隨著這項技術(shù)的不斷成熟，深度學(xué)習(xí)在智能語音領(lǐng)域率先發(fā)力，取得一系列成功的應(yīng)用。本文將重點分享近年來深度學(xué)習(xí)在語音生成問題中的新方法，圍繞語音合成和語音增強兩個典型問題展開介紹。

　　一、深度學(xué)習(xí)在語音合成中的應(yīng)用

　　語音合成主要采用波形拼接合成和統(tǒng)計參數(shù)合成兩種方式。波形拼接語音合成需要有足夠的高質(zhì)量發(fā)音人錄音才能夠合成高質(zhì)量的語音，它在工業(yè)界中得到了廣泛使用。統(tǒng)計參數(shù)語音合成雖然整體合成質(zhì)量略低，但是在發(fā)音人語料規(guī)模有限的條件下，優(yōu)勢更為明顯。在上一期我們重點介紹了深度學(xué)習(xí)在統(tǒng)計參數(shù)語音合成中的應(yīng)用，本期將和大家分享基于波形拼接的語音合成系統(tǒng)，圍繞 Siri 近期推出的語音合成系統(tǒng)展開介紹，它是一種混合語音合成系統(tǒng)，選音方法類似于傳統(tǒng)的波形拼接方法，它利用參數(shù)合成方法來指導(dǎo)選音，本質(zhì)上是一種波形拼接語音合成系統(tǒng)。

　　單元選擇是波形拼接語音合成系統(tǒng)的基本難題，需要在沒有明顯錯誤的條件下將合適的基元組合在一起。語音合成系統(tǒng)通常分為前端和后端兩個部分，前端模塊對于提高語音合成系統(tǒng)的表現(xiàn)力起到非常重要的作用。前端模塊將包含數(shù)字、縮寫等在內(nèi)的原始文本正則化，并對各個詞預(yù)測讀音，解析來自文本的句法、節(jié)奏、重音等信息。因此，前端模塊高度依賴于語言學(xué)信息。后端通過語言學(xué)特征預(yù)測聲學(xué)參數(shù)，模型的輸入是數(shù)值化的語言學(xué)特征。模型的輸出是聲學(xué)特征，例如頻譜、基頻、時長等。在合成階段，利用訓(xùn)練好的統(tǒng)計模型把輸入文本特征映射到聲學(xué)特征，然后用來指導(dǎo)選音。在選音過程中需要重點考慮以下兩個準則：（1）候選基元和目標基元的特征必須接近；（2）相鄰兩個基元的邊界處必須自然過渡?？梢酝ㄟ^計算目標代價和拼接代價評估這兩個準則；然后通過維特比算法計算最優(yōu)路徑確定最終的候選基元；最后通過波形相似重疊相加算法找出最佳拼接時刻，因此生成平滑且連續(xù)合成語音。

　　Siri 的 TTS 系統(tǒng)的目標是訓(xùn)練一個基于深度學(xué)習(xí)的統(tǒng)一模型，該模型能自動準確地預(yù)測數(shù)據(jù)庫中單元的目標成本和拼接成本。因此該方法使用深度混合密度模型來預(yù)測特征值的分布。這種網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合了常規(guī)的深度神經(jīng)網(wǎng)絡(luò)和高斯混合模型的優(yōu)勢，即通過 DNN 對輸入和輸出之間的復(fù)雜關(guān)系進行建模，并且以概率分布作為輸出。系統(tǒng)使用了基于 MDN 統(tǒng)一的目標和拼接模型，該模型能預(yù)測語音目標特征（譜、基頻、時長）和拼接成本分布，并引導(dǎo)基元的搜索。對于元音，有時語音特征相對穩(wěn)定，而有些時候變化又非常迅速，針對這一問題，模型需要能夠根據(jù)這種變化性對參數(shù)作出調(diào)整，因此在模型中使用嵌入方差解決這一問題。系統(tǒng)在運行速度、內(nèi)存使用上具有一定優(yōu)勢，使用快速預(yù)選機制、單元剪枝和計算并行化優(yōu)化了它的性能，可以在移動設(shè)備上運行。

　　二、深度學(xué)習(xí)在語音增強中的應(yīng)用

　　通過語音增強可以有效抑制各種干擾信號，增強目標語音信號；有效的語音增強算法一方面可以提高語音可懂度和話音質(zhì)量，另一方面有助于提高語音識別和聲紋識別的魯棒性。經(jīng)典的語音增強方法包括譜減法、維納濾波法、最小均方誤差法，上述方法基于一些數(shù)學(xué)假設(shè)，在真實環(huán)境下難以有效抑制非平穩(wěn)噪聲的干擾?；诿し蛛x的非負矩陣分解方法也得到了一定關(guān)注，但是這類方法計算復(fù)雜度相對較高；近年來，基于深度學(xué)習(xí)的語音增強方法得到了越來越多的關(guān)注，接下來重點介紹幾種典型的基于深度學(xué)習(xí)的語音增強方法。

　　1. 預(yù)測幅值譜信息

　　這類方法通過深層神經(jīng)網(wǎng)絡(luò)模型建立帶噪語音和干凈語音譜參數(shù)之間的映射關(guān)系，模型的輸入是帶噪語音的幅值譜相關(guān)特征，模型的輸出是干凈語音的幅值譜相關(guān)特征，通過深層神經(jīng)網(wǎng)絡(luò)強大的非線性建模能力重構(gòu)安靜語音的幅值譜相關(guān)特征；神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)可以是 DNN/BLSTM-RNN/CNN 等；相比于譜減、最小均方誤差、維納濾波等傳統(tǒng)方法，這類方法可以更為有效的利用上下文相關(guān)信息，對于處理非平穩(wěn)噪聲具有明顯的優(yōu)勢。

　　2. 預(yù)測屏蔽值信息

　　采用這類方法建模時模型的輸入可以是聽覺域相關(guān)特征，模型的輸出是二值型屏蔽值或浮點型屏蔽值，最常用的聽覺域特征是 Gamma 濾波器相關(guān)特征，這種方法根據(jù)聽覺感知特性將音頻信號分成不同子帶提取特征參數(shù)；對于二值型屏蔽值，如果某個時頻單元能量是語音主導(dǎo)，則保留該時頻單元能量，如果某個時頻單元能量是噪聲主導(dǎo)，則將該時頻單元能量置零；采用這種方法的優(yōu)勢是，共振峰位置處的能量得到了很好的保留，而相鄰共振峰之間波谷處的能量雖然失真誤差較大，但是人耳對這類失真并不敏感；因此通過這種方法增強后的語音具有較高的可懂度；浮點值屏蔽是在二值型屏蔽基礎(chǔ)上進一步改進，目標函數(shù)反映了對各個時頻單元的抑制程度，進一步提高增強后語音的話音質(zhì)量和可懂度。

　　3. 預(yù)測復(fù)數(shù)譜信息

　　目前主流的語音增強方法更多的關(guān)注于對幅值譜相關(guān)特征的增強而保留原始語音的相位譜，隨著信噪比的降低相位譜失真對聽感的影響明顯增強，在低信噪比條件下，有效的相位重構(gòu)方法可以有助于提高語音可懂度；一種典型的相位重構(gòu)方法是利用基音周期線索對濁音段的相位進行有效修復(fù)，但是這類方法無法有效估計清音段的相位信息；復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)模型可以對復(fù)數(shù)值進行非線性變換，而語音幀的復(fù)數(shù)譜能夠同時包含幅值譜信息和相位譜信息，可以通過復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)建立帶噪語音復(fù)數(shù)譜和干凈語音復(fù)數(shù)譜的映射關(guān)系，實現(xiàn)同時對幅值信息和相位信息的增強。

　　4. PIT 說話人分離

　　通過說話人分離技術(shù)可以將混疊語音中不同的說話人信息有效分離出來，已有的基于深度學(xué)習(xí)的說話人分離模型受限于說話人，只能分離出特定說話人的聲音；采用具有置換不變性的訓(xùn)練方法得到的說話人分離模型不再受限于特定說話人；這種方法通過自動尋找分離出的信號和標注的聲源之間的最佳匹配來優(yōu)化語音增強目標函數(shù)；模型的輸入是混疊語音的譜參數(shù)特征，模型的輸出包含多個任務(wù)，每個任務(wù)對應(yīng)一個說話人；在訓(xùn)練過程中，對于訓(xùn)練集中一個樣本內(nèi)，每個任務(wù)固定對應(yīng)某個說話人；可以采用 BLSTM-RNN 模型結(jié)構(gòu)建模。

　　5. DeepClustering 說話人分離

　　基于深度聚類的說話人分離方法是另一種說話人無關(guān)的分離模型，這種方法通過把混疊語音中的每個時頻單元結(jié)合它的上下文信息映射到一個新的空間，并在這個空間上進行聚類，使得在這一空間中屬于同一說話人的時頻單元距離較小可以聚類到一起；將時頻單元映射到新的空間跟詞矢量抽取的思想有些類似，可以通過 k 均值聚類的方法對時頻單元分組，然后計算二值型屏蔽值分離出不同說話人的語音，也可以通過模糊聚類的方法描述不同的時頻單元，然后計算浮點型屏蔽值后分離混疊語音?；谏顚泳垲惖姆椒ê突?PIT 的方法有著各自的優(yōu)勢，為了更有效的解決問題，可能需要將兩種方法有效的結(jié)合。

　　6. 基于對抗網(wǎng)絡(luò)的語音增強

　　在深度學(xué)習(xí)生成模型方面的最新突破是生成對抗網(wǎng)絡(luò)，GAN 在計算機視覺領(lǐng)域生成逼真圖像上取得巨大成功，可以生成像素級、復(fù)雜分布的圖像。GAN 還沒有廣泛應(yīng)用于語音生成問題。本文介紹一種基于對抗網(wǎng)絡(luò)的語音增強方法。這種方法提供了一種快速增強處理方法，不需要因果關(guān)系，沒有 RNN 中類似的遞歸操作；直接處理原始音頻的端到端方法，不需要手工提取特征，無需對原始數(shù)據(jù)做明顯假設(shè)；從不同說話者和不同類型噪聲中學(xué)習(xí)，并將它們結(jié)合在一起形成相同的共享參數(shù)，使得系統(tǒng)簡單且泛化能力較強。

　　語音增強問題是由輸入含噪信號得到增強信號，這種方法通過語音增強 GAN 實現(xiàn)，其中生成網(wǎng)絡(luò)用于增強。它的輸入是含噪語音信號和潛在表征信號，輸出是增強后的信號。將生成器設(shè)計為全部是卷積層（沒有全連接層），這么做可以減少訓(xùn)練參數(shù)從而縮短了訓(xùn)練時間。生成網(wǎng)絡(luò)的一個重要特點是端到端結(jié)構(gòu)，直接處理原始語音信號，避免了通過中間變換提取聲學(xué)特征。在訓(xùn)練過程中，鑒別器負責(zé)向生成器發(fā)送輸入數(shù)據(jù)中真?zhèn)涡畔?，使得生成器可以將其輸出波形朝著真實的分布微調(diào)，從而消除干擾信號。

　　三、總結(jié)

　　本文圍繞著近年來深度學(xué)習(xí)在語音合成和語音增強問題中的新方法展開介紹，雖然語音合成和語音增強需要解決的問題不同，但是在建模方法上有很多相通之處，可以相互借鑒。深度學(xué)習(xí)方法在語音轉(zhuǎn)換、語音帶寬擴展等領(lǐng)域也有著廣泛的應(yīng)用，感興趣的讀者可以關(guān)注這一領(lǐng)域最新的研究成果。雖然深度學(xué)習(xí)的快速發(fā)展推動了智能語音產(chǎn)品的落地，但是仍有些問題不能依賴于深度學(xué)習(xí)方法徹底解決，例如提高合成語音的表現(xiàn)力、提高增強后語音的可懂度，需要在對輸入輸出特征的物理含義深入理解的基礎(chǔ)上，有效的表征信息，選擇合適的方法進行建模。

　　劉斌：中科院自動化所博士，極限元資深智能語音算法專家，中科院-極限元智能交互聯(lián)合實驗室核心技術(shù)人員，在國際頂級會議上發(fā)表多篇文章，獲得多項關(guān)于語音及音頻領(lǐng)域的專利，具有豐富的工程經(jīng)驗，擅長語音信號處理和深度學(xué)習(xí)，提供有效的技術(shù)解決方案。

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

機器人賦能產(chǎn)業(yè)，智贏	機器人也會創(chuàng)造英國
2018年中國智慧機場行	智能工廠全面解讀！
艾貓早教機器人亮相20	360智能硬件助力美國

推薦資訊

點擊排行

• 北京啟動建設(shè)國家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)	• 人工智能是否可信？專家：一些疾病診斷AI準確率
• 17個領(lǐng)域崛起，約1500家企業(yè)聚集，北京人工智能	• 潘云鶴院士：大力培養(yǎng)人工智能一流人才構(gòu)建AI+X
• 中國人工智能有多強？專利申請量頗多，是美國的	• 清華大學(xué)人工智能虛擬學(xué)生首次亮相
• 如何采用人工智能規(guī)劃試點項目	• 全球首個中文新聞人工智能模型發(fā)布！
• 優(yōu)必選科技：以AI助力教育公平，讓孩子看到“更	• 中國智能產(chǎn)業(yè)快速聯(lián)網(wǎng)成片

恰佩克獎	機器人高峰論壇	北大機器人	金屬加工在線	AI中國網(wǎng)	埃森焊接展	機氣林
工博會	趕考網(wǎng)	中國機床網(wǎng)	ITES深圳工業(yè)展	電氣自動化網(wǎng)	高壓電氣網(wǎng)	人工智能機器人
亞洲工業(yè)網(wǎng)	二手設(shè)備網(wǎng)	展覽會信息網(wǎng)	重慶房交匯網(wǎng)	VLAI未來四足機器人官網(wǎng)	中國傳動網(wǎng)	華北機床網(wǎng)
數(shù)控機床市場網(wǎng)	國家標準化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

為了讓機器聽懂你的聲音，深度學(xué)習(xí)是如何發(fā)揮作用的？

為了讓機器聽懂你的聲音，深度學(xué)習(xí)是如何發(fā)揮作用的？