熱搜： 發(fā)那科機(jī)器人工業(yè) 機(jī)器人上海 ABB機(jī)器人自動(dòng)化工業(yè)機(jī)器人工業(yè)機(jī)器人展機(jī)器展會(huì)

為了合成讓人類聽懂的語(yǔ)音，機(jī)器做了哪些“深度學(xué)習(xí)”？

日期：2017-09-04 來(lái)源：36氪作者：dc136 評(píng)論：0

標(biāo)簽： 機(jī)器人深度學(xué)習(xí) 語(yǔ)言

　　深度學(xué)習(xí)在2006年開始嶄露頭腳后，近幾年取得了飛速的發(fā)展，無(wú)論是學(xué)術(shù)研究還是企業(yè)應(yīng)用均呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì)；伴隨著這項(xiàng)技術(shù)的不斷成熟，深度學(xué)習(xí)在智能語(yǔ)音領(lǐng)域率先發(fā)力，取得一系列成功的應(yīng)用。

　　例如，一。音色的定制化，需要跟蹤錄大量的音庫(kù)，重新訓(xùn)練一個(gè)模型；二。個(gè)性化表示方法的定制化，可以錄一些數(shù)據(jù)，通過(guò)深度學(xué)習(xí)訓(xùn)練模型，自適應(yīng)的方法來(lái)實(shí)現(xiàn)。

　　深度學(xué)習(xí)在統(tǒng)計(jì)參數(shù)語(yǔ)音合成中的應(yīng)用

　　語(yǔ)音合成主要采用波形拼接合成和統(tǒng)計(jì)參數(shù)合成兩種方式。波形拼接語(yǔ)音合成需要有足夠的高質(zhì)量發(fā)音人錄音才能夠合成高質(zhì)量的語(yǔ)音，它是商業(yè)產(chǎn)品中最常用的語(yǔ)音合成技術(shù)。統(tǒng)計(jì)參數(shù)語(yǔ)音合成雖然整體合成質(zhì)量略低，但是在小規(guī)模語(yǔ)料、低占用資源的情況下，優(yōu)勢(shì)更為明顯。此外，混合語(yǔ)音合成聯(lián)合了波形拼接合成和統(tǒng)計(jì)參數(shù)合成的優(yōu)勢(shì)，選音方法類似于傳統(tǒng)的波形拼接方法，它利用參數(shù)合成方法來(lái)指導(dǎo)選音；接下來(lái)重點(diǎn)介紹目前廣泛使用的語(yǔ)音合成方法：

　?。?）傳統(tǒng)的基于DNN/LSTM的合成

為了合成讓人類聽懂的語(yǔ)音，機(jī)器做了哪些“深度學(xué)習(xí)”？

　　傳統(tǒng)的基于HMM統(tǒng)計(jì)參數(shù)的語(yǔ)音合成是在訓(xùn)練過(guò)程中建立文本參數(shù)與聲學(xué)參數(shù)之間的映射模型，通過(guò)高斯混合模型描述每個(gè)建模單元。在建模過(guò)程中有三個(gè)環(huán)節(jié)會(huì)導(dǎo)致語(yǔ)音音質(zhì)下降，第一是決策樹的聚類，第二是聲碼器，第三是參數(shù)生成算法。針對(duì)決策樹聚類問(wèn)題，可以通過(guò)深層神經(jīng)網(wǎng)絡(luò)建立文本特征和聲學(xué)特征之間的映射關(guān)系，替代傳統(tǒng)的淺層模型，提高模型精度；比較典型的深層神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)包括深層置信神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)；后者具有更強(qiáng)的序列學(xué)習(xí)能力，采用BLSTM-RNN建模時(shí)，還可以跳過(guò)參數(shù)生成算法直接預(yù)測(cè)語(yǔ)音參數(shù)，最后通過(guò)聲碼器就可以合成語(yǔ)音；總的來(lái)說(shuō)，利用深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性建模能力，在一定程度上提升了語(yǔ)音合成系統(tǒng)的性能，但是并沒(méi)有跳出原有的語(yǔ)音合成系統(tǒng)框架。

　　（2）基于WaveNet的合成

　　在已有的研究中，很少有人會(huì)直接在時(shí)域上對(duì)已有音頻建模。從直覺上分析，構(gòu)建一個(gè)自回歸模型，能夠預(yù)測(cè)每一個(gè)samples是如何被前面所有的samples所影響的，是一個(gè)相當(dāng)艱巨的任務(wù)。谷歌提出的基于WaveNets的語(yǔ)音合成方法，跳出了傳統(tǒng)語(yǔ)音合成框架，繞開聲碼器模塊，直接對(duì)采樣點(diǎn)進(jìn)行預(yù)測(cè)，面對(duì)這個(gè)充滿挑戰(zhàn)的問(wèn)題，取得了突破。

　　WaveNet語(yǔ)音合成系統(tǒng)的輸入包括文本特征以及先前時(shí)段的音頻采樣點(diǎn)。其中文本特征的有效表述起到非常重要的作用。如果在沒(méi)有文本序列的情況下來(lái)訓(xùn)練網(wǎng)絡(luò)，仍然可以生成語(yǔ)音，但是無(wú)法聽懂輸出音頻的內(nèi)容。WaveNet語(yǔ)音合成系統(tǒng)存在的問(wèn)題是模型每次輸出單個(gè)采樣點(diǎn)，計(jì)算效率難以滿足實(shí)用要求。可以引入一些自適應(yīng)的方法對(duì)已有模型進(jìn)行優(yōu)化，使其能夠適用于不同發(fā)音人。也可以在模型的輸入端提供更多的信息，例如情感或口音，這樣使得生成的語(yǔ)音可以更多樣化，更具表現(xiàn)力。

　　（3）基于DeepVoice的合成

　　百度提出了Deep Voice語(yǔ)音合成系統(tǒng)，它將里面的很多模塊用深度神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn)，通過(guò)類似于WaveNet的合成器來(lái)合成，效果也是比較理想的。已有的語(yǔ)音合成系統(tǒng)會(huì)在某些環(huán)節(jié)上采用深度學(xué)習(xí)，但在Deep Voice之前，沒(méi)有團(tuán)隊(duì)采用全深度學(xué)習(xí)的框架。傳統(tǒng)語(yǔ)音合成需要進(jìn)行大量的特征處理和特征構(gòu)建，但百度通過(guò)使用深度學(xué)習(xí)避免了這些問(wèn)題。這使得 Deep Voice 的應(yīng)用范圍更加廣泛，使用起來(lái)也更加方便。如果需要應(yīng)用于新的數(shù)據(jù)集，傳統(tǒng)的語(yǔ)音合成系統(tǒng)完成重新訓(xùn)練需數(shù)天到數(shù)周的時(shí)間進(jìn)行調(diào)節(jié)，而對(duì)Deep Voice進(jìn)行手動(dòng)操作和訓(xùn)練模型所需的時(shí)間只要幾個(gè)小時(shí)就足夠。相比于WaveNet語(yǔ)音合成系統(tǒng) ，現(xiàn)在這個(gè)系統(tǒng)的有效速度提升了400倍。

　?。?）兩個(gè)端對(duì)端的語(yǔ)音合成

　　第一個(gè)是Char2Wav，這個(gè)模型是直接對(duì)輸入的文本進(jìn)行編碼，采用encoder-decoder模型。對(duì)輸入特征進(jìn)行編碼，然后生成的中間編碼信息放到解碼器里進(jìn)行最后的合成，合成采用SimpleRNN的合成器來(lái)合成語(yǔ)音，效果也是比較理想的，而且是典型的End-To-End的語(yǔ)音合成模型。

　　再一個(gè)是谷歌提出的端對(duì)端的語(yǔ)音合成系統(tǒng)，它跟Char2Wav比較類似，輸入的也是Embeddings，合成的效果也比較理性。

聲明：凡資訊來(lái)源注明為其他媒體來(lái)源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑，請(qǐng)立即與中國(guó)機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)專題

0 條相關(guān)評(píng)論

推薦圖文

機(jī)器人競(jìng)選市長(zhǎng)，是時(shí)	每日新聞?dòng)瓉?lái)大批裁員
售價(jià)近3萬(wàn)元的鼓掌機(jī)	“來(lái)自星星”的機(jī)器人

推薦專題

點(diǎn)擊排行

?

• 2025杭州國(guó)際人形機(jī)器人與機(jī)器人技術(shù)展：引領(lǐng)未	• 格力 GR625-1700 工業(yè)機(jī)器人海博創(chuàng)自動(dòng)化
• MOTOMAN-MPX3500 安川機(jī)器人,噴涂機(jī)器人	• 格力工業(yè)機(jī)器人產(chǎn)品樣本-操作速度快、廢品率
• 耐腐蝕機(jī)器人防護(hù)服	• 那智機(jī)器人防護(hù)服
• 木工機(jī)器人防護(hù)服	• 六軸機(jī)器人防護(hù)服
• 庫(kù)卡機(jī)器人 KR 250 R2700-2 C	• 機(jī)加工機(jī)器人防護(hù)服

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	機(jī)氣林	人形機(jī)器人生態(tài)大會(huì)	ITES深圳工業(yè)展	廣西工博會(huì)	順企網(wǎng)
優(yōu)氣壓縮機(jī)（上海）有限公司	機(jī)器人研究院	庫(kù)卡機(jī)器人	中國(guó)傳動(dòng)網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場(chǎng)網(wǎng)	國(guó)家標(biāo)準(zhǔn)化委員會(huì)
國(guó)際現(xiàn)代工廠/過(guò)程自動(dòng)化技術(shù)與裝備展覽會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

為了合成讓人類聽懂的語(yǔ)音，機(jī)器做了哪些“深度學(xué)習(xí)”？

為了合成讓人類聽懂的語(yǔ)音，機(jī)器做了哪些“深度學(xué)習(xí)”？