熱搜： 發(fā)那科機(jī)器人工業(yè) 機(jī)器人上海 ABB機(jī)器人自動(dòng)化工業(yè)機(jī)器人工業(yè)機(jī)器人展機(jī)器展會(huì)

谷歌DeepMind發(fā)布重磅技術(shù)WaveNet：機(jī)器人的面孔天使的聲音

日期：2016-09-12 來(lái)源：麻省理工科技評(píng)論作者：zy 評(píng)論：0

標(biāo)簽：

　 導(dǎo)讀：近日，谷歌旗下人工智能公司DeepMind公布了其在計(jì)算機(jī)語(yǔ)音合成領(lǐng)域的最新研究突破——WaveNet。

　　WaveNet是一種利用神經(jīng)網(wǎng)絡(luò)系統(tǒng)對(duì)原始音頻波形（RawSoundWave）建模的技術(shù)，生成的音頻質(zhì)量?jī)?yōu)于目前所有的文本轉(zhuǎn)語(yǔ)音（Text-to-Speech,TTS）系統(tǒng)，將計(jì)算機(jī)輸出音頻與人類自然語(yǔ)音差距縮小50%，號(hào)稱世界最佳！

　　DeepMind在twitter發(fā)文稱：“讓人類和機(jī)器對(duì)話是人機(jī)交互領(lǐng)域長(zhǎng)久以來(lái)的夢(mèng)想！”

　　通常我們聽(tīng)到的計(jì)算機(jī)或手機(jī)輸出的文本轉(zhuǎn)語(yǔ)音（TTS）音頻都會(huì)覺(jué)得別扭、生硬，甚至詭異。此次DeepMind推出的這款新型語(yǔ)音合成系統(tǒng)WaveNet將大大改善這種情況，讓機(jī)器輸出音頻更自然、更像人類發(fā)聲。

　　當(dāng)然，讓計(jì)算機(jī)發(fā)出聲音，這并不是什么新鮮事兒。

　　最常用的TTS方法可能是拼接式語(yǔ)音合成（ConcatenativeSynthesis）：先錄制單一說(shuō)話者的大量語(yǔ)音片段，建立一個(gè)大型語(yǔ)料庫(kù)，然后簡(jiǎn)單地從中進(jìn)行選擇并合成完整的大段音頻、詞語(yǔ)和句子。這種“機(jī)械式”方法使得計(jì)算機(jī)輸出音頻經(jīng)常產(chǎn)生語(yǔ)音毛刺、語(yǔ)調(diào)的詭異變化、甚至結(jié)巴，并且無(wú)法調(diào)整語(yǔ)音的強(qiáng)調(diào)性音節(jié)或情緒。

　　另外一種方法是所謂的參數(shù)化方法，利用數(shù)學(xué)模型對(duì)已知的聲音進(jìn)行排列、組裝成詞語(yǔ)或句子來(lái)重新創(chuàng)造音頻。這種技術(shù)倒是不易產(chǎn)生聲音毛刺，所以確實(shí)讓機(jī)器輸出的音頻聽(tīng)起來(lái)不那么機(jī)器化。

　　然而，這兩種技術(shù)的共同點(diǎn)是：簡(jiǎn)單、機(jī)械地將語(yǔ)音片段拼接起來(lái)，而不是從零開(kāi)始創(chuàng)造出整個(gè)音頻波形。

　　音頻跳轉(zhuǎn)

　　WaveNet正是一種從零開(kāi)始創(chuàng)造整個(gè)音頻波形輸出的技術(shù)。

　　WaveNet利用真實(shí)的人類聲音剪輯和相應(yīng)的語(yǔ)言、語(yǔ)音特征來(lái)訓(xùn)練其卷積神經(jīng)網(wǎng)絡(luò)（convolutionalneuralnetworks），讓其能夠辨別這兩方面（語(yǔ)言和語(yǔ)音）的音頻模式。使用中，對(duì)WaveNet系統(tǒng)輸入新的文本信息，也即相對(duì)應(yīng)的新的語(yǔ)音特征，WaveNet系統(tǒng)會(huì)重新生成整個(gè)原始音頻波形來(lái)描述這個(gè)新的文本信息。

　　WaveNet組織結(jié)構(gòu)

　　WaveNet是逐步進(jìn)行操作的：首先，生成一個(gè)音頻波形樣本；接著再處理、生成一個(gè)音頻波形樣本，逐步進(jìn)行。其中非常重要的是，新的樣本生成都會(huì)受到此前樣本結(jié)果的影響，也即每一步的樣本結(jié)果都將影響下一步的樣本預(yù)測(cè)，并幫助生成下一步的樣本。

　　最終的音頻結(jié)果確實(shí)表現(xiàn)驚人（試聽(tīng)參照DeepMind網(wǎng)站：https://deepmind.com/blog/wavenet-generative-model-raw-audio/）。相比于連續(xù)合成和參數(shù)化合成技術(shù)，WaveNet輸出音頻明顯更接近自然人聲。

　　DeepMind的WaveNet技術(shù)無(wú)疑是計(jì)算機(jī)語(yǔ)音合成領(lǐng)域的一大突破。然而，由于WaveNet是計(jì)算整個(gè)原始音頻波形，每輸出一秒音頻神經(jīng)網(wǎng)絡(luò)必須處理16000個(gè)樣本，所以WaveNet技術(shù)需要強(qiáng)大的運(yùn)算能力來(lái)合成語(yǔ)音。

　　據(jù)DeepMind透露給《金融時(shí)報(bào)》（FinancialTimes）的內(nèi)部消息稱，這意味著目前還不能應(yīng)用于谷歌或其他的任何一項(xiàng)產(chǎn)品中。

　　然而，這并不是計(jì)算機(jī)面臨的唯一語(yǔ)言問(wèn)題。翻譯自然語(yǔ)言和手寫(xiě)文字也是人工智能系統(tǒng)的一大難題。

　　起碼以現(xiàn)在這速度，在計(jì)算機(jī)形成真正的智能思考能力之前，它們應(yīng)該早就能夠用花哨的語(yǔ)言和人類交流了。

聲明：凡資訊來(lái)源注明為其他媒體來(lái)源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑，請(qǐng)立即與中國(guó)機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)專題

0 條相關(guān)評(píng)論

推薦圖文

機(jī)器人當(dāng)導(dǎo)購(gòu) 無(wú)人店	科沃斯機(jī)器人成立20周
ABB CEO建言人工智能	Uber 發(fā)生全球首例自

推薦專題

點(diǎn)擊排行

?

• 優(yōu)岡股份巨型CNC車(chē)床六軸數(shù)控車(chē)床 FAN系列	• 臺(tái)灣福裕FSG-2448/64/80/120/160ADIV
• 格力 GR625-1700 工業(yè)機(jī)器人海博創(chuàng)自動(dòng)化	• 臺(tái)灣福裕 FSG-3A818 3A1224 全自動(dòng)平面磨床
• 臺(tái)灣福裕FSG-20+24 ADIV 2024CNC磨床	• AXE-B17 全局式三維掃描儀尖端3D掃描技術(shù)
• LEBE音響（樂(lè)耳貝聲）專業(yè)擴(kuò)聲系統(tǒng)成功應(yīng)用于福	• 河北省哈密市應(yīng)急管理局選用樂(lè)耳貝聲LEBESTEREO
• 臺(tái)灣福裕FSG-20+24 ADIV 2024 CNC磨床	• LEBE（樂(lè)耳貝聲）專業(yè)擴(kuò)聲系統(tǒng)成功應(yīng)用于甘肅省

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	機(jī)氣林	人形機(jī)器人生態(tài)大會(huì)	ITES深圳工業(yè)展	廣西工博會(huì)	順企網(wǎng)
優(yōu)氣壓縮機(jī)（上海）有限公司	機(jī)器人研究院	庫(kù)卡機(jī)器人	中國(guó)傳動(dòng)網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場(chǎng)網(wǎng)	國(guó)家標(biāo)準(zhǔn)化委員會(huì)
國(guó)際現(xiàn)代工廠/過(guò)程自動(dòng)化技術(shù)與裝備展覽會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

谷歌DeepMind發(fā)布重磅技術(shù)WaveNet：機(jī)器人的面孔 天使的聲音

谷歌DeepMind發(fā)布重磅技術(shù)WaveNet：機(jī)器人的面孔天使的聲音