除了下棋、設(shè)計(jì)衣服,Google 家的 AI 最近又點(diǎn)亮了一門新技能——說人話。會(huì)說話的機(jī)器人并不稀奇,蘋果的 Siri,微軟的小娜,都是我們所熟悉的語音助手。但 Google 家的 WaveNet ,卻是能模仿真實(shí)人類聲音的 AI,并且還精通多國(guó)語言、各種樂器,可以說是高配的洛天依。
WaveNet 的前世今生
讓人們使用自然語言與機(jī)器進(jìn)行交流,是人類長(zhǎng)久以來的夢(mèng)想。一直以來,計(jì)算機(jī)生成聲音主要依靠文本-語音轉(zhuǎn)換系統(tǒng),即 TTS( text-to-speech):計(jì)算機(jī)從朗讀者的聲音片段組成龐大的數(shù)據(jù)庫(kù)中,將文本與聲音進(jìn)行對(duì)應(yīng),將聲音片段組合形成完整的語音輸出。
然而,這種方法有一個(gè)缺陷,就是聲音修改非常困難,比如換成一個(gè)聲音、改變重讀部分或者朗讀者的感情等。這就要求參數(shù) TTS 存儲(chǔ)大量的模型數(shù)據(jù)、語音內(nèi)容和聲音特點(diǎn)等。除此之外,使用 TTS 轉(zhuǎn)換而來的聲音總是顯得過于生硬,銜接也不夠自然。
因此,也就有了 WaveNet 項(xiàng)目的誕生。WaveNet 是一個(gè)能生成原始聲波的深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),是 Google 旗下的人工智能公司 DeepMind 開發(fā)的項(xiàng)目之一。9 月 12 日,DeepMind 在其官方博客上宣布,WaveNet 已經(jīng)能夠發(fā)出高仿真的人類聲音。
與 TTS 不同的是,WaveNet 使用的是真實(shí)的聲波而不僅僅是語言。簡(jiǎn)單來講,就是將自然人聲輸入到系統(tǒng)中,由第一層券積層先進(jìn)行處理,再反饋至第二層,為下一步的生成提供預(yù)測(cè)。
每一步都會(huì)生成新的樣本,并且都會(huì)受到此前樣本結(jié)果的影響,也即每一步的結(jié)果都將影響下一步的樣本預(yù)測(cè),并幫助生成下一步的樣本。經(jīng)過層層處理后,最終輸出的聲音非常逼真。
PK,WaveNet 效果拔群
在對(duì)比測(cè)試中,DeepMind 請(qǐng)了英語和漢語的測(cè)試人員用各自的母語進(jìn)行錄音,與 Google 目前最優(yōu)秀的 TTS 系統(tǒng) Concatenative 和 Parametric 以及 WaveNet 進(jìn)行對(duì)比。
測(cè)試結(jié)果表明,WaveNet 生成的聲音要比 Google 的 TTS 系統(tǒng)更為自然,但與真實(shí)的人聲仍有差距。
這一結(jié)果令研究人員興奮不已,DeepMind 在其博客上表示:
“這種方法能在所有 16 千赫茲的音頻上奏效已經(jīng)足夠讓人驚喜,更何況還擊敗了美國(guó)最先進(jìn)的 TTS 系統(tǒng)。”
太貴,WaveNet 暫無法實(shí)現(xiàn)商用
除了人類聲音,理論上 WaveNet 能模仿任何聲音,比如喘息的聲音,甚至是音樂,比如鋼琴聲等。有興趣的小伙伴可以前往 DeepMind 博客試聽。
DeepMind 表示:“WaveNet 為 TTS、音樂和音頻建模開啟了許多可能性。”
事實(shí)上,研發(fā)人員通常會(huì)避免使用 WaveNet 進(jìn)行建模,因?yàn)樗棵腌娦枰治?16000 個(gè)樣本,速度驚人,但也意味著極其高昂的成本,就連 DeepMind 也承認(rèn)“這是一個(gè)巨大的挑戰(zhàn)”。
根據(jù)彭博社的分析,考慮到成本問題,WaveNet 在短期內(nèi)無法實(shí)現(xiàn)商用。