自從第一個文本到語音(TTS)模型發(fā)布以來,研究人員一直在尋找讓計算機(jī)系統(tǒng)產(chǎn)生語音的方法,微軟的最新模型VALL-E是在這方面的一個重要進(jìn)步。VALL-E是一個基于轉(zhuǎn)換器的TTS模型,只需聽到三秒鐘的聲音樣本就能生成任何聲音的語音。這比以前的模型有很大的改進(jìn),以前的模型需要更長的訓(xùn)練時間才能生成新的聲音。
對于計算機(jī)行業(yè)來說,VALL-E是一項驚人的技術(shù)壯舉,有可能改變我們與數(shù)字媒體互動的方式。語音的音調(diào)、魅力和風(fēng)格都在生成的語音中保持不變,這是在使TTS系統(tǒng)聽起來更自然方面邁出的重要一步。
微軟會不會基于這項技術(shù)有更多運(yùn)用目前還不清楚,然而,微軟已經(jīng)發(fā)布了該模型的幾個實例,很明顯,這是TTS技術(shù)的一個重大進(jìn)步。

您可以在這里收聽范例:
https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/