人工耳蝸是一種電子設(shè)備,可以經(jīng)外科手術(shù)放置到聽障人士內(nèi)耳中,通過外部聲音處理器,發(fā)送電流來刺激神經(jīng),雖然人工耳蝸能夠?qū)⑦@些電流刺激,翻譯成為可以聆聽的語音,但是聆聽體驗會因為用戶身處環(huán)境,尤其是嘈雜的環(huán)境,而有非常大的差異。現(xiàn)代人工耳蝸通過外部聲音處理器,來計算脈沖信號以驅(qū)動電極,而該領(lǐng)域一直以來的重要挑戰(zhàn),便是要想辦法良好處理聲音,把聲音轉(zhuǎn)換成為適當(dāng)電極脈沖的方法。
針對這個問題,產(chǎn)業(yè)與學(xué)術(shù)界的科學(xué)家,舉辦了人工耳蝸黑客馬拉松來集思廣益,而Google則提出在人工耳蝸中使用Conv-TasNet語音強化模型的方式,來抑制非語音聲音,使得用戶能夠更清楚地聽到人聲語音。研究人員將音頻分解成16個重疊的波段,來對應(yīng)人工耳蝸中的16個電極,但因為聲音的動態(tài)范圍容易跨越多個數(shù)量級,比預(yù)期電擊能表示的更多,因此研究人員需要使用范式方法,壓縮動態(tài)范圍。
人工耳蝸用戶的喜好各有不同,整體的體驗來自于用戶對于聆聽各種類別音頻的評估,這些類別包括音樂,研究人員表示,雖然音樂對于用戶是一個重要聲音類型,但也是特別難以處理的類別。由于Google的語音強化網(wǎng)絡(luò)被訓(xùn)練能夠抑制非語音聲音,而這包含了噪音和音樂,因此他們特別采取額外的措施,來防止語音強化網(wǎng)絡(luò)抑制音樂聲音,為了達到這個目的,研究人員使用開源的YAMNet分類器,來判斷語音與非語音,以即時調(diào)整混合音頻的比例,以確保有夠多的音樂不會被濾掉,能夠被用戶聽到。
研究人員使用Conv-TasNet模型,來實現(xiàn)非語音音頻的強化模塊,該模塊可以分離不同的聲音。一開始原始音頻波形,會被轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)可以使用的形式,并且根據(jù)特征分析來分離聲音,該模型會截取特征并生成兩種遮罩,一種遮罩用于語音,一種遮罩用于噪音,這些遮罩表示特征為語音和噪音的程度,通過將遮罩和分析特征相乘,以及一些轉(zhuǎn)換計算,得到分離語音和噪音的音頻。研究人員提到,Conv-TasNet模型有低延遲的特性,能夠即時產(chǎn)生分離語音和噪音的估算。
經(jīng)過盲聽測試,這項研究成果可以在環(huán)境沒有包含太大背景噪音的時候,讓聆聽者可以理解語音內(nèi)容,但是在提高語音的清晰度上,仍有很大的空間。另外,由于這個研究還處于探索階段,因此研究人員使用了290萬個變量的模型,但這個模型太大還無法實際應(yīng)用到現(xiàn)今的人工耳蝸中,僅是展示這項技術(shù)的未來潛力。