我們很少想到噪音,因?yàn)槲覀冋趦A聽(tīng)它們,但是在擁擠的城市廣場(chǎng)和繁忙的百貨商店等地方隔離音頻存在著巨大的復(fù)雜性。在我們的聽(tīng)覺(jué)途徑的較低層次中,我們將個(gè)體來(lái)源與背景隔離,將它們?cè)诳臻g中定位,并檢測(cè)它們的運(yùn)動(dòng)模式 - 所有這些都在我們計(jì)算出它們的背景之前。

受到這種神經(jīng)生理學(xué)的啟發(fā),一組研究人員在Arxiv.org的預(yù)印紙上分享了這一文章(“ 使用仿生雙耳聲源定位的增強(qiáng)型機(jī)器人語(yǔ)音識(shí)別 ”),該設(shè)計(jì)旨在測(cè)試地貌(即面部特征)對(duì)人臉的影響。聲音識(shí)別的組成部分,如聲源定位(SSL)和自動(dòng)語(yǔ)音識(shí)別(ASR)。
正如研究人員指出的那樣,軀干,頭部和耳廓(耳朵的外部部分)吸收并反射聲波,因?yàn)樗鼈兘咏眢w,根據(jù)聲源的位置修改頻率。它們前往耳蝸(內(nèi)耳的螺旋腔)和內(nèi)部的Corti器官,產(chǎn)生神經(jīng)沖動(dòng)以響應(yīng)聲音振動(dòng)。這些沖動(dòng)通過(guò)聽(tīng)覺(jué)神經(jīng)系統(tǒng)傳遞到耳蝸核,這是一種將信息轉(zhuǎn)發(fā)到兩個(gè)結(jié)構(gòu)的中繼站:內(nèi)側(cè)上橄欖(MSO)和側(cè)上橄欖(LSO)。(MSO被認(rèn)為有助于定位左側(cè)或右側(cè)的角度以精確定位聲音源,而LSO使用強(qiáng)度來(lái)定位聲源。)最后,它們被整合到大腦的下丘(IC)中。
為了在算法上復(fù)制結(jié)構(gòu),研究人員設(shè)計(jì)了一個(gè)機(jī)器學(xué)習(xí)框架,處理嵌入人形機(jī)器人頭部的麥克風(fēng)記錄的聲音--iCub和Soundman。該框架包括四個(gè)部分:一個(gè)SSL組件,將音頻分解為多組頻率,并使用頻率波產(chǎn)生模仿Corti神經(jīng)沖動(dòng)的尖峰; 對(duì)某些角度產(chǎn)生的聲音敏感的MSO模型; 對(duì)其他角度敏感的LSO模型; 以及一個(gè)IC組合的層,它結(jié)合了MSO和LSO的信號(hào)。額外的神經(jīng)網(wǎng)絡(luò)可以最大限度地減少混響和自我噪聲(機(jī)器人關(guān)節(jié)和電機(jī)產(chǎn)生的噪音)。
為了測(cè)試系統(tǒng)的性能,研究人員使用Soundman建立SSL和ASR基線以及iCub頭(配備允許其旋轉(zhuǎn)的馬達(dá)),以確定頭部和內(nèi)部組件的共振效應(yīng)。一組13個(gè)均勻分布的揚(yáng)聲器采用半圓柱配置,朝向磁頭噴射噪聲,探測(cè)并處理它。
該團(tuán)隊(duì)發(fā)現(xiàn),來(lái)自SSL的數(shù)據(jù)可以“顯著改善” - 在某些情況下,在句子級(jí)別上提高了兩倍 - 語(yǔ)音識(shí)別的準(zhǔn)確性通過(guò)指示如何定位機(jī)器人頭并選擇適當(dāng)?shù)耐ǖ雷鳛锳SR的輸入系統(tǒng)。當(dāng)從頭部移除耳廓時(shí),性能甚至更好。
“這種方法與相關(guān)的方法形成對(duì)比,在這些方法中來(lái)自兩個(gè)通道的信號(hào)在用于ASR之前是平均的,”該論文的作者寫(xiě)道。“動(dòng)態(tài)SSL實(shí)驗(yàn)的結(jié)果表明該架構(gòu)能夠處理不同類型的混響。這些結(jié)果是我們之前在靜態(tài)SSL中工作的重要擴(kuò)展,并支持系統(tǒng)對(duì)真實(shí)環(huán)境中聲音動(dòng)態(tài)的穩(wěn)健性。此外,我們的系統(tǒng)可以輕松地與最近的方法集成,以增強(qiáng)混響環(huán)境中的ASR [55] - [57],而不會(huì)增加計(jì)算成本。“