光明網(wǎng)綜合報(bào)道 一種新方法讓“智能”機(jī)器既能聽懂言語,還能理解聲音。

因?yàn)橛辛酥T如iPhone的Siri一樣的語音識(shí)別軟件,機(jī)器人已經(jīng)可以識(shí)別語音并做出相應(yīng)的反應(yīng)。但 “智能”機(jī)器還在為能識(shí)別更多其他的聲音而不懈努力。 “從某種意義上說,這是一個(gè)更為簡單的問題,但到目前為止,我們對(duì)自然環(huán)境中的聲音的研究還不多,還沒將其用在機(jī)器人反饋中。”機(jī)器人專家Joseph Romano說。
現(xiàn)在Romano正試圖讓機(jī)器人聽懂我們談話以外的聲音。他和他的合作者在賓夕法尼亞大學(xué)創(chuàng)建了一個(gè)名叫ROAR(全稱為機(jī)器人操作系統(tǒng)的開源音頻識(shí)別器)的軟件工具。該軟件能幫助機(jī)器人專家訓(xùn)練機(jī)器對(duì)更寬泛意義的聲音作出反應(yīng)。這個(gè)工具主要需要一個(gè)麥克風(fēng)。
訓(xùn)練開始時(shí),機(jī)器人的麥克風(fēng)首先捕捉周圍的聲音,ROAR對(duì)這些聲音進(jìn)行打磨。接下來,操作者通過反復(fù)重復(fù)某個(gè)動(dòng)作教ROAR識(shí)別主要聲音,在機(jī)器人聽這些聲音的同時(shí)標(biāo)記這些獨(dú)特的語音信號(hào)。最后,根據(jù)那套訓(xùn)練片斷,程序會(huì)生成一套通用模式,包含各個(gè)動(dòng)作對(duì)應(yīng)的不同的聲音。
研究隊(duì)員們?cè)谝粋€(gè)獨(dú)臂機(jī)器人身上測(cè)試了ROAR,以提高這個(gè)機(jī)器人完成特定任務(wù)的能力。在其中一個(gè)場(chǎng)景中, 要求機(jī)器人嘗試自發(fā)抓住并啟動(dòng)一個(gè)電鉆。在沒有任何聲反饋的情況下,機(jī)器人嘗試20次成功9次,但使用了ROAR后,成功率提高了一倍。抓住電鉆后,如果機(jī)器人沒有聽到電鉆的呼呼運(yùn)轉(zhuǎn)聲,它會(huì)重新調(diào)整握電鉆的姿勢(shì),再次嘗試。
下一步是確保系統(tǒng)能早高噪音環(huán)境下運(yùn)轉(zhuǎn)。通過將語音整合進(jìn)視覺和觸覺旁邊的機(jī)器人反饋回路中,機(jī)器人護(hù)士將能對(duì)求救聲做出迅速回應(yīng),工廠機(jī)器人將能在機(jī)器運(yùn)轉(zhuǎn)中斷時(shí)做出反應(yīng)。雖然這些技術(shù)還處在研發(fā)初期階段,但Romano認(rèn)為它的潛力是巨大的。(編譯:李娟)