近年來,機器人各個方面的能力都在快速追趕人類,甚至在某些領域已經(jīng)超過人類。在這一過程中,科學家和工程師們最喜歡在機器人身上打造出類似人類的感官模式,以更好地感知世界。
不過現(xiàn)階段的很多技術都只專注于再現(xiàn)人類的視覺和觸覺,比如炙手可熱的計算機視覺技術。相比之下,復制人類其他感官的研究卻沒有太多進展。
卡內(nèi)基梅隆大學(CMU)的研究小組近日發(fā)表一項新成果——探索如何利用聲音開發(fā)感知功能更先進的機器人。
他們將機器人命名為 Tilt-Bot,字面意思是 “傾斜機器人”,實際上它是一臺通過傾斜托盤研究物體運動和聲音之間關系的機器,訓練后可以實現(xiàn)一定程度的 “聽音識物”,準確率接近 80%。研究成果以論文的形式發(fā)表在《機器人學:科學與系統(tǒng)》 Robotics: Science and Systems 上。

圖 | 傾斜機器人(來源:Gandhi, Gupta & Pinto.)
聽覺與視覺、觸覺一樣,都是人類收集信息的重要渠道。那么聽覺可以為機器人帶來什么呢?在回答這個問題之前,我們可以想象一下沒有聲音的世界。
在這種情況下,我們將極度依賴視覺系統(tǒng)收集信息???a href="http://www.baoxianwx.cn/video/" target="_blank">視頻必須有字幕,與別人溝通必須用文字和手勢,永遠不知道背后是不是走過來一個人,除非轉(zhuǎn)過頭去看。
即使眼睛和手可以代勞,很多關鍵信息也無法準確傳達,比如語氣、聲調(diào)以及這些變量背后的潛臺詞和深意。
機器人也面臨著相似的苦惱:感知物理世界的渠道太過單一,依賴性過強,因此無法有效利用普遍存在的信息。如果能有效收集聲音數(shù)據(jù),再配合上視覺信息,它們對環(huán)境的感知力將大幅提升。
CMU 團隊以此為核心思想,設計出了 Tilt-Bot 機器人。它本質(zhì)上是一臺托盤機器人,由擁有多個關節(jié)的機械臂、托盤和固定裝置組成,托盤四周有邊框,上面貼著用于記錄物體撞擊的聲波捕捉裝置。
托盤的正上方還固定了一個攝像頭,用于捕捉物體運動軌跡,后期再與聲音變化相匹配。

圖 | 運動中的物體和聲音數(shù)據(jù)(來源:Gandhi, Gupta & Pinto.)
實驗時,研究人員會把不同的物體放到托盤中,機械臂隨后開始向前后左右傾斜,托盤中的物體也隨之移動。
如果傾斜過大,物體就會撞到邊框并發(fā)出響聲,撞擊力度越大,捕捉到的聲波波峰也就越高。
團隊總共收集了 60 個不同物體的 1.5 萬次交互記錄,每組記錄都包含匹配的視頻和音頻數(shù)據(jù)。他們用這些數(shù)據(jù)創(chuàng)建了全新的圖像 + 音頻數(shù)據(jù)集,用于訓練機器人在動作、圖像和聲音之間建立有意義的聯(lián)系。
一個有趣的發(fā)現(xiàn)是,受過訓練的機器人只需要分析物體滑動和撞擊的聲音記錄,就可以區(qū)分不同物體。
即使同是金屬質(zhì)地的螺絲刀和扳手也可以成功分辨,總體成功率接近 80%。這意味著訓練機器人學習物體的音頻表示形式是有意義的。
另一個更有價值的發(fā)現(xiàn)是,音頻有時比視覺提供的有價值信息更多,或者說適用面更廣。
由于聲音是以聲波的形式傳播的,其傳播軌跡更直觀,可以更有效地預測物體未來的運動軌跡,從而幫助機器人更好地控制物體。
用從未見過的物體測試機器人性能時,如果同時使用視頻和音頻數(shù)據(jù),那么它預測如何更好操控物體的表現(xiàn)相較于只使用視頻時提升了 24%。
包含音頻和視頻的數(shù)據(jù)集可以幫助更多人開發(fā)機器人,尤其當它們被派去執(zhí)行的任務需要兩者兼顧時。研究團隊表示現(xiàn)在的成果只是第一步,未來將探索聲音數(shù)據(jù)分析還能挖掘出機器人的哪些潛力,進一步提高它們的感知能力,并且將其運用到更實際的任務中。
“這些初步研究成果是令人興奮的,證明了機器僅憑聲音就能識別出物體類型,” 研究人員萊雷爾·平托(Lerrel Pinto)表示,“這樣一來,機器人執(zhí)行任務的時候就可以更有針對性,比如學會區(qū)別對待空酒杯和滿酒杯。”