隨著越來越多的機(jī)器人進(jìn)入各種復(fù)雜環(huán)境,研究人員正努力使它們與人類的互動盡可能地順暢自然。訓(xùn)練機(jī)器人對口頭指令立即做出反應(yīng),例如“拿起玻璃杯,向右移動”等,在許多情況下都是理想的,因?yàn)樗罱K將使人類與機(jī)器人之間的交互更加直接和直觀。然而,這并不總是容易的,因?yàn)樗枰獧C(jī)器人理解用戶的指令,還需要知道如何根據(jù)特定的空間關(guān)系移動物體。
德國弗萊堡大學(xué)的研究人員最近設(shè)計(jì)了一種新方法,通過對“幻覺”場景表象進(jìn)行分類,來教機(jī)器人按照人類用戶的指令移動物體。他們在arXiv上預(yù)先發(fā)表的論文將于今年6月在巴黎舉行的IEEE機(jī)器人與自動化國際會議(ICRA)上發(fā)表。
“在我們的工作中,我們專注于相關(guān)對象的放置指令,比如‘把杯子放在盒子的右邊’或‘把黃色的玩具放在盒子的頂部’。”參與這項(xiàng)研究的研究人員之一Oier Mees告訴TechXplore。“為了做到這一點(diǎn),機(jī)器人需要考慮把杯子相對于盒子或任何其他參考物體放在哪里,以重現(xiàn)用戶描述的空間關(guān)系。”
訓(xùn)練機(jī)器人理解空間關(guān)系并相應(yīng)地移動物體是非常困難的,因?yàn)橛脩舻闹噶钔ǔ2粫跈C(jī)器人觀察到的更大的場景中描繪特定的位置。換句話說,如果一個人類用戶說“把杯子放在手表的左邊”,機(jī)器人應(yīng)該把杯子放在手表的左邊多遠(yuǎn),以及不同方向之間的確切界限在哪里(例如,右、左、前、后等)?
“由于這種固有的模糊性,也不存在可以用來學(xué)習(xí)空間關(guān)系建模的基礎(chǔ)事實(shí)或‘正確’數(shù)據(jù)。”Mees說,“我們從輔助學(xué)習(xí)角度來解決空間關(guān)系基于事實(shí)的像素標(biāo)注的不可用性問題。”
Mees和他的同事們設(shè)計(jì)的方法背后的主要思想是,當(dāng)給定兩個物體和一個代表它們被發(fā)現(xiàn)的環(huán)境的圖像時,更容易確定它們之間的空間關(guān)系。這使得機(jī)器人能夠檢測出一個物體是否在另一個物體的左邊、上面、前面等等。
雖然識別兩個對象之間的空間關(guān)系并沒有指定應(yīng)該將這些對象放置在何處來重現(xiàn)這種關(guān)系,但是在場景中插入其他對象可以讓機(jī)器人推斷出在多個空間關(guān)系中的分布。將這些不存在的(即幻覺的)對象添加到機(jī)器人所看到的內(nèi)容中,將允許它評估場景在執(zhí)行給定動作時的外部環(huán)境(即,將一個對象放置在桌面或前面的特定位置)的)。
“最常見的情況是,在圖像中真實(shí)地‘粘貼’對象需要訪問3D模型和輪廓,或者仔細(xì)設(shè)計(jì)生成對抗網(wǎng)絡(luò)(GANs)的優(yōu)化過程。”Mees說,“此外,在圖像中簡單地“粘貼”對象會產(chǎn)生微妙的像素偽影,導(dǎo)致明顯不同的特征,并使訓(xùn)練錯誤地聚焦于這些差異。我們采用一種不同的方法,將物體的高級特征植入卷積神經(jīng)網(wǎng)絡(luò)生成的場景特征圖中,對場景表象產(chǎn)生幻覺,并將其分類為輔助任務(wù)來獲取學(xué)習(xí)信號。”
在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)基于幻覺對象的空間關(guān)系之前,研究人員必須確保它能夠根據(jù)單個圖像對單獨(dú)的物體對之間的關(guān)系進(jìn)行分類。隨后,他們“欺騙”了這一網(wǎng)絡(luò),稱為RelNet,通過在不同的空間位置植入高水平的物品特征來對“幻覺”場景進(jìn)行分類。
“我們的方法允許機(jī)器人通過最少的數(shù)據(jù)收集或啟發(fā)來遵循人類用戶給出的自然語言的放置指令。”Mees說,“每個人都想在家里有一個服務(wù)機(jī)器人,它可以通過理解自然語言指令來執(zhí)行任務(wù)。這是讓機(jī)器人更好地理解常用空間含義的第一步。”
大多數(shù)現(xiàn)有的訓(xùn)練機(jī)器人移動物體的方法都是利用與物體三維形狀相關(guān)的信息來模擬成對的空間關(guān)系。這些技術(shù)的一個關(guān)鍵限制是,它們通常需要額外的技術(shù)組件,比如可以跟蹤不同物體運(yùn)動的跟蹤系統(tǒng)。另一方面,Mees和他的同事提出的方法不需要任何額外的工具,因?yàn)樗皇腔?D視覺技術(shù)。
研究人員在一系列涉及真人用戶和機(jī)器人的實(shí)驗(yàn)中評估了他們的方法。這些測試的結(jié)果很有希望,因?yàn)樗鼈兊姆椒梢宰寵C(jī)器人根據(jù)人類用戶的語音指令所描述的空間關(guān)系,有效地識別出將物體放在桌子上的最佳策略。
“幻覺場景代表我們的新穎的方法在機(jī)器人技術(shù)和計(jì)算機(jī)視覺社區(qū)中也可以有多種應(yīng)用, 因?yàn)闄C(jī)器人通常需要能夠估計(jì)未來狀態(tài)的良好程度,以便推理出他們需要采取的行動。”Mees說。“通過使用幻覺場景表示作為數(shù)據(jù)增強(qiáng)的一種形式,它還可以用來提高許多神經(jīng)網(wǎng)絡(luò)的性能,比如對象檢測網(wǎng)絡(luò)。”
Mees和他的同事們能夠在不使用3D視覺工具的情況下,可靠地建立一組自然語言空間詞的模型(如右,左,在上,等等)。在未來,他們研究中提出的方法可以用來提高現(xiàn)有機(jī)器人的能力,讓它們更有效地完成簡單的物體移動任務(wù),同時遵循人類用戶的語音指令。
同時,他們的論文也可以為開發(fā)類似的技術(shù)提供參考,以增強(qiáng)在其他對象操作任務(wù)中人類和機(jī)器人之間的交互。如果加上輔助的學(xué)習(xí)方法,Mees和他的同事開發(fā)的方法還可以減少與機(jī)器人研究數(shù)據(jù)集編譯相關(guān)的成本和工作,因?yàn)樗梢栽诓恍枰笮妥⑨寯?shù)據(jù)集的情況下預(yù)測像素概率。
Mees總結(jié)道:“我們認(rèn)為這是朝著人類和機(jī)器人之間達(dá)成共識邁出的有希望的第一步。”“在未來,我們希望擴(kuò)展我們的方法,納入對指稱表達(dá)式的理解,以開發(fā)一個遵循自然語言指令的取放系統(tǒng)。”