來自engadget的消息稱,麻省理工學(xué)院最新研究發(fā)布的的機(jī)器視覺系統(tǒng)可以讓機(jī)器人自行解決它所看到的問題。
對于反復(fù)執(zhí)行特定動作的機(jī)器來說,目前的計(jì)算機(jī)視覺技術(shù)已經(jīng)足夠了,比如從裝配線上取下一個物體,把它放到一個箱子里。然而,要讓機(jī)器人變得足夠有用,不僅能在倉庫里裝箱子,還能在我們自己的家里幫上忙,目前的而技術(shù)就顯得力不從心了。
對此,麻省理工學(xué)院設(shè)計(jì)了“DON”系統(tǒng)。
DON,或稱“密集物體網(wǎng)”,是麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)開發(fā)的一種新型機(jī)器視覺形式。它能夠生成一個“可視化路線圖”——即以坐標(biāo)形式排列的可視化數(shù)據(jù)點(diǎn)的集合。這個系統(tǒng)會把這些單獨(dú)的坐標(biāo)集拼接成一個更大的坐標(biāo)集合,就像您的手機(jī)可以將多張照片拼接成一個全景圖像一樣。這使得系統(tǒng)能夠更好、更直觀地理解對象的形狀以及它在周圍環(huán)境中的工作方式。
“從計(jì)算機(jī)視覺系統(tǒng)中得到的最粗糙、最高級的東西就是檢測目標(biāo),”該研究論文的作者、博士生Lucas Manuelli告訴Engadget。“下一步是進(jìn)行像素標(biāo)記,所有的像素都是一個人或一條道路的一部分。很多自我駕駛汽車系統(tǒng)都會進(jìn)行這兩部操作。“
“但如果你真的想以某種特定的方式與某個物體互動,比如以特定的方式抓住鞋子或抓住一個杯子,”他繼續(xù)說道,“那么僅僅有一個邊界框或所有對應(yīng)于杯子的像素是不夠的。我們的系統(tǒng)必須得在對象中獲得更精細(xì)的細(xì)節(jié)......這種信息對于進(jìn)行更高級的操作任務(wù)是必要的。“
也就是說,DON系統(tǒng)可以讓機(jī)器人看著一杯咖啡時,正確定位到咖啡杯的手柄上。當(dāng)機(jī)器人拿起咖啡杯時,DON系統(tǒng)能讓機(jī)器人意識到杯子的底部需要保持指向下方,以避免杯子里的東西灑出來。
更重要的是,該系統(tǒng)將允許機(jī)器人從一堆相似的物體中挑選出特定的物體。
“許多操縱方法無法讓機(jī)器人在不同的方向上識別出物體的特定部分,”Manuelli在研究中寫道,“例如,現(xiàn)有的算法無法通過手柄抓住馬克杯,特別是當(dāng)馬克杯朝著不同的方向時。”
該系統(tǒng)依賴于擁有RGB深度相機(jī)組合的RGB-D傳感器。并且,這個系統(tǒng)可以進(jìn)行自我訓(xùn)練——如果你想讓系統(tǒng)識別棕色的靴子,你只需把機(jī)器人放在一個有棕色靴子的房間里,然后這個系統(tǒng)將自動循環(huán)啟動,獲取用于生成坐標(biāo)點(diǎn)的參考照片,然后根據(jù)所看到的內(nèi)容進(jìn)行自我訓(xùn)練。整個過程不到一個小時。
“在工廠中,機(jī)器人通常需要復(fù)雜的零件才能可靠地工作,”Manuelli寫道,“但像這樣一個能夠理解物體方向的系統(tǒng),只需拍張照片,就能相應(yīng)地把握和調(diào)整物體。”
這項(xiàng)技術(shù)仍然處于起步階段,Manuelli希望在不斷完善后,能夠應(yīng)用到家庭的日常機(jī)器中,幫助人們更好地生活。