
技術(shù)發(fā)展至今,機(jī)器人能夠自主檢查核電廠,處理海洋中的石油泄漏事件,協(xié)助戰(zhàn)斗機(jī)進(jìn)行空戰(zhàn),或是探索火星表面,但對它們來說,有些能力還是無法與人類比擬。
其中一項人所特有的,就是辨識 3D 物體的能力,盡管機(jī)器人能輕易透過相機(jī)、感測器來“查看”物體,但它們還是難以像人類一樣,能從短暫一瞥中解讀出看到的東西。
即使是世界上最復(fù)雜的機(jī)器人,也都無法做到這項多數(shù)孩子都能自動做到的事,但杜克大學(xué)的研究生 Ben Burchfiel 和他的論文顧問 George Konidaris,已經(jīng)快要找到這個問題的解決方案。
R&D Magazine 報導(dǎo),為了使機(jī)器用更人性化的方式解讀 3D 物體,Burchfiel 兩人開發(fā)了一項新技術(shù),讓機(jī)器人成功達(dá)成在混亂的桌面上分辨不同尺寸、形狀碗盤的任務(wù)。
或許你不曾注意過自己的這項能力,但人類辨識 3D 物體的能力十分出色,不論從何種角度,物體顛倒與否,看見全貌或部分被遮蔽,人們都可以從短暫一瞥中大致分辨出看到的新物體,大腦會在想像中自動填補(bǔ)看不到的地方。
研究團(tuán)隊也希望賦予機(jī)器人這項能力,透過設(shè)計的感知算法讓機(jī)器人也能不用從多角度看見新物體,而學(xué)會猜測新物體的面貌和用途,“想像”出任何不在視野中的部分。
一旦機(jī)器人具備這項技術(shù),就不需要從每個角度觀察茶壺,也可以知道這個物體可能有把手、蓋子和出水口,也可以分辨它是否適用于何種爐子。
Burchfiel 指出,比起實驗室或工廠車間,現(xiàn)實世界并非可控制的環(huán)境,事物也并非總是有序或可預(yù)測,對于要在日常與人類一起運(yùn)作的機(jī)器人來說,這是相當(dāng)重要的一步。
12 日在劍橋舉辦的機(jī)器人科學(xué)與系統(tǒng)大會上,研究團(tuán)隊表示,他們目前已經(jīng)讓機(jī)器人在有限數(shù)量的訓(xùn)練下,成功辨識新看見的 3D 物體,速度較以往最好的情況還要再快上 3 倍。

?。⊿ource:Ben Burchfiel 個人網(wǎng)站)
據(jù)了解,研究人員先用近 4,000 筆普通家庭物品的完整 3D 掃描數(shù)據(jù)訓(xùn)練機(jī)器人的演算法,包含床、桌椅、梳妝臺、監(jiān)視器等,每個掃描再轉(zhuǎn)換為成千上萬的小立方塊,像樂高一樣堆疊在一起,讓系統(tǒng)更好處理。
之所以這么做,Burchfiel 解釋,是因為團(tuán)隊認(rèn)為,替每個可能的特定物體設(shè)定詳細(xì)的 3D 模型非常不切實際。
透過分析這些掃描數(shù)據(jù)的范例,演算法開始學(xué)會使用稱為“機(jī)率主成分分析”(Probabilistic PCA)的技術(shù),了解范例數(shù)據(jù)中的變與不變。
運(yùn)用這個演算法,機(jī)器人發(fā)現(xiàn)新物品時不再需要觀察全貌,就能基于從前的知識,像人們一樣概括分辨出兩個物體的不同,同時又能理解其中相同的部分,讓這兩個物體都同樣屬于特定類型的家具。
為了測試這個方法的實用性,研究人員挑選了 10 種新的家庭用品,提供機(jī)器近千張從頂部拍攝的 3D 范例,讓機(jī)器從單一角度猜測對象是什么,完整 3D 形狀又該是如何。
結(jié)果發(fā)現(xiàn)包含隱藏部分,機(jī)器大概可以猜中物體 3D 形狀的 75%,較過去最好情況下猜中 50% 的比率大幅提升,不僅如此,它也能辨識各種方式旋轉(zhuǎn)的物體,這是過去其他演算法無法做到的。
但在目前的情況中,演算法仍舊容易被物體在特定角度的形狀所迷惑,像是從上方看到一張桌子,而將其誤認(rèn)為一個梳妝臺,但研究團(tuán)隊認(rèn)為整體來說,這還是很大的進(jìn)步,只是還不到能在實際生活運(yùn)用的程度。
盡管如此,研究團(tuán)隊已成功讓機(jī)器人辨識一些 3D 物體,并透過“想像”填補(bǔ)視野中的盲點、重建未知的部分,Burchfiel 表示,“這在許多機(jī)器人應(yīng)用中可能是無價的。”