撿起一樣?xùn)|西其實(shí)并不像我們平時(shí)看到的那樣的簡單。至少對機(jī)器人來說,并不簡單。機(jī)器人專家想要發(fā)明一個(gè)可以撿起任何東西的機(jī)器人,但是眼下幾乎所有的機(jī)器人只會在它們費(fèi)盡心力想要抓到東西的地方“盲目亂抓”。就算物體的形狀、質(zhì)地或是位置發(fā)生了變化,機(jī)器人也反應(yīng)不過來,所以它們每次的嘗試大多會失敗。
離機(jī)器人一次就完美地抓起東西,我們還有很長的路要走。為什么抓東西這個(gè)任務(wù)這么難做到呢?因?yàn)楫?dāng)人們嘗試去抓東西的時(shí)候,他們運(yùn)用了多重感官,主要包括視覺和觸覺。但是就目前看來,在抓東西上,很多機(jī)器人都只用了視覺。
實(shí)際上,人的抓物能力并不是完全依靠視覺,盡管視覺對抓物來說很重要(當(dāng)你要瞄準(zhǔn)右邊的物體時(shí)),但是,視覺不能告訴你關(guān)于抓物的每一件事情。想想Steven Pinker是怎么描述人們的觸覺感官能做到的一切吧:“想象你拿起一個(gè)牛奶盒。你握得太松,盒子會掉;你握得太緊,會把盒子里的牛奶擠出來;你輕輕晃動,甚至可以通過感受你手指上的牽引感去估測盒子里有多少牛奶。”他在《思維是如何運(yùn)作的》一書中是這么寫道的。因?yàn)闄C(jī)器人沒有那些感官能力,所以在撿起、放下物體的任務(wù)中,人類還是狂甩他們幾條街的。
作為加拿大蒙特利爾的波爾多綜合理工學(xué)院的CoRo實(shí)驗(yàn)室的領(lǐng)導(dǎo)人和一個(gè)位于魁北克城的機(jī)器人公司Robotiq的聯(lián)合創(chuàng)始人,筆者對抓物方法的重要發(fā)展已研究甚久。目前,筆者認(rèn)為當(dāng)今各界對機(jī)器人視覺的關(guān)注,并不是能夠?qū)崿F(xiàn)完美抓物的核心問題。除了視覺,推動機(jī)器人抓物發(fā)展的還有另一樣?xùn)|西:觸覺智能。
以前的研究專注于視覺,而不是觸覺智能
目前,許多關(guān)于機(jī)器人抓物的研究都集中在建立圍繞視覺反饋的智能上。數(shù)據(jù)庫圖像匹配是建立智能的方法之一,這也是布朗大學(xué)的Humans to Robots實(shí)驗(yàn)室在Million Objects Challenge中利用的方法。他們的想法是,讓機(jī)器人利用照相機(jī)去發(fā)現(xiàn)目標(biāo)物,并主導(dǎo)自己移動、抓物。在這個(gè)過程中,機(jī)器人將它們實(shí)時(shí)獲取的信息和數(shù)據(jù)庫里存儲的3D影像作對比。一旦機(jī)器人發(fā)現(xiàn)了其中匹配項(xiàng),那么它就可以找到可以應(yīng)對當(dāng)前情況的計(jì)算程序。
雖然當(dāng)布朗大學(xué)在為各種物體收集視覺數(shù)據(jù),但是機(jī)器人專家們不見得會為每個(gè)機(jī)器人可能遇到的不同情況建立視覺數(shù)據(jù)庫中的每個(gè)項(xiàng)目。另外,數(shù)據(jù)庫匹配法中沒有環(huán)境限制,所以它不會讓機(jī)器人調(diào)節(jié)抓物策略以適應(yīng)不同環(huán)境。
其他科學(xué)家為了提高機(jī)器人的抓物能力,也紛紛開始研究機(jī)器人學(xué)習(xí)技術(shù)。這些技術(shù)讓機(jī)器人可以從它們的經(jīng)驗(yàn)中實(shí)現(xiàn)自我學(xué)習(xí),所以到了最后,機(jī)器人可以自己發(fā)現(xiàn)抓物的最佳方法。另外,不像數(shù)據(jù)庫匹配法,機(jī)器學(xué)習(xí)不需要提前建立圖像數(shù)據(jù)庫,它們只需要多加練習(xí)。
正如IEEE Spectrum早前報(bào)道的,谷歌最近做了一個(gè)結(jié)合視覺系統(tǒng)和機(jī)器學(xué)習(xí)的抓物技術(shù)實(shí)驗(yàn)。過去,科學(xué)家嘗試通過教機(jī)器人采取那些人類覺得最好的方法提高抓物能力。谷歌最大的突破是,向機(jī)器人展示了他們可以利用卷積神經(jīng)網(wǎng)絡(luò)、視覺系統(tǒng)和從八萬多個(gè)抓物動作中獲取的數(shù)據(jù),通過他們從過往經(jīng)歷中學(xué)到的知識,教自己怎么抓東西。
他們的前景看起來并不是特別光明:因?yàn)闄C(jī)器人的反應(yīng)并沒有預(yù)先編程,正如其中一個(gè)科學(xué)家所說,他們所有的進(jìn)步都可以說是“從學(xué)習(xí)中得來的”。但是視覺能告訴機(jī)器人的關(guān)于抓物的事情十分有限,谷歌也許已經(jīng)到達(dá)了這個(gè)技術(shù)的最前沿。
只關(guān)注視覺帶來的某些問題
為什么谷歌和其他科學(xué)家很難通過單一的視覺來解決問題?經(jīng)筆者總結(jié),大概有以下三個(gè)原因。第一,視覺受限于技術(shù)。就算是最先進(jìn)的視覺系統(tǒng)也會在某些燈光條件下(比如透明、反射、低對比度的顏色),在識別物體中出現(xiàn)故障。當(dāng)物體太薄的時(shí)候,識別也會受阻。
第二,在很多抓物場景下,無法看清物體的全部,所以視覺很難提供機(jī)器人需要的所有信息。如果一個(gè)機(jī)器人嘗試從桌上拿起一個(gè)木制鐘,簡單的視覺系統(tǒng)系統(tǒng)只能檢測到鐘的上部。如果是從箱子中取物的話,涉及到的物體就更多了,那么周圍的物體可能會使目標(biāo)物部分甚至全部模糊化。
最后一點(diǎn),也是最重要的,視覺不符合這件事的本質(zhì):抓物需要的是接觸和力量,這些都不能受到視覺的控制。在最好的情況下,視覺可以讓機(jī)器人知道能使抓物動作成功的手指形態(tài),但是最后機(jī)器人需要的是可觸性的信息,讓它們得知所抓物的物理值。
觸覺智能獻(xiàn)上最佳助攻
觸覺在人類的抓物、控物動作中扮演了核心角色。對失去了手的截肢者來說,他們最大的困惑是,在用義肢的時(shí)候感覺不到自己在摸什么。沒有了觸覺,截肢者們在抓物和控物的時(shí)候,需要離目標(biāo)物很近,而一個(gè)健全的人撿物的時(shí)候甚至不需要看著它。
目前,科學(xué)家們意識到,在抓物過程中觸覺感應(yīng)器的重要作用。在過去的三十年間,他們一直嘗試用觸覺感應(yīng)器取代人體器官。然而,觸覺感應(yīng)器發(fā)送的信息非常復(fù)雜、高維,而且在機(jī)械手中加入感應(yīng)器并不會直接提高它們的抓物能力。我們需要的是能夠把未處理的低級數(shù)據(jù)轉(zhuǎn)變成高級信息,從而提高抓物和控物能力的方法。觸覺智能可以通過觸摸、識別物體的滑動和定位物體讓機(jī)器人預(yù)測抓物是否能成功。
在波爾多綜合理工學(xué)院CoRo實(shí)驗(yàn)室中,筆者和他的同事們在研發(fā)觸覺智能的核心部分。最新的成果是一個(gè)利用壓迫象預(yù)測抓物是否成功的機(jī)器人學(xué)習(xí)算法。這個(gè)系統(tǒng)是由Deen Cockburn和Jean-Philippe Roberge共同研發(fā)的,它能夠把機(jī)器人變得更加人性化。當(dāng)然,人類學(xué)會了通過觸覺和觀察手指的形態(tài),來判斷抓物是否成功。然后我們改變手指的形態(tài),直到對抓物的成功有了足夠自信。在機(jī)器人學(xué)會如何快速調(diào)適手指形態(tài)之前,他們需要更好地預(yù)測抓物結(jié)果。

這就是筆者相信CoRo實(shí)驗(yàn)室會走向巔峰的原因。把Robotiq的機(jī)械手和Universal Robots的UR10控制器結(jié)合在一起,在加上其他多種模式的居家及基于Kinect視覺系統(tǒng)(只瞄準(zhǔn)每個(gè)物體的幾何中心)的觸覺感應(yīng)器,得到的機(jī)器人可以撿起很多東西,并且利用中間的數(shù)據(jù)實(shí)現(xiàn)自我學(xué)習(xí)。最后,筆者和同事們成功制造了一個(gè)能準(zhǔn)確預(yù)測83%的抓物動作的系統(tǒng)。

由Jean-Philippe Roberge領(lǐng)導(dǎo)的CoRo實(shí)驗(yàn)室的另一個(gè)團(tuán)隊(duì),專注于滑動監(jiān)測。在抓物的時(shí)候,人類可以迅速察覺物體的滑動,因?yàn)槭种干嫌幸粋€(gè)高適應(yīng)性的機(jī)械性刺激感受器,它是位于皮膚上的可以感受壓力和震動的快速變化的感應(yīng)器。由于物體的滑動會引起的手部表面震動,所以科學(xué)家們把這些震動的圖像(光譜圖),而不是壓力象放進(jìn)機(jī)器學(xué)習(xí)算法中。利用與抓物預(yù)測實(shí)驗(yàn)中相同的機(jī)器人,他們的系統(tǒng)可以學(xué)習(xí)和物體滑動相關(guān)的震動圖像中的特征,其識別物體滑動的精確度高達(dá)92%。
讓機(jī)器人注意到物體的滑動或許看起來很簡單,因?yàn)榛瑒又皇且幌盗械恼饎?。但是,該如何讓機(jī)器人分辨物體滑出機(jī)器人手心引起的震動,和機(jī)器人在物體表面(比如一張桌子)拖動物體引起的震動呢?不要忘了機(jī)器人手臂的運(yùn)動同樣會引起一些微小的震動。三個(gè)不同的動作會發(fā)射同樣的信號,但是機(jī)器人需要做出不同的回應(yīng)。因此,機(jī)器人需要學(xué)會分辨不同的動作。
在機(jī)器學(xué)習(xí)這個(gè)方面,兩支CoRo的隊(duì)伍達(dá)成了一點(diǎn)共識:他們不能把手工特征強(qiáng)加在機(jī)器人學(xué)習(xí)算法中。也就是說,這個(gè)系統(tǒng)不能依賴科學(xué)家的猜測,而是應(yīng)該讓機(jī)器人自己決定在甄別滑動(或是在預(yù)測抓物結(jié)果、預(yù)測抓物實(shí)驗(yàn)中)的時(shí)候,什么是重要的。
以前,“高級功能”都是人工打造的,這意味著科學(xué)家會選擇一些他們認(rèn)為可以幫助機(jī)器人甄別不同類型的物體滑動的特征(或是判斷抓物動作是否完美)。比如,他們或許會將一個(gè)讓機(jī)器人只抓物體頂部的壓力象與失利的抓物動作掛鉤。但是讓機(jī)器人自己學(xué)習(xí),反而會更有成效,因?yàn)榭茖W(xué)家想的不一定是對的。
稀疏編碼在這里會非常有用。它是個(gè)無人監(jiān)管的功能學(xué)習(xí)算法,通過制造用來代表新數(shù)據(jù)的稀疏字典來運(yùn)作。首先,這個(gè)字典自動通過光譜圖(或未經(jīng)處理的壓力象)自我生成,然后輸入到稀疏編碼算法中,其中包含了很多高級功能。然后,當(dāng)新數(shù)據(jù)產(chǎn)生于接下來的抓物動作中后,這個(gè)字典會被用作將新數(shù)據(jù)轉(zhuǎn)換成代表性數(shù)據(jù)的中介,也被叫作稀疏向量。最后,稀疏向量會被分到引發(fā)不同震動的不同組內(nèi)(或是成功和失敗的抓物結(jié)果中)。
CoRo實(shí)驗(yàn)室現(xiàn)在在測試讓稀疏編碼算法自動更新的方法,這樣每次抓物動作都可以幫助機(jī)器人做出更好的預(yù)判。然后,在每次抓物動作中,機(jī)器人會利用這些信息去調(diào)整自己的動作。最終,這個(gè)研究會成為結(jié)合觸覺和視覺智能,幫助機(jī)器人學(xué)會抓住不同物體的最好范例。
觸覺智能的未來
這項(xiàng)研究的關(guān)鍵點(diǎn)在于,視覺不應(yīng)該被拋棄。視覺依然應(yīng)該為抓物貢獻(xiàn)絕對的力量。但是,現(xiàn)在人工視覺已經(jīng)到了發(fā)展的某一階段,它可以更好地專注于發(fā)展觸覺智能的新方向,而不是繼續(xù)強(qiáng)調(diào)視覺的單一力量。
CoRo實(shí)驗(yàn)室的Roberge把研究視覺和觸覺智能的潛能和Pareto的80-20法則作了對比:既然機(jī)器人社區(qū)已經(jīng)在視覺智能80%的領(lǐng)域占了上風(fēng),那么它很難再主宰剩下的20%了,所以視覺不會在控物上發(fā)揮那么大的作用了。相反,機(jī)器人專家們依然在為觸覺感知的那80%而努力奮斗著。相對而言,做好這80%會比較簡單,而且這有可能為機(jī)器人的抓物能力的提高作出巨大的貢獻(xiàn)。
如果以機(jī)器人通過觸摸識別物體、為人類清理房間為目標(biāo)的話,我們還有很長的路要走。但是當(dāng)那天真的到來的時(shí)候,我們一定會衷心感謝這些努力研發(fā)觸覺智能的科學(xué)家們。