相信前兩天大家的朋友圈都被 Boston Dynamics 的 Handle 機(jī)器人刷屏了:
估計(jì)這一幕會讓不少讀者回憶起被『終結(jié)者』所支配的恐懼:
↑ 圖片出自科幻電影《終結(jié)者》
然而,作為一個(gè)正奮斗在機(jī)器人研究第一線的博士生,我可以負(fù)責(zé)任地告訴你:完全不用擔(dān)心!
與一般的技術(shù)不同,機(jī)器人涵蓋的技術(shù)領(lǐng)域更廣,波士頓動力只是在控制方面做出了逆天成績?,F(xiàn)在的機(jī)器人領(lǐng)域還有很多技術(shù)問題沒有解決,所以我們暫時(shí)不可能造出科幻電影中的那種通用機(jī)器人。
下面,我就從機(jī)器人研究的幾個(gè)方面來說明為什么我們不需要擔(dān)心機(jī)器人取代人類的事情發(fā)生。
(以下非本人熟悉領(lǐng)域的內(nèi)容均為道聽途說,如有誤,歡迎在評論區(qū)指出)
一、硬件、機(jī)構(gòu):
感謝機(jī)械前輩們幾百年的積累,目前在硬件設(shè)計(jì)方面,實(shí)際機(jī)器人已經(jīng)很不錯(cuò)了。下面是幾個(gè)比較著名的真實(shí)機(jī)器人:
↑ (左)波士頓動力的Atlas,(中)日本產(chǎn)綜研的HPR-4C,(右)日本東京大學(xué)的Kenshiro
不論是外貌、自由度配置、驅(qū)動方式,實(shí)際的機(jī)器人均有了很不錯(cuò)的成績。
但是,在能源方面,我們離實(shí)用化還有一段很大距離。現(xiàn)在的移動機(jī)器人基本上都需要攜帶一個(gè)巨大的電池,續(xù)航能力也不行。以這次的Handle為例,它的電池約為3.7KW/h,充滿電能行駛約24km,所以這方面只能寄希望于新一代電池技術(shù)的發(fā)明了。
↑ 這次 Boston Dynamics 的 Handle 就背著巨大的電池
二、感知:
這個(gè)包括兩個(gè)部分:
傳感器
信號處理
傳感器:機(jī)器人需要能夠感知周圍環(huán)境和自身狀態(tài),因此需要安裝不同的傳感器。為了對比,我們看看人體的幾個(gè)主要傳感器:聽覺傳感器(耳朵);視覺傳感器(眼睛);力矩傳感器;皮膚觸覺傳感器(可以感受到別人觸碰到自己)等。
首先是聽覺傳感器,這個(gè)似乎沒有什么特殊的,現(xiàn)在的機(jī)器人都可以配備,普通麥克風(fēng)即可。
其次,是視覺傳感器,現(xiàn)在機(jī)器人的視覺傳感器應(yīng)該比人眼更高級:高精度相機(jī)、紅外相機(jī)、深度相機(jī)、激光雷達(dá)等等。沒辦法,算法不夠,傳感器來湊嘛。
之后,是力矩傳感器,主要用于檢測關(guān)節(jié)力矩。有了精確的關(guān)節(jié)力矩才有可能部署一些控制算法、估計(jì)環(huán)境狀態(tài)。當(dāng)然,現(xiàn)在這樣的傳感器也已經(jīng)有了,但就是貴。
最后,也是唯一與人類有較大差距的地方,是皮膚觸覺傳感器:這個(gè)基本上還有很多路要走,不信的話看看下圖吧。
信號處理算法:當(dāng)然,這里的信號處理是廣義的信號處理,包括普通的濾波、傅里葉變換等,也包括物體識別、語音識別等人工智能算法。這個(gè)話題就太大了,而且實(shí)際機(jī)器人在這方面的研究距離實(shí)用的也還比較遠(yuǎn),我簡單列幾個(gè):
物體識別/語音識別:當(dāng)然,隨著近幾年深度學(xué)習(xí)的發(fā)展,我們在物體識別和語音處理方面的造詣已經(jīng)非常厲害了,但是在實(shí)際機(jī)器人上部署的算法也還比較簡單(實(shí)際機(jī)器人不僅要識別物體、還要定位物體)。
↑ 這是 Boston Dynamics 之前發(fā)布的 atlas,依舊是采用二維碼進(jìn)行識別
語義理解:前面的語音識別是指根據(jù)聲音識別出文字,這里則是理解識別的文字內(nèi)容。我們現(xiàn)在研究的最高水平,可以參考微軟小冰聊天機(jī)器人,基本還是比較笨的。PS:不要跟我說什么機(jī)器人『嬌嬌』,那是后面有個(gè)人在遙控。
環(huán)境理解/地圖創(chuàng)建:這個(gè)簡單地說,就是機(jī)器人對環(huán)境建模的能力,包括地圖創(chuàng)建等?,F(xiàn)在的機(jī)器人在這一塊還是比較弱的,即使配備了激光傳感器等額外的設(shè)備(人僅靠兩只眼睛),也只能在一些特定條件下完成地圖創(chuàng)建,而基于地圖的環(huán)境理解也只能算剛起步不久,如下面這個(gè)語義地圖。
↑ 真正的通用機(jī)器人不僅需要能『看到』環(huán)境,還應(yīng)該能『理解』環(huán)境
當(dāng)然,我覺得之后隨著深度學(xué)習(xí)技術(shù)在地圖創(chuàng)建等領(lǐng)域的應(yīng)用,(考慮到深度學(xué)習(xí)對環(huán)境理解的能力),這個(gè)領(lǐng)域估計(jì)有可能在十年內(nèi)出現(xiàn)可實(shí)用的技術(shù)。
三、規(guī)劃:
規(guī)劃是指根據(jù)任務(wù)和機(jī)器人當(dāng)前狀態(tài),計(jì)算出完成這個(gè)任務(wù)的方法。包括且不限于:
任務(wù)規(guī)劃(將大任務(wù)劃分為幾個(gè)小的子任務(wù))
運(yùn)動規(guī)劃(機(jī)械臂或者足式機(jī)器人各關(guān)節(jié)運(yùn)動軌跡)
路徑規(guī)劃(其實(shí)跟運(yùn)動規(guī)劃類似,不過傾向于為移動機(jī)器人規(guī)劃形式路徑)
Boston Dynamics 的研究重點(diǎn)一直都是放在控制上,在規(guī)劃等領(lǐng)域并無成果(至少從他們放出的視頻中看不出有這方面研究)。
任務(wù)規(guī)劃:舉個(gè)例子,我們想讓機(jī)器人送瓶雪碧,那么機(jī)器人會將這個(gè)大任務(wù)分解成幾個(gè)子任務(wù)(運(yùn)動到冰箱前-->打開冰箱-->找到雪碧-->拿出雪碧-->關(guān)上冰箱-->送到人面前),當(dāng)然,可以有更復(fù)雜的任務(wù)。目前,一般是采用MDP或POMDP模型來描述問題,然后用各種規(guī)劃算法求解。總體上說,現(xiàn)在的任務(wù)規(guī)劃強(qiáng)烈依賴于任務(wù)描述方式(人工指定),而且在應(yīng)對大規(guī)模、不完全可觀等復(fù)雜問題時(shí),還沒有可靠的方法。
運(yùn)動規(guī)劃:舉個(gè)例子,機(jī)器人面前有一杯水,讓機(jī)器人將手運(yùn)動到杯子面前,同時(shí)不能碰到桌子等障礙物。這就是運(yùn)動規(guī)劃,根據(jù)目標(biāo)狀態(tài)點(diǎn),生成一系列關(guān)節(jié)運(yùn)動狀態(tài)。是的,現(xiàn)在就連讓機(jī)器人拿起面前的杯子這樣的問題也還沒有完全解決。簡而言之,我們一般是采用基于隨機(jī)采樣的算法進(jìn)行運(yùn)動規(guī)劃的。隨機(jī)采樣的意思就是:每次規(guī)劃的結(jié)果可能不同,更無法保證規(guī)劃出的路徑是最優(yōu)的。因?yàn)樽约壕妥鲞@一塊,所以深知其中的坑。就我個(gè)人感覺,要解決運(yùn)動規(guī)劃問題,需要一個(gè)方法論上的創(chuàng)新,拋棄現(xiàn)在這套方法(因?yàn)槿丝隙ú皇沁@樣規(guī)劃的啊)。
路徑規(guī)劃:其實(shí)跟運(yùn)動規(guī)劃是一個(gè)問題,但由于路徑規(guī)劃一般是在地面上,問題維度低,可以采用一些奇奇怪怪的規(guī)劃方法(Dijkstra,A*等)。由于問題畢竟簡單,這塊的發(fā)展也比較好,例如各種掃地機(jī)器人就已經(jīng)可以在室內(nèi)環(huán)境中到處跑了。
↑ 小米的掃地機(jī)器人已能利用二維地圖進(jìn)行路徑規(guī)劃
當(dāng)然,這一塊需要解決的問題可能是:①動態(tài)環(huán)境;②擁擠環(huán)境;③復(fù)雜地形;④地圖不全的環(huán)境等。但是估計(jì)未來15年左右可以徹底解決,所以到那時(shí)候,無人駕駛車應(yīng)該已經(jīng)可以到處跑了。
四、控制:
控制就是具體執(zhí)行規(guī)劃結(jié)果的過程了,從底層的電機(jī)控制到上層的機(jī)器人全身控制都屬于這個(gè)范疇。
機(jī)械臂控制:下圖是大約十年前 Sami Haddadin 做的機(jī)械臂碰撞檢測的demo,基本上已經(jīng)非常厲害了。而且,由于機(jī)械臂控制屬于機(jī)器人自身動力學(xué)問題,所以目前看來,這一領(lǐng)域可以說已經(jīng)是完全攻克了。
機(jī)械手操作:機(jī)械手的抓取操作問題就沒這么簡單了,因?yàn)槠渲猩婕皩?shí)際物理環(huán)境的建模問題(摩擦力、形狀等),由于模型不精確,所以完全基于模型的方法很難解決這一問題。目前實(shí)際應(yīng)用基本還是采用平行夾持器的方式。只有不少研究機(jī)構(gòu)在進(jìn)行靈巧手抓取方面的研究。
足式機(jī)器人控制:這是更難的地方了,因?yàn)闄C(jī)械臂和機(jī)械手都至少有個(gè)相對固定的基座。足式機(jī)器人的base是會隨著接觸而發(fā)生變化的。所以,我一直覺得能做足式機(jī)器人控制的人都是很厲害的人。
↑ Boston Dynamics 的各種足式機(jī)器人
再加上這次的 Handle 機(jī)器人,可以說,Boston Dynamics 以一己之力,將人類的足式機(jī)器人控制水平拉高了一個(gè)層次。
四、學(xué)習(xí):
這個(gè)屬于另外一大塊內(nèi)容,由于可以應(yīng)用到其他領(lǐng)域(控制、規(guī)劃、感知等),所以有時(shí)候不能單獨(dú)列為一類。
機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三類。目前,深度學(xué)習(xí)主要在監(jiān)督學(xué)習(xí)方面得到了很好的應(yīng)用;此外,對于強(qiáng)化學(xué)習(xí),也逐漸以Deep Q Learning等形式出現(xiàn);但無監(jiān)督學(xué)習(xí)才是機(jī)器學(xué)習(xí)中的最高挑戰(zhàn)。
我們?nèi)祟惸軌蚺e一反三(超強(qiáng)的監(jiān)督學(xué)習(xí)能力);能夠熟能生巧(超強(qiáng)的強(qiáng)化學(xué)習(xí)能力);能夠發(fā)明新事物(超強(qiáng)的無監(jiān)督學(xué)習(xí)能力)。
當(dāng)然,機(jī)器學(xué)習(xí)的坑還有很多。因?yàn)?,正是不斷學(xué)習(xí)讓我們能夠面對不斷變化的環(huán)境。這方面可挖的東西太多了。
五、交互:
這個(gè)就是機(jī)器人與人交互的問題。包括識別人、與人交流、與人協(xié)作。在這個(gè)角度看,我們現(xiàn)在的機(jī)器人還很不盡如人意:
識別人:雖然人體識別在機(jī)器視覺中已經(jīng)有了很多成果,但是在人機(jī)交互過程中,機(jī)器人不僅要識別到人的存在,還應(yīng)該要能判斷人的動作、意圖,并作出相應(yīng)反饋。
與人交流:這方面,我們現(xiàn)在的聊天機(jī)器人雖然也已經(jīng)做得不錯(cuò)了,但離通過『圖靈測試』還很遠(yuǎn),隨便一個(gè)普通人都能輕易判斷出對面是一個(gè)機(jī)器人。
與人協(xié)作:這個(gè)就不說了,我們真實(shí)的機(jī)器人還只能這樣:
六、容錯(cuò)性:
這個(gè)就是說機(jī)器人的軟硬件發(fā)生故障后,依舊可以自適應(yīng)地完成部分工作。
人類就不說了,有太多『身殘志堅(jiān)』的例子了:
↑四川90后“無臂男孩”用腳趾夾筆答題 勇戰(zhàn)高考追逐大學(xué)夢
我們的機(jī)器人最強(qiáng)只能這樣:
這是2014年發(fā)表在Nature的成果,只是簡單的機(jī)構(gòu)損壞、核心部件完好的情況下可以繼續(xù)完成簡單任務(wù)。
總結(jié)
綜上,要想做出能夠取代人類的通用機(jī)器人,我們還有非常非常非常遠(yuǎn)的路要走。
當(dāng)然,要想在十年內(nèi)做出這樣的機(jī)器人也不是不可能,例如忽然來了一群奇怪的人說:『我看你骨骼驚奇,你跟我學(xué)做機(jī)器人吧!』
↑ 圖片出自科幻電影《降臨》