取法乎上,僅得其中。機器像人,路漫漫。

軍備競賽,只要有一個國家邁出第一步,緊接著就會出現(xiàn)第二個國家,第三個國家 …… 最終結(jié)成一張緊張又隱晦的霸權(quán)關(guān)系大網(wǎng)。
裹挾在人類歷史上最大的內(nèi)卷之中,各國軍隊開發(fā)作戰(zhàn)機器人的意圖是什么?站在軍事變革的時代長河中,作戰(zhàn)機器人的技術(shù)實際進展到了哪一步?人工智能會不會成為軍備競賽中的重要一環(huán)?我們惴惴不安的是軍備競賽的恐怖,還是前沿領(lǐng)域激發(fā)機器人的意識潛力?
從技術(shù)發(fā)展的角度看,許多高科技都是借助軍事契機向前發(fā)展。1968 年,阿帕網(wǎng)(ARPA 網(wǎng))誕生,有一個流傳甚廣的說法是,阿帕網(wǎng)是美國國防部為抵御前蘇聯(lián)的核打擊而建造的通訊網(wǎng)絡(luò),即使部分指揮點被摧毀后,其它點仍能正常通訊工作。
這個最初由美國國防部高級研究計劃局用于軍事研究目的局域網(wǎng),被認為是現(xiàn)今互聯(lián)網(wǎng) ( Internet ) 的前身。從此之后,互聯(lián)科技便開始了從局部互聯(lián)到廣域互聯(lián),從軍用到民用的發(fā)展過程。
但著眼國際上成效顯著的 AI 落地項目,人工智能技術(shù)在醫(yī)療健康領(lǐng)域大顯身手,其因不僅是醫(yī)療領(lǐng)域有大量的數(shù)據(jù)可供機器學(xué)習(xí),更為重要的是醫(yī)療問題多有明確的邊界,AI 運行極其隱秘且規(guī)整。在這種數(shù)據(jù)密集、知識密集、腦力勞動密集為特征的領(lǐng)域中,機器學(xué)習(xí)更像是設(shè)定好收益以及減益目標(biāo),通過無限窮舉,并且依托強大算力的超級電腦,但是距離人們認知的 " 智能 ",還有太大差距。
在現(xiàn)實世界中,少有存在明確邊界的問題。
軍事作戰(zhàn)地形復(fù)雜,作戰(zhàn)環(huán)境依附作戰(zhàn)雙方的機動戰(zhàn)術(shù),在這種軟規(guī)則和硬規(guī)則的約束條件下成長起來的機器人,能否依據(jù)軍事作戰(zhàn)的特殊約束條件,提高機器人的自主決策能力,成長為配合士兵作戰(zhàn)的鋼鐵智能?
一、世界軍事強國對機器人部隊的構(gòu)想
英國正計劃在 2030 年建機器人大軍,部署 12 萬個 " 終結(jié)者 " 機器人用于下一代戰(zhàn)爭。根據(jù)英軍國防參謀長尼克 · 卡特將軍的說法,在未來十年或 2030 年代,約有四分之一的英國軍隊可能是機器人。
與此同時,美國正在研制機器人戰(zhàn)車,用來提升陸軍作戰(zhàn)能力。到 21 世紀 30 年代,這些快速、強力的車輛將在戰(zhàn)場上巡邏,配合陸軍進行作戰(zhàn)。
發(fā)達國家率先將機器人作為軍備一部分,多數(shù)人并不驚訝,機器人可能會補充新兵的缺口,減少對人類士兵的依賴,并可能多元擴充國家的軍事力量。在以美國為首的許多國家已經(jīng)增加了對機器人技術(shù)的軍事投資,機器人很可能成為未來任何國家軍事武器庫中的關(guān)鍵部分。
從歷史的長河看,社會形態(tài)開始向智能化演變的時候,戰(zhàn)爭形態(tài)必將隨之向智能化演變。從冷兵器時代刀、槍、劍、戟,強調(diào)士兵近戰(zhàn)肉搏,到熱兵器時代槍林彈雨重視戰(zhàn)略戰(zhàn)術(shù),我們是否要馬上迎來信息戰(zhàn)、信號戰(zhàn)、無人作戰(zhàn)時代?
目前,美國陸軍研究實驗室 ( Army Research Lab,ARL ) 正訓(xùn)練機器人在崎嶇的地形 ( 上、中 ) 測試自主導(dǎo)航技術(shù),目標(biāo)是能協(xié)同人類隊友。ARL 還在開發(fā)具有操作能力的機器人,這種機器人可與物體交互,替代人類作戰(zhàn)冗余行為。
然而,機器人的底層技術(shù)到了望而生畏的地步了嗎,帶著這些問題,IEEE Spectrum 的高級編輯,Even Ackerman(埃文 · 阿克曼),近期前往了馬里蘭州阿德爾菲實驗室中心( Adelphi Laboratory Center),以第一視角寫下了這篇文章。AI 科技評論將其整理,與大家一同探索軍地作戰(zhàn)機器人的真實能力。
二、美國陸軍研究實驗室的陸地作戰(zhàn)機器人
?。?在混亂環(huán)境中,機器人表現(xiàn)糟糕
" 我可能不應(yīng)該站得這么近," 當(dāng)機器人慢慢靠近我面前地板上的一根大樹枝時,我對自己說。讓我緊張的不是樹枝的大小,而是這個自主操作的機器人。雖然我知道它應(yīng)該做什么,但我完全不確定它接下來會做什么。
如果一切都像 ARL 的機器人專家預(yù)料的那樣,機器人接下來會識別出樹枝的存在,抓住樹枝,并把樹枝拖到道路的一旁。這些機器人很清楚自己正在做什么,但我站在它們面前,還是心生恐懼,所以我往后退了一小步。

這款機器人的名字叫 "RoMan"(Robotic Manipulation),意為 " 機器操作 ",和一臺大型的割草機差不多大,有一個履帶底座,可以應(yīng)對大多數(shù)不同的路況。它的前部有一個矮小的軀干,配備了攝像頭和深度傳感器;還有一對手臂,手臂的原型來自災(zāi)難響應(yīng)機器人 RoboSimian,最初由 NASA 的噴氣推進實驗室(Jet Propulsion Laboratory,JPL)為美國 DARPA 的機器人競賽開發(fā),執(zhí)行與災(zāi)難相關(guān)的任務(wù)。

RoboSimian
今天,羅曼的任務(wù)是清理道路。這是一項多步驟的任務(wù),ARL 希望機器人盡可能自主完成。操作員不會指示機器人以什么方式抓住目標(biāo)物體、或?qū)⒛繕?biāo)物移動到某個特定的位置,而是告訴 RoMan 要 " 清理出一條干凈的道路 ",然后由機器人自主決定如何完成這項任務(wù)。
" 自主決策的能力 ",本就是機器人之所以可以稱為機器 " 人 " 的原因所在。我們重視機器人,是因為它們能夠感知周圍所發(fā)生的事情,根據(jù)感知的信息做決定,然后在沒有人類干預(yù)的情況下采取有效的行動。在過去,機器人的決策是遵循高度結(jié)構(gòu)化的規(guī)則。在像工廠一樣結(jié)構(gòu)化的環(huán)境中,機器人能很好地工作,但在混亂、陌生或定義不明確的環(huán)境中,比如戰(zhàn)場,那么,對規(guī)則的依賴則會使機器人 " 笨手笨腳 ",因為機器人無法提前精確預(yù)測與作規(guī)劃。
?。?深度學(xué)習(xí):一塊 " 絆腳石 "
和許多機器人(包括家用吸塵器、無人機和自動駕駛汽車等)一樣,RoMan 是通過人工神經(jīng)網(wǎng)絡(luò)來應(yīng)對在半結(jié)構(gòu)環(huán)境中遇到的挑戰(zhàn)。大約在十年前,人工神經(jīng)網(wǎng)絡(luò)開始應(yīng)用于各種各樣的半結(jié)構(gòu)化數(shù)據(jù)。此前,這些半結(jié)構(gòu)化數(shù)據(jù)一直是基于規(guī)則編程(也就是所謂的 " 符號推理 ")來運行的計算機的難題。
人工神經(jīng)網(wǎng)絡(luò)不是識別特定的數(shù)據(jù)結(jié)構(gòu),而是識別數(shù)據(jù)模式,找出與網(wǎng)絡(luò)先前遇到的數(shù)據(jù)相似但不完全相同的新數(shù)據(jù)。人工神經(jīng)網(wǎng)絡(luò)的部分吸引力,就在于它們是通過實例進行訓(xùn)練,通過讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)標(biāo)記的數(shù)據(jù),形成自己的識別模式。具有多層抽象的神經(jīng)網(wǎng)絡(luò),則稱為 " 深度學(xué)習(xí) "。
盡管人類參與了訓(xùn)練的過程,人工神經(jīng)網(wǎng)絡(luò)也受到了人類大腦神經(jīng)網(wǎng)絡(luò)的啟發(fā),但從根本上看,深度學(xué)習(xí)系統(tǒng)的識別模式與人類看待世界的方式是不同的。我們經(jīng)常無法理解深度學(xué)習(xí)系統(tǒng)的輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的關(guān)系,所以深度學(xué)習(xí)系統(tǒng)也往往被稱為 " 黑盒子 " 模型。
深度學(xué)習(xí)的這種 " 黑盒子 " 不透明決策特性,給像 RoMan 這樣的機器人和 ARL 實驗室造成了一些問題。這種不透明性也意味著,我們要必須謹慎使用依賴深度學(xué)習(xí)系統(tǒng)的機器人。
深度學(xué)習(xí)系統(tǒng)擅長識別模式,但缺乏人類對世界的理解能力,也就無法像人類一樣做出合乎情理的決策。這就是為什么深度學(xué)習(xí)在一些定義良好且范圍小的應(yīng)用中能取得最出色的表現(xiàn)。
" 當(dāng)你同時擁有構(gòu)造良好的輸入和輸出,并且可以在這些輸入與輸出中完整地表達你的問題,那么深度學(xué)習(xí)就很有用。" 美國羅徹斯特大學(xué)機器人與人工智能實驗室主任 Tom Howard 談道。此前,Tom Howard 為 RoMan 和其他地面機器人開發(fā)了許多自然語言交互算法。" 問題是,在為智能機器人編程時,這些依賴深度學(xué)習(xí)系統(tǒng)的機器人實際存在的大小是多少 ?"
Howard 解釋說,當(dāng)你將深度學(xué)習(xí)應(yīng)用到更高層次的問題時,輸入的數(shù)據(jù)量可能非常大,處理大規(guī)模數(shù)據(jù)會十分困難。尤其當(dāng)研究的對象是一個 170 公斤重的雙臂軍用機器人時,它在執(zhí)行任務(wù)中可能出現(xiàn)的不可預(yù)測或無法解釋的行為就變得無比關(guān)鍵。
幾分鐘后,羅曼還沒有動——它仍然坐在那里,對著樹枝沉思,手臂像螳螂一樣擺動。在過去的 10 年里,ARL 的機器人技術(shù)合作聯(lián)盟 ( Robotics Collaborative Technology Alliance ,RCTA ) 一直與來自卡內(nèi)基梅隆大學(xué)、佛羅里達州立大學(xué)、General Dynamics Land Systems 公司、JPL、MIT、QinetiQ North America、中佛羅里達大學(xué)、賓夕法尼亞大學(xué)和其他頂級研究機構(gòu)共同開發(fā)用于未來地面作戰(zhàn)的機器人自主能力。RoMan 就在這個大項目中的一個代表。
RoMan 正在思考的 " 清出一條路 " 的任務(wù)對機器人來說是很困難的,因為這個任務(wù)太抽象了。在這個任務(wù)中,羅曼需要識別可能擋住去路的物體,推斷這些物體的物理性質(zhì),弄清楚如何抓住它們,以及采用哪種最佳的操作技巧(推、拉、提等等),然后將這些行為完整地執(zhí)行出來。對于一個本就對世界了解有限的機器人來說,這個任務(wù)的步驟實在太多,且充滿未知。
?。?" 模塊化 " 理解世界
ARL 操縱和移動項目的人工智能首席科學(xué)家 Ethan Stump 談道:" 讓機器人逐漸理解世界,正是 ARL 所開發(fā)的機器人與其他依賴于深度學(xué)習(xí)的機器人所不同的地方。"
" 軍隊也許會在世界上的任何地方執(zhí)行任務(wù),但我們不可能收集應(yīng)用到機器人的所有地域的詳細數(shù)據(jù)。我們也許會被派去地球另一側(cè)從未涉足的森林,但我們也要表現(xiàn)地就像在自家后院一樣出色。" 他介紹,但大多數(shù)深度學(xué)習(xí)系統(tǒng)只能在它們受訓(xùn)的領(lǐng)域和環(huán)境中可靠地運行。此外,如果軍隊作戰(zhàn)機器人的深度學(xué)習(xí)系統(tǒng)表現(xiàn)不好,他們并不能通過簡單地收集更多的數(shù)據(jù)來解決問題,數(shù)據(jù)量有限。
ARL 的機器人還需要意識到自己在做什么。Stump 解釋:" 在一項任務(wù)的標(biāo)準(zhǔn)執(zhí)行順序中,你有目標(biāo)、約束條件、表達指揮官意圖的話術(shù)。" 換句話說,RoMan 可能需要快速地清理一條道路,也可能需要安靜地清理一條道路,這取決于任務(wù)的具體要求。即使對目前最先進的機器人來說,這也是一個很高的要求。
在我看著的時候,RoMan 再次搬運樹枝。ARL 的自主方法是模塊化的,其中,深度學(xué)習(xí)與其他技術(shù)結(jié)合,讓 RoMan 幫助 ARL 確定什么任務(wù)適合什么技術(shù)。
目前,RoMan 正在測試兩種從 3D 傳感器數(shù)據(jù)中識別物體的不同方法:賓夕法尼亞大學(xué)的方法是基于深度學(xué)習(xí),而卡耐基梅隆大學(xué)使用的是一種通過搜索來感知的方法,這種方法依賴于更傳統(tǒng)的 3D 模型數(shù)據(jù)庫。只有事先確定要尋找的對象,搜索感知方法才有效,但這種方法的訓(xùn)練要快得多,因為每個物體只需要一個模型。而且。即使物體很難被感知,比如物體的一部分被遮擋或被顛倒,搜索感知方法也能準(zhǔn)確地識別物體。ARL 同時測試兩種方法,讓兩種方法同時運行、相互競爭,以選出最通用和最有效的方法。
感知是深度學(xué)習(xí)擅長的事情之一。ARL 的計算機科學(xué)家 Maggie Wigness 說:" 得益于深度學(xué)習(xí),計算機視覺領(lǐng)域已經(jīng)取得了極大進展,我們已經(jīng)成功地將一些只在一個環(huán)境中訓(xùn)練的深度學(xué)習(xí)模型很好地泛化到新的環(huán)境中。"
ARL 的模塊化方法是將幾種技術(shù)的優(yōu)勢結(jié)合起來。例如,基于深度學(xué)習(xí)視覺對地形進行分類的感知系統(tǒng),可與基于逆強化學(xué)習(xí)方法(inverse reinforcement learning)的自動駕駛系統(tǒng)一起工作。在逆強化學(xué)習(xí)方法中,模型可以通過人類士兵的觀察迅速創(chuàng)建或優(yōu)化,而傳統(tǒng)的強化學(xué)習(xí)基于既定的獎勵函數(shù)來優(yōu)化解決方案,通常只有在你不確定什么是最佳行為的時候使用。這和作戰(zhàn)思維不謀而合,這種思維通常認為訓(xùn)練有素的人在一旁指導(dǎo)機器人才是正確的做事方式。
" 所以我們想要一種技術(shù),讓士兵干預(yù),結(jié)合一些戰(zhàn)場實例。如果我們需要新的行為,就可以更新系統(tǒng)。深度學(xué)習(xí)技術(shù)需要更多的數(shù)據(jù)和時間。"Wigness 說。
?。?如何安全運行?
深度學(xué)習(xí)要面臨的,不僅僅是數(shù)據(jù)稀疏和快速適應(yīng)的問題,還有魯棒性、可解釋性和安全性等問題。Stump 說:" 這些問題并不是只有在作戰(zhàn)機器人中才會出現(xiàn),但在軍隊作戰(zhàn)時尤其重要,因為它所引起的后果可能是致命的。" 需要明確的是,ARL 目前并不是在研究致命的自主武器系統(tǒng),而是在為美國軍方的自主系統(tǒng)奠定基礎(chǔ)。在未來,作戰(zhàn)機器人可能就如 RoMan 一樣行動。
Stump 還表示,安全永遠是優(yōu)先考慮的問題,但目前還沒有一種明確的方法來確保深度學(xué)習(xí)系統(tǒng)的安全性。" 在安全的約束下進行深度學(xué)習(xí)是一項重要的研究工作,但將這些約束條件添加到系統(tǒng)中確實困難重重,因為你不知道系統(tǒng)中已有的約束條件是從哪里來的。所以,當(dāng)任務(wù)變化,或環(huán)境變化時,約束條件就很難處理。
這甚至不是一個數(shù)據(jù)問題,而是一個架構(gòu)問題。" 無論 ARL 的模塊化架構(gòu)是使用深度學(xué)習(xí)的感知模塊,還是使用逆強化學(xué)習(xí)的自動駕駛模塊,它都可以構(gòu)成更廣的自動系統(tǒng)的一部分,并滿足軍隊對安全性和適應(yīng)性的要求。
整合起來的深度學(xué)習(xí)系統(tǒng)就能作戰(zhàn)?
Nicholas Roy 是 MIT 機器人小組的負責(zé)人。他形容自己是一個 " 煽動者 ",因為他覺得深度學(xué)習(xí)不應(yīng)該被神化,所以他同意 ARL 機器人專家的觀點,即深度學(xué)習(xí)方法往往無法應(yīng)對軍隊所面臨的挑戰(zhàn)。
" 陸軍時時深入新的環(huán)境,而且敵軍總是嘗試不斷改變環(huán)境,所以機器人所經(jīng)歷的訓(xùn)練過程根本無法與軍隊的需求相匹配。" Roy 說," 因此,很大程度上,深度網(wǎng)絡(luò)的需求與陸軍作戰(zhàn)的任務(wù)是不匹配的,這是一個問題。"
在 RCTA(Rear Cross Traffic alert,后方橫向來車警示系統(tǒng))任務(wù)中,Roy 強調(diào)地面機器人的抽象推理。他認為,當(dāng)深度學(xué)習(xí)被用于具有明確函數(shù)關(guān)系的問題時,它就是一項有用的技術(shù),但當(dāng)你開始研究抽象概念時,就不清楚深度學(xué)習(xí)是否可行。"
Roy 說:" 我對神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)如何以一種支持更高級的推理方式進行組裝非常感興趣,歸根到底,這是如何結(jié)合多個低級神經(jīng)網(wǎng)絡(luò)來表達更高層次概念的問題,但目前我們還不知道怎么做到這一點。"
Roy 給出了使用兩個獨立神經(jīng)網(wǎng)絡(luò)的例子,一個用來檢測汽車,另一個用來檢測紅色的物體。與使用基于邏輯關(guān)系的、帶有結(jié)構(gòu)化規(guī)則的符號推理系統(tǒng)相比,將這兩個網(wǎng)絡(luò)合并成一個更大的網(wǎng)絡(luò)來檢測紅色汽車要困難得多。" 很多人都在研究這個問題,但我還沒有看到成功推動這種抽象推理形成的研究。"
在可預(yù)見的未來,ARL 將通過讓人類參與高級推理和偶爾的低級建議,來確保自主系統(tǒng)的安全性和魯棒性。人類可能不會一直參與機器人系統(tǒng)的研究,但當(dāng)人類和機器人作為一個團隊一起工作時,它們的效率會更高。當(dāng)機器人合作技術(shù)聯(lián)盟項目(Robotics Collaborative Technology Alliance)的最新階段在 2009 年開始時,ARL 已經(jīng)在伊拉克和阿富汗呆了很多年,在那里,機器人經(jīng)常被當(dāng)作工具使用。我們一直在想,我們要怎么做才能讓機器人從工具變成球隊中的隊友。"
當(dāng)人類指出抓取哪個區(qū)域的樹枝最有效時,RoMan 確實得到了一點幫助。機器人對樹枝并沒有認知,這種世界知識(即人們常說的 " 常識 ")的無知是所有自主決策系統(tǒng)的通病。但如果有一個人能利用我們?nèi)祟惖呢S富經(jīng)驗,稍微點撥一下 RoMan,那么它工作起來就會容易地多。這一次,RoMan 成功地抓住了樹枝,并將樹枝拖走了。
把一個機器人變成一個好隊友很難,因為要賦予機器人何種程度的自主權(quán)是十分棘手的。機器人的自主權(quán)太少,就需要人投入大量的精力來管理,這適用于處理爆炸物等特殊情況,但在其他情況下則效率低下。但如果給予機器人太多的自主權(quán),則會有信任、安全和可解釋性等方面的隱患。
Stump 解釋:" 我認為我們要找的標(biāo)準(zhǔn)是,機器人的操作水平相當(dāng)于工作犬。它們清楚地知道在有限的環(huán)境下,我們需要它們做什么;如果它們?nèi)サ叫碌沫h(huán)境,還會有少量的靈活性和創(chuàng)造力,但我們不期望它們用創(chuàng)新的方法解決問題。如果它們需要幫助,它們可以向我們求助。"
- 對自主系統(tǒng)的探索要延續(xù)下去
即使是作為人類團隊的一員,RoMan 也不太可能馬上在野外獨立執(zhí)行任務(wù)。RoMan 更像是一個研究平臺,借由這個研究契機,可以探索深度學(xué)習(xí)的一系列復(fù)雜問題。但是,ARL 正在為 RoMan 和其他機器人開一個軟件,名為 " 自適應(yīng)規(guī)劃參數(shù)學(xué)習(xí) " ( Adaptive Planner Parameter Learning,APPL ) ,可能會首先用于自動駕駛,然后是更復(fù)雜的機器人系統(tǒng),包括像 RoMan 這樣的移動操控員。
APPL 將不同的機器學(xué)習(xí)技術(shù)(包括逆強化學(xué)習(xí)和深度學(xué)習(xí))分層排列在經(jīng)典的自主導(dǎo)航系統(tǒng)之下,可以將高級的目標(biāo)和約束應(yīng)用在低級編程上。人類可以使用遠程操作演示、矯正干預(yù)和評估反饋來幫助機器人適應(yīng)新環(huán)境,同時,機器人可以使用無監(jiān)督強化學(xué)習(xí)來調(diào)整自己的行為參數(shù)。
結(jié)果就是,一個自主系統(tǒng)可以兼具機器學(xué)習(xí)的多個優(yōu)勢,同時也提供了軍隊需要的安全性和可解釋性。有了 APPL,像 RoMan 這樣的基于學(xué)習(xí)的系統(tǒng),即使在不確定的情況下也可以采用可預(yù)測的方式運行。如果它處于與訓(xùn)練環(huán)境十分不同的環(huán)境中,則需要依靠人類調(diào)優(yōu)或人類演示。
商業(yè)和工業(yè)自動駕駛系統(tǒng)(比如自動駕駛汽車)的快速發(fā)展,難免使人們好奇:為什么軍隊會在先進技術(shù)的洪流中處于落后地位?Stump 的看法是,自主系統(tǒng)中有很多難題,軍隊的難題與工業(yè)難題不同。比如說,軍隊就沒有配備大量數(shù)據(jù)的結(jié)構(gòu)化環(huán)境來操作機器人。未來,人類很可能仍然是 ARL 正在開發(fā)的自主框架中的關(guān)鍵角色。
三、結(jié)語:不要在發(fā)明棍子之前,困于對暴力的忌憚
從上述分析中可以看出,全球軍事機器人研究并沒有停滯不前而是在積極向前發(fā)展。人們更希望軍事機器人開發(fā)者能夠在戰(zhàn)斗和智能自動化方面找到平衡。
我們的時代軌跡是真正實現(xiàn)人機共融,而從機器人一隅來看,人和機之間的關(guān)系,漸次為輔助、協(xié)同、替代、擴展。輔助和協(xié)同已經(jīng)實現(xiàn),人的主體地位就要擺在更顯眼的位置了。