麻省理工學(xué)院和伍茲霍爾海洋研究所(whoi)的研究人員發(fā)明了一種自主機(jī)器人系統(tǒng),它能有效地在廣闊、未經(jīng)勘探的水域中發(fā)現(xiàn)最有科學(xué)意義但卻很難找到的采樣點。
環(huán)境科學(xué)家通常對在環(huán)境中最有趣的位置或“最大值”處收集樣本感興趣。一個例子可能是化學(xué)品泄漏的來源,該化學(xué)品的濃度最高,并且大部分不受外部因素破壞。但是最大值可以使得研究人員能拿到想要測量的任何可量化值,例如水深或暴露于空氣中的珊瑚礁部分。

部署最大搜索機(jī)器人的努力受到效率和精度問題的困擾。通常,機(jī)器人會像割草機(jī)一樣來回移動以覆蓋一個區(qū)域,這很費時,而且會收集許多無趣的樣本。一些機(jī)器人感知并跟隨高濃度的軌跡到達(dá)泄漏源但他們可能會被誤導(dǎo)例如,化學(xué)物質(zhì)會被困在遠(yuǎn)離源頭的縫隙中并積聚起來,機(jī)器人可能會將這些高濃度的區(qū)域識別為源頭,但其實離這里還很遠(yuǎn)。
成功的探索
在國際智能機(jī)器人系統(tǒng)(IROS)會議上發(fā)表的一篇論文中,研究人員描述了“羽狀物”這一系統(tǒng),使自主移動機(jī)器人能夠更快速、更有效地將一個最大值歸零。PLUMES機(jī)器人利用概率技術(shù)來預(yù)測哪些路徑可能導(dǎo)致最大值,同時導(dǎo)航障礙物、移動電流和其他變量。當(dāng)它收集樣本時,它衡量它所學(xué)的知識,以確定是繼續(xù)沿著一條有希望的道路前進(jìn),還是搜索可能藏有更多有價值樣本的未知領(lǐng)域。
重要的是,PLUMES機(jī)器人到達(dá)目的地時不會被困在那些棘手的高濃度區(qū)域。”這很重要,因為很容易認(rèn)為你找到了黃金,但實際上你找到了傻瓜的黃金,”第一作者之一、計算機(jī)科學(xué)與人工智能實驗室(CSAIL)和麻省理工-世界衛(wèi)生組織聯(lián)合項目的博士生維多利亞·普雷斯頓說。
研究人員建造了一艘以羽毛為動力的機(jī)器人船,它成功地探測到巴巴多斯貝拉爾群島邊緣珊瑚礁中暴露最深的珊瑚頭。也就是說,它位于最淺的地方,這對研究太陽照射對珊瑚生物的影響很有幫助。在100個模擬試驗中,在不同的水下環(huán)境中,虛擬PLUMES機(jī)器人還在分配的時間幀一致地收集七到八倍的最大值,樣本比傳統(tǒng)的覆蓋方法確實多很多。
合著者第一作者Genevieve Flaspohler博士說:“我們的PLUMES機(jī)器人是先找到最需要探索的,然后迅速集中于收集有價值的樣本。”。與普雷斯頓和弗萊斯波勒一起發(fā)表論文的還有:世界衛(wèi)生組織應(yīng)用海洋物理與工程系的科學(xué)家安娜p.m.米歇爾和約格什·吉爾達(dá)爾;以及美國航空航天學(xué)院和航空航天系的教授尼古拉斯·羅伊。
瀏覽漏洞探索權(quán)衡
PLUMES機(jī)器人的一個關(guān)鍵點是運(yùn)用各種技術(shù),從概率到推理,在利用對環(huán)境的了解和探索可能更有價值的未知領(lǐng)域之間,找到一個眾所周知的復(fù)雜折衷方案。
Flaspohler說:“最大限度的尋求最大的挑戰(zhàn)是讓機(jī)器人能夠平衡從已經(jīng)知道的高濃度的地方開發(fā)信息,探索未知的地方。”如果機(jī)器人探索太多,它就不會收集到足夠多的有價值的樣本。如果它不夠探索,它可能完全錯過最大值。”
進(jìn)入到一個新的環(huán)境中,他們發(fā)明的這個PLUMES機(jī)器人使用一個稱為高斯過程的概率統(tǒng)計模型來預(yù)測環(huán)境變量,如化學(xué)濃度,并估計傳感不確定性,然后,PLUMES機(jī)器人可以走的可能路徑的分布,并使用估計值和不確定性來根據(jù)每條路徑允許機(jī)器人探索和利用的程度對其進(jìn)行排序。
首先,PLUMES機(jī)器人會選擇隨機(jī)探索環(huán)境的路徑。但是,每個樣本都提供了有關(guān)周圍環(huán)境中目標(biāo)值的新信息,例如化學(xué)物質(zhì)濃度最高或深度最淺的點。高斯過程模型利用這些數(shù)據(jù)來縮小機(jī)器人從給定位置到具有更高值位置的樣本的可能路徑。PLUMES機(jī)器人使用一種新的目標(biāo)函數(shù),常用于機(jī)器學(xué)習(xí),以最大限度地獲得獎勵,以調(diào)用機(jī)器人是否應(yīng)該利用過去的知識或探索新的領(lǐng)域。
“估算”路徑
在哪里收集下一個樣本,取決于系統(tǒng)從當(dāng)前位置“產(chǎn)生估算”所有可能的未來行為的能力。為此,它利用了Monte Carlo樹搜索(MCTS)的改進(jìn)版本,MCTS是一種為掌握圍棋和國際象棋等復(fù)雜游戲的人工智能系統(tǒng)提供動力而推廣的路徑規(guī)劃技術(shù)。
MCTS使用一個決策樹-一個連接節(jié)點和線路的地圖來模擬一條路徑,或者一系列的移動,以達(dá)到最終的勝利動作但在游戲中,可能路徑的空間是有限的。在未知環(huán)境中,隨著動態(tài)的實時變化,空間實際上是無限的,使得規(guī)劃變得極其困難研究人員設(shè)計了“連續(xù)觀測MCT”,它利用高斯過程和新的目標(biāo)函數(shù)來搜索這個龐大的空間中可能存在的真實路徑。
這個MCTS決策樹的根從一個“信念”節(jié)點開始,這是機(jī)器人可以立即采取的下一步該節(jié)點包含機(jī)器人在該點之前的整個動作和觀察歷史然后,系統(tǒng)將樹從根擴(kuò)展到新的行和節(jié)點,查看導(dǎo)致探索和未探索區(qū)域的未來操作的幾個步驟。
然后,系統(tǒng)根據(jù)從以前的觀察中學(xué)習(xí)到的一些模式,模擬如果從每個新生成的節(jié)點中抽取一個樣本會發(fā)生什么。根據(jù)最終模擬節(jié)點的值,整個路徑將獲得一個獎勵分?jǐn)?shù),較高的值將等于更有希望的操作。所有路徑的獎勵分?jǐn)?shù)都回滾到根節(jié)點。機(jī)器人選擇得分最高的路徑,邁出一步,收集一個真實的樣本然后,利用真實數(shù)據(jù)更新高斯過程模型,重復(fù)“幻覺”過程。
“只要系統(tǒng)繼續(xù)產(chǎn)生幻覺,認(rèn)為世界上看不見的地方可能有更高的價值,它就必須繼續(xù)探索,”Flaspohler說。當(dāng)它最終收斂在一個點上時,它估計是最大值,因為它不能沿著路徑幻覺一個更高的值,于是它停止探索。
現(xiàn)在,研究人員正與WHOI的科學(xué)家合作,使用羽流驅(qū)動的機(jī)器人來定位火山地點的化學(xué)羽流,并研究北極融化的沿海河口的甲烷釋放科學(xué)家們對釋放到大氣中的化學(xué)氣體的來源很感興趣,但這些測試地點可以跨越數(shù)百平方英里。
普雷斯頓說:“他們可以(利用PLUMES機(jī)器人)花更少的時間探索這個巨大的區(qū)域,真正集中精力收集有科學(xué)價值的樣本。”