本周于預(yù)印服務(wù)器Arxiv.org上發(fā)表的一篇論文中,來(lái)自Google Brain,Google X和加州大學(xué)伯克利分校的研究人員組成的團(tuán)隊(duì)描述了對(duì)現(xiàn)有AI方法的擴(kuò)展,這些方法使諸如代理人之類(lèi)的代理人成為可能。決定執(zhí)行上一個(gè)動(dòng)作時(shí)要采取的動(dòng)作。其思想是,模仿人或動(dòng)物行為的行為模型將在將來(lái)導(dǎo)致更健壯,更不易發(fā)生故障的系統(tǒng)。
研究人員指出,盡管AI算法已經(jīng)在視頻游戲,機(jī)器人抓取和操縱任務(wù)中取得了成功,但大多數(shù)算法都使用了阻塞性的“觀察-思考-行動(dòng)”范例-代理假定其環(huán)境在“思考”時(shí)保持靜態(tài),因此其行動(dòng)將在計(jì)算它們的相同狀態(tài)下執(zhí)行。這在仿真中是適用的,但在現(xiàn)實(shí)世界中則不然,在現(xiàn)實(shí)世界中,環(huán)境狀態(tài)隨著代理程序處理觀測(cè)結(jié)果并計(jì)劃其下一個(gè)動(dòng)作而變化。
團(tuán)隊(duì)的解決方案是一個(gè)可以在機(jī)器學(xué)習(xí)上下文中處理并發(fā)環(huán)境的框架。它利用標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)公式-通過(guò)獎(jiǎng)勵(lì)推動(dòng)代理人達(dá)到目標(biāo)的公式-其中,代理人從一組可能的狀態(tài)中接收一個(gè)狀態(tài),并根據(jù)策略從一組可能的操作中選擇一個(gè)操作。環(huán)境返回從過(guò)渡分布和獎(jiǎng)勵(lì)中采樣的下一個(gè)狀態(tài),以便代理學(xué)習(xí)從每個(gè)狀態(tài)最大化期望的收益。
除了上一個(gè)動(dòng)作之外,還有兩個(gè)附加功能-動(dòng)作選擇時(shí)間和走動(dòng)向量(VTG)-有助于封裝并發(fā)知識(shí)。(研究人員將VTG定義為在測(cè)量環(huán)境狀態(tài)時(shí)立即執(zhí)行的最后一個(gè)動(dòng)作。)并發(fā)動(dòng)作環(huán)境在執(zhí)行前一個(gè)動(dòng)作時(shí)以及捕獲狀態(tài)之后捕獲狀態(tài)。并且該策略將選擇一個(gè)操作并執(zhí)行該操作,而不管先前的操作是否已完成-即使必須中斷先前的操作。

研究人員在真實(shí)世界的機(jī)械手臂上進(jìn)行了實(shí)驗(yàn),他們的任務(wù)是抓取并移動(dòng)垃圾箱中的各種物體。他們說(shuō),他們的框架取得了與基線(xiàn)阻止模型相當(dāng)?shù)淖ト〕晒?,但是就策略持續(xù)時(shí)間(衡量策略的總執(zhí)行時(shí)間)而言,它比阻止模型快49%。此外,并發(fā)模型能夠執(zhí)行比基線(xiàn)更平滑的軌跡。
共同作者寫(xiě)道:“并發(fā)方法可能允許在動(dòng)態(tài)環(huán)境中進(jìn)行機(jī)器人控制,在這種環(huán)境中,機(jī)器人無(wú)法在計(jì)算動(dòng)作之前停止環(huán)境。”“在這些情況下,機(jī)器人必須真正地同時(shí)思考和行動(dòng)。”
這項(xiàng)工作是在Google領(lǐng)導(dǎo)的一項(xiàng)研究之后進(jìn)行的,該研究描述了一種AI系統(tǒng),該系統(tǒng)從動(dòng)物的動(dòng)作中學(xué)到了東西,從而使機(jī)器人具有更大的靈活性。合著者認(rèn)為,他們的方法可以促進(jìn)機(jī)器人的發(fā)展,該機(jī)器人可以完成現(xiàn)實(shí)世界中的任務(wù),例如在多層倉(cāng)庫(kù)和履行中心之間運(yùn)輸物料。