国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

金準數(shù)據(jù) DeepMind機器人控制:端到端地學習視覺運動策略

   日期:2018-03-30     來源:金融傳媒    作者:liaiai     評論:0    
標簽:

前言:

近日,來自斯坦福大學&DeepMind 的研究者提出一種學習機器人深度視覺運動策略的新方法,它結(jié)合強化學習和模仿學習來實現(xiàn)高效的強化學習智能體,該方法可解決大量視覺運動任務。實驗證明該智能體性能顯著優(yōu)于僅使用強化學習或模仿學習訓練出的智能體。

近期深度強化學習在多個領域取得了很好的表現(xiàn),如視頻游戲和圍棋。對于機器人,RL 結(jié)合強大的函數(shù)逼近器(如神經(jīng)網(wǎng)絡)可提供設計復雜控制器的通用框架,而這種控制器很難靠人力搭建?;趶娀瘜W習的方法在機器人控制領域歷史很久,但通常與低維動作表示結(jié)合使用。近年來,使用 model-based 和 model-free 技術的深度強化學習在機器人控制方面取得了大量成功案例,包括模擬和在硬件上運行兩方面。然而,使用 model-free 技術端到端地學習視覺運動控制器來執(zhí)行長跨度、多階段控制任務仍然存在很大難度。

開發(fā) RL 機器人智能體需要克服多項挑戰(zhàn)。機器人策略必須將從帶噪傳感器中得到的多模態(tài)、部分觀測數(shù)據(jù)改變?yōu)榫邆湟欢ㄗ杂啥鹊膮f(xié)作活動。同時,現(xiàn)實任務通常具備富接觸動態(tài),并且隨著多個維度發(fā)生變化(視覺外觀、位置、形狀等),給泛化帶來了很大挑戰(zhàn)。

研究者提出一種 model-free 的深度 RL 方法,直接從像素輸入入手解決大量機器人控制任務。本論文關鍵洞察有:1)利用少量人類演示數(shù)據(jù)減少在連續(xù)域執(zhí)行探索(exploration)的難度;2)在訓練過程中使用多種新技術(這些技術利用(exploit)了私有和任務特定的信息),以加速和穩(wěn)定視覺運動策略在多階段任務中的學習;3)通過增加訓練條件的多樣性來改善泛化性能。因此,這些策略在系統(tǒng)動態(tài)、目標外觀、任務長度等發(fā)生顯著變化的情況下仍然運行良好。

此外,研究者還展示了該方法在兩項任務上的初步結(jié)果,仿真訓練出的策略達到了向真實機器人的 zero-shot 遷移。

為了解決這些挑戰(zhàn),本論文研究者提出的方法將模仿學習和強化學習結(jié)合起來,構(gòu)建一個統(tǒng)一訓練框架。該方法以兩種方式利用演示數(shù)據(jù):使用混合獎勵,基于生成對抗模仿學習將任務獎勵與模仿獎勵結(jié)合起來;使用演示軌跡構(gòu)建狀態(tài)的課程(curriculum),以在訓練中初始化 episode。因此,該方法解決了全部六個任務,這些任務單憑強化學習或模仿學習都無法解決。

為了規(guī)避對真實硬件的訓練限制,我們采用了sim2real范式,效果不錯。通過使用物理引擎和高通量RL算法,我們可以模擬一個機器人手臂的平行副本,在一個接觸豐富的環(huán)境中執(zhí)行數(shù)百萬個復雜的物理交互,同時消除機器人安全和系統(tǒng)重置的實際問題。此外,在訓練過程中,我們可以利用一些新技術如在不同的模式下學習策略和價值,以對象為中心的生成對抗模仿學習,可視化輔助模塊技術,開發(fā)在真實系統(tǒng)條件下的特定任務信息。這些技術可以穩(wěn)定和加速策略學習,而不會在測試時對系統(tǒng)有任何限制。

最后,我們將訓練條件多樣化,如視覺外觀、對象幾何和系統(tǒng)動力學。這既提高了對不同任務條件的概括,也加速了從模擬到現(xiàn)實的轉(zhuǎn)換。

圖 1. 研究者提出的機器人學習流程。研究者使用 3D 運動控制器收集某項任務的人類演示。提出的強化學習和模仿學習模型利用這些演示促使模擬物理引擎的學習。然后執(zhí)行 sim2real 遷移,將習得的視覺運動策略遷移至真正的機器人。

2.相關研究

強化學習方法已被廣泛應用于低維度的策略模型,以解決模擬和現(xiàn)實中的各種控制問題,如移動元模型,。三種RL算法目前在連續(xù)控制問題上占主導地位:引導策略搜索方法(GPS;Levine和Koltun,基于價值的方法,如確定性政策梯度(DPG;Silver等,Lillicrap等,Heess等)或歸一化優(yōu)勢函數(shù)(NAF;Gu等)算法和基于信任區(qū)域的策略梯度算法,如信任區(qū)域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。TRPO和PPO由于其對超參數(shù)設置的健壯性以及它們的可擴展性而保持ap-peal,但缺乏有效樣本使之并不適應于對機器人硬件的直接訓練。

GPS已被Levine、Yahya人和Chebotar等人使用,在網(wǎng)絡預訓練階段后,直接在真實的機器人硬件上學習visuomotor策略。Gupta等人和Kumar等人使用GPS作為機器人手模型的學習控制器?;趦r值的方法已經(jīng)被使用,例如Gu等人使用NAF直接在機器人上學習一門打開的任務,Popov等人演示了如何使用DPG的分布式變量有效地解決堆碼問題。

處理數(shù)據(jù)需求的另一種策略是在模擬中訓練,將學習的控制器轉(zhuǎn)移到真正的硬件上,或者用合成數(shù)據(jù)增強現(xiàn)實世界的訓練。Rusu等研究了一個Jaco機器人手臂的簡單的視覺運動策略,并使用進步網(wǎng)絡將其轉(zhuǎn)移到現(xiàn)實中。Viereck等依靠深度來縮小現(xiàn)實差距。Tobin等人利用視覺變化來學習能夠傳輸?shù)浆F(xiàn)實的健壯的目標檢測器;James等將隨機化與引導性學習相結(jié)合。Bousmalis等用模擬數(shù)據(jù)增強訓練,學習掌握各種形狀的預測。

控制問題的成本函數(shù)和勘探策略對設計具有挑戰(zhàn)性,因此,一直以來演示不可或缺??梢允褂醚菔緛沓跏蓟呗浴⒃O計成本函數(shù)、引導探索、增加訓練數(shù)據(jù),或者組合起來使用。成本函數(shù)可以通過跟蹤目標(如Gupta等)或通過逆RL(如Boularias,F(xiàn)inn等)或通過生成對抗式模仿學習來獲得。

在通過演示學習操作任務的情況下,此類方法本身就需要與演示相一致的狀態(tài)和操作空間。相比之下,我們的方法是學習端到端的可視化策略,而不依賴于演示操作。因此,因此,它可以利用演示的過程,當原始的演示動作是未知的或由不同的身體產(chǎn)生的。Pinto和Peng認為從模擬到現(xiàn)實的轉(zhuǎn)換,應分別聚焦于隨機化的視覺表象和機器人的動力學。Pinto等人使用末端執(zhí)行器位置控制的視覺輸入不同的任務。這些現(xiàn)有的類同的研究都引入了我們的模型所使用的技術子集。這項工作是獨立于并行工程開發(fā)的,將幾種新技術集成到一個連貫的方法中。我們的實驗結(jié)果表明,良好的性能來自于這些組合技術的協(xié)同作用。

3. 模型

本研究旨在為機器人控制任務學習深度視覺運動策略。該策略使用 RGB 攝像頭觀測結(jié)果和本體特征(proprioceptive feature)向量描述關節(jié)位置和角速度。這兩種感官模態(tài)在真實機器人上同樣可用,因此研究者進行仿真訓練,并將習得的策略在不修改的情況下遷移至機器人。圖 2 是模型概覽。深度視覺運動策略使用卷積神經(jīng)網(wǎng)絡編碼觀測像素,使用多層感知機編碼本體特征。這兩種模塊中的特征被級聯(lián)并傳輸至循環(huán) LSTM 層,然后輸出關節(jié)速度(控制)。整個網(wǎng)絡以端到端的方式進行訓練。研究者首先簡要介紹了生成對抗模仿學習(GAIL)和近端策略優(yōu)化(PPO)的基礎知識。該模型基于這兩種方法擴展而來,提升視覺運動技能。

圖 2. 模型概覽。模型核心是深度視覺運動策略,其采用攝像頭觀測結(jié)果和本體特征作為輸入,并輸出下一個關節(jié)速度。

4. 實驗

本節(jié)展示了該方法可向視覺運動策略學習提供靈活的框架。研究者在六個控制任務中對該方法的性能進行了評估(詳見圖 3)。視頻包含了定性結(jié)果。

圖 3. 實驗中六項控制任務的可視化。左邊三列展示了六項任務在仿真環(huán)境中的 RGB 圖像。這些圖像對應輸入視覺運動策略的實際像素觀測。右側(cè)一列展示了真實機器人執(zhí)行兩項色塊任務的表現(xiàn)。

研究者將 episode 平均返回值表示為訓練迭代次數(shù)的函數(shù),如圖 4 所示。完整模型在六項任務中達到了最高的返回值。

圖 4. 論文提出的強化與模仿學習模型和基線學習效率的對比。該圖展示的是 5 次不同隨機種子運行的平均值。所有策略使用同樣的網(wǎng)絡架構(gòu)和超參數(shù)(λ 除外)。

圖 5. 堆疊任務中的模型分析。左圖展示了從完整模型中移除每個單獨組件對性能的影響。右圖展示了模型對超參數(shù) λ 的敏感度,λ 調(diào)節(jié)強化學習和模仿學習的貢獻。

在圖 5a 中,研究者用多種配置訓練智能體,從單個修改到修改整個模型。研究者發(fā)現(xiàn)這些缺失可分為兩類:學習堆疊的智能體(平均返回值大于 400)和僅學會提升的智能體(平均返回值在 200 和 300 之間)。結(jié)果表明從狀態(tài)中學習價值函數(shù)的混合 RL/IL 獎勵和以目標為中心的鑒別器特征在學習優(yōu)良策略的過程中發(fā)揮了重要作用。

圖 5b 展示了該模型在 λ 值在 0.3 到 0.7 之間的運行效果,λ 值的大幅變化提供了 RL 和 GAIL 獎勵的平衡混合。

結(jié)論:

在本文中,我們描述了一種通用的無模型深度強化學習方法,該方法用于從RGB攝像機圖像和使用關節(jié)速度控制的每一種形式操作的策略的端到端學習。我們的方法結(jié)合使用演示,通過生成的敵對模仿學習15和無模型的RL來實現(xiàn)對不同任務的有效學習和強大的泛化。此外,這種方法可以從狀態(tài)軌跡(沒有演示動作)和鑒別器所看到的僅使用部分/特征化的演示相結(jié)合——這可以簡化和增加數(shù)據(jù)收集過程中的靈活性,并促進在非執(zhí)行的條件下的泛化(例如,可以通過一個不同的“主體”來收集演示,例如通過動作捕捉的人演示程序)。在每項任務不到30分鐘的時間內(nèi),通過對模擬手臂的遠程操作來收集演示。我們的方法集成了幾種新技術,以利用模擬提供的靈活性和可伸縮性,例如獲取特權(quán)信息和使用大型RL算法。實驗結(jié)果表明,該算法在復雜的仿真操作中具有一定的有效性,并取得了初步的成功。我們使用相同的策略網(wǎng)絡、相同的訓練算法和相同的超參數(shù)來訓練所有的策略。該方法利用了特定于任務的信息,特別是在選擇以對象為中心的特征時,對鑒別器和RL獎勵進行了選擇。然而,在實踐中,我們發(fā)現(xiàn)這些特性的特性是直觀的,而我們的方法對于特定的選擇來說是相當可靠的,因此在需要(有限的)先驗知識的需求和可用于復雜任務的解決方案的一般性之間取得了良好的平衡。

為了充分挖掘機器人技術的潛力,我們必須面對現(xiàn)實世界的完全變化,包括對象外觀、系統(tǒng)動態(tài)、任務語義等,因此我們將重點放在學習控制器上,以處理多個維度的任務變化。為了提高學習策略更加泛化,我們通過參數(shù)化、程序生成的3D對象和隨機系統(tǒng)動力學增加了訓練條件的多樣性。這導致了在模擬和仿真和現(xiàn)實世界之間的某些領域不一致的情況下,在模擬的大變化中表現(xiàn)出穩(wěn)健性的策略。

仿真是我們方法的中心。在仿真中進行的訓練可以解決許多對機器人技術的實際挑戰(zhàn),比如獲取用于獎勵的狀態(tài)信息、高樣本復雜性和安全考慮等。模擬訓練也允許我們使用模擬狀態(tài)來促進和穩(wěn)定訓練(即通過向值函數(shù)提供狀態(tài)信息),在我們的實驗中,這對于學習良好的視覺運動策略非常重要。然而,盡管我們的方法在培訓過程中利用了這些特定信息,它最終會產(chǎn)生只依賴于手臂的視覺和本體感受信息的策略,因此可以應用在真正的硬件上。

在真實的機器人上執(zhí)行這些策略表明,在模擬和真實硬件之間仍然存在著相當大的領域差距。轉(zhuǎn)移會受到視覺差異的影響,也會受到手臂動力學和環(huán)境物理性質(zhì)的影響。當在真正的機器人上運行仿真策略時,這會導致一定程度的性能下降。不過,我們在現(xiàn)實世界中進行的實驗已經(jīng)證明,采用RL訓練的策略執(zhí)行像素到關節(jié)速度的控制,零發(fā)射的sim2real傳輸可以取得初步成功。

我們已經(jīng)證明,結(jié)合強化和模仿學習可以顯著提高我們訓練系統(tǒng)的能力,這些系統(tǒng)能夠從像素中解決具有挑戰(zhàn)性的靈巧操作任務。我們的方法實現(xiàn)了機器人技術學習流水線的三個階段:首先,我們收集了少量的演示數(shù)據(jù)來簡化探索問題;其次,我們依靠物理仿真來進行大規(guī)模的分布式機器人訓練;第三,我們對現(xiàn)實應用進行了sim2real傳輸。在未來的工作中,我們尋求提高學習方法的樣本效率,并利用實際經(jīng)驗來縮小政策轉(zhuǎn)移的現(xiàn)實差距。

 
 
更多>相關資訊
0相關評論

推薦圖文
推薦資訊
點擊排行