国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫(kù)卡  碼垛機(jī)器人  機(jī)械手 

伯克利最新無(wú)模型深度強(qiáng)化學(xué)習(xí)研究:從零開(kāi)始訓(xùn)練機(jī)器人玩樂(lè)高

   日期:2018-03-28     來(lái)源:雷克世界    作者:liaiai     評(píng)論:0    
標(biāo)簽:

現(xiàn)如今,經(jīng)過(guò)長(zhǎng)期的研究實(shí)驗(yàn)證明,無(wú)模型深度強(qiáng)化學(xué)習(xí)在視頻游戲、模擬機(jī)器人操縱和運(yùn)動(dòng)等領(lǐng)域具有良好的性能表現(xiàn)。然而,眾所周知,當(dāng)與環(huán)境的交互時(shí)間有限的情況下,無(wú)模型方法的表現(xiàn)并不佳,就像大多數(shù)現(xiàn)實(shí)世界中的機(jī)器人任務(wù)一樣。在本文中,我們研究了如何能夠?qū)⑹褂胹oft Q-learning訓(xùn)練的最大熵策略應(yīng)用于現(xiàn)實(shí)世界中的機(jī)器人操縱任務(wù)。這種方法之所以能夠在現(xiàn)實(shí)世界中的應(yīng)用主要得益于soft Q-learning的兩個(gè)重要特征:首先,soft Q-learning可以通過(guò)學(xué)習(xí)具有表達(dá)性的基于能量的模型所表示的策略(energy-based models),從而學(xué)習(xí)多模式探索策略。其次,我們展示了通過(guò)soft Q-learning所學(xué)習(xí)的策略可以組成新策略,并且最終策略的最優(yōu)性可以根據(jù)組合策略之間的分歧來(lái)界定。這種組合性為現(xiàn)實(shí)世界的操縱任務(wù)提供了一個(gè)特別有價(jià)值的工具,其中,通過(guò)對(duì)現(xiàn)有的技能進(jìn)行組合進(jìn)而構(gòu)造出新的策略,可以在從零開(kāi)始的訓(xùn)練中提供效率上的大幅提高。我們的實(shí)驗(yàn)評(píng)估結(jié)果表明,相較于以往的無(wú)模型深度強(qiáng)化學(xué)習(xí)方法,soft Q-learning具有更高的樣本效率,并且可以對(duì)模擬和現(xiàn)實(shí)世界的任務(wù)執(zhí)行組合性。

我們,使用一種稱為soft Q-learning的最大熵強(qiáng)化學(xué)習(xí)算法,對(duì)Sawyer機(jī)器人進(jìn)行訓(xùn)練使其能夠?qū)?lè)高積木疊加在一起。從零開(kāi)始對(duì)一個(gè)策略進(jìn)行訓(xùn)練需要不到兩個(gè)小時(shí)的時(shí)間,并且已學(xué)習(xí)事物策略干擾(左圖)具有很強(qiáng)的魯棒性。我們還展示了該如何將學(xué)到的策略組合起來(lái)形成新的復(fù)合技能,例如在避開(kāi)樂(lè)高積木塔的情況下進(jìn)行堆疊操作(右圖)。

具有表達(dá)性的通用目的函數(shù)近似器(如神經(jīng)網(wǎng)絡(luò)),與可用于獲取復(fù)雜行為策略的通用目的無(wú)模型強(qiáng)化學(xué)習(xí)算法的交集,有望實(shí)現(xiàn)廣泛的機(jī)器人行為的自動(dòng)化:強(qiáng)化學(xué)習(xí)提供了用于推理序列決策的形式主義,而大型神經(jīng)網(wǎng)絡(luò)提供了表征,原則上,可以用于使用最少的手工工程來(lái)來(lái)表示任何行為。然而,經(jīng)過(guò)實(shí)踐證明,將具有多層神經(jīng)網(wǎng)絡(luò)表示(即深度強(qiáng)化學(xué)習(xí))的無(wú)模型強(qiáng)化學(xué)習(xí)算法應(yīng)用于現(xiàn)實(shí)世界中的機(jī)器人控制問(wèn)題,這一過(guò)程是非常困難的:無(wú)模型方法的樣本復(fù)雜性相當(dāng)高,并且由于大容量函數(shù)近似器的包容性,復(fù)雜性還將進(jìn)一步提高。在以往的研究中,專(zhuān)家們?cè)噲D通過(guò)在多個(gè)機(jī)器人上并行化學(xué)習(xí)來(lái)緩解這些問(wèn)題,比如利用實(shí)例演示[,或模擬訓(xùn)練,并依靠精確的模型實(shí)現(xiàn)向現(xiàn)實(shí)世界的遷移。所有這些方法都帶有附加的假設(shè)和局限性。那么,我們是否可以設(shè)計(jì)出一種無(wú)模型強(qiáng)化學(xué)習(xí)算法,這種算法能夠在不依賴模擬、演示或多個(gè)機(jī)器人的情況下,直接對(duì)現(xiàn)實(shí)世界中的多層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行高效訓(xùn)練?

我們假設(shè),基于以下兩點(diǎn)性質(zhì),最大熵原理可以為實(shí)際的、現(xiàn)實(shí)世界的深度強(qiáng)化學(xué)習(xí)提供一個(gè)有效的框架。首先,最大熵策略通過(guò)玻爾茲曼分布(Boltzmann distribution)表達(dá)了一個(gè)隨機(jī)策略,提供了一種內(nèi)在的、明智的探索策略,它,其能量對(duì)應(yīng)于reward-to-go或Q函數(shù)。此分布為所有操作分配一個(gè)非零概率,但期望回報(bào)更高的操作更可能被采樣。因此,該策略將自動(dòng)把探索引向回報(bào)更高的區(qū)域。這種特性可以被看作是探索和開(kāi)發(fā)的軟組合,在實(shí)際應(yīng)用中是非常有益的,因?yàn)樗峁┝吮蓉澙诽剿鳎╣reedy exploration)更多的結(jié)構(gòu),并且正如我們實(shí)驗(yàn)所展示的那樣,這大大提高了樣本的復(fù)雜性。其次,正如我們?cè)谖恼轮兴故镜哪菢樱?dú)立訓(xùn)練的最大熵策略可以通過(guò)增加Q函數(shù)而其組合在一起,從而為合并后的獎(jiǎng)勵(lì)函數(shù)產(chǎn)生一個(gè)新的策略,該策略被證明近乎于相應(yīng)的最優(yōu)策略。在實(shí)際應(yīng)用中,控制器的可組合性尤為重要,而這在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)中是不可能的。在這些應(yīng)用中,重復(fù)使用過(guò)去的經(jīng)驗(yàn)可以極大地提高任務(wù)的樣本效率(這些任務(wù)可以自然地分解為更簡(jiǎn)單的子問(wèn)題)。例如,拾取和放置的策略可以分解為(1)到達(dá)指定的X坐標(biāo)(2)到達(dá)指定的Y坐標(biāo)(3)規(guī)避障礙。因此,這種可分解的策略可以分三個(gè)階段學(xué)習(xí),每個(gè)階段產(chǎn)生一個(gè)子策略,而這些此策略隨后可以在需要與環(huán)境進(jìn)行交互的情況下進(jìn)行離線組合。

對(duì)兩個(gè)獨(dú)立的策略進(jìn)行訓(xùn)練,從而相應(yīng)地推動(dòng)圓柱到橙色線和藍(lán)色線。彩色圓圈顯示了針對(duì)相應(yīng)策略的圓柱到達(dá)最終位置的樣本。當(dāng)策略組合在一起時(shí),生成的策略會(huì)學(xué)習(xí)將圓柱體推到線的下交叉點(diǎn)(綠色圓圈表示最終位置)。沒(méi)有來(lái)自環(huán)境的附加樣本用于對(duì)組合策略進(jìn)行訓(xùn)練。組合策略學(xué)習(xí)滿足兩個(gè)原始目標(biāo),而不是簡(jiǎn)單地平均最終圓柱位置。

本文的主要貢獻(xiàn)是在最新提出的soft Q-learning(SQL)算法的基礎(chǔ)上,提出了一種使用具有表達(dá)性的神經(jīng)網(wǎng)絡(luò)策略學(xué)習(xí)機(jī)器人操作技能的學(xué)習(xí)框架。我們證明了,該學(xué)習(xí)框架為學(xué)習(xí)各種機(jī)器人技能提供了一種有效的機(jī)制,并且在實(shí)際機(jī)器人系統(tǒng)的樣本效率方面優(yōu)于目前最先進(jìn)的無(wú)模型深度強(qiáng)化學(xué)習(xí)方法。我們的實(shí)驗(yàn)結(jié)果表明,在很大的程度上,SQL的性能要遠(yuǎn)遠(yuǎn)優(yōu)于深度確定性策略梯度(DDPG)和歸一化優(yōu)勢(shì)函數(shù)(NAF),這些算法過(guò)去曾被用于利用神經(jīng)網(wǎng)絡(luò)探索現(xiàn)實(shí)世界中的無(wú)模型機(jī)器人學(xué)習(xí)。我們還演示了對(duì)SQL算法的全新的擴(kuò)展,即利用它對(duì)以前學(xué)習(xí)過(guò)的技能進(jìn)行組合。我們提出了一個(gè)關(guān)于組合策略和組合獎(jiǎng)勵(lì)函數(shù)最優(yōu)策略之間差別的理論界限,它適用于SQL和其他基于軟優(yōu)化的強(qiáng)化學(xué)習(xí)方法。在實(shí)驗(yàn)中,我們利用最大熵策略在模擬領(lǐng)域和物理領(lǐng)域的組合性,展示了不同技能的魯棒性學(xué)習(xí),并且在樣本效率方面超越了現(xiàn)有的最先進(jìn)的方法。

當(dāng)在Sawyer機(jī)器人上進(jìn)行訓(xùn)練以將其末端執(zhí)行器移動(dòng)到特定位置時(shí),DDPG(綠色)、NAF(紅色)和SQL(藍(lán)色)的學(xué)習(xí)曲線。SQL的學(xué)習(xí)速度比其他方法快得多。我們還通過(guò)將期望的位置連接到觀察向量(橙色)以訓(xùn)練SQL達(dá)到隨機(jī)采樣的末端執(zhí)行器位置。SQL學(xué)會(huì)盡快解決這個(gè)任務(wù)。SQL曲線顯示10個(gè)輪數(shù)中的移動(dòng)平均值。

在本文中,我們探討了如何將soft Q-learning擴(kuò)展到現(xiàn)實(shí)世界中的機(jī)器人操作任務(wù)中,既可以學(xué)習(xí)單個(gè)操作任務(wù),也可以學(xué)習(xí)能夠組成新策略的組合任務(wù)。我們的實(shí)驗(yàn)表明,本質(zhì)上來(lái)說(shuō),soft Q-learning的性能要遠(yuǎn)遠(yuǎn)優(yōu)于無(wú)模型深度強(qiáng)化學(xué)習(xí)。在模擬到達(dá)任務(wù)中,soft Q-learning具有比NAF更好的性能,其中包括多個(gè)策略組合以到達(dá)新位置的情況。除此之外,在Sawyer機(jī)器人進(jìn)行評(píng)估的真實(shí)世界任務(wù)的執(zhí)行中,soft Q-learning的性能上勝過(guò)DDPG。該方法具有更好的穩(wěn)定性和收斂性,并且通過(guò)soft Q-learning獲得的對(duì)Q函數(shù)進(jìn)行組合的能力可以使其在現(xiàn)實(shí)世界的機(jī)器人場(chǎng)景中特別有用,其中針對(duì)每個(gè)新獎(jiǎng)勵(lì)因素組合的新策略進(jìn)行再訓(xùn)練是耗時(shí)且昂貴的。

在不到兩個(gè)小時(shí)的時(shí)間里,就可以學(xué)會(huì)一個(gè)樂(lè)高堆疊策略。學(xué)習(xí)到的策略對(duì)干擾聚于很強(qiáng)的魯棒性:當(dāng)機(jī)器人被推進(jìn)到一個(gè)與典型軌跡完全不同的狀態(tài)后,它能夠恢復(fù)并成功地將樂(lè)高積木堆在一起。

在研究最大熵策略的可組合性時(shí),我們推導(dǎo)出了組合策略與組合獎(jiǎng)勵(lì)函數(shù)的最優(yōu)策略之間誤差的界限。這一界限表明熵值較高的策略可能更容易進(jìn)行組合。在未來(lái),一項(xiàng)有意義的研究方向是探尋這一約束對(duì)組合性的影響。例如,我們是否可以推導(dǎo)出一個(gè)可應(yīng)用于組合Q函數(shù)的修正,以減少偏差?回答這樣的問(wèn)題,會(huì)使得從先前訓(xùn)練過(guò)的構(gòu)建塊中創(chuàng)建新的機(jī)器人技能變得更加實(shí)際,這使得機(jī)器人更容易獲得通過(guò)強(qiáng)化學(xué)習(xí)所學(xué)到的大量行為。

 
 
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行