国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

日本研究者提出新算法:讓機器人通過多模態(tài)深度強化學習獲得社會智能

   日期:2017-02-28     作者:lx     評論:0    
標簽:
 我們一直在期待機器人能在我們的日常生活中發(fā)揮重要的作用,而作為機器人強國的日本也一直是這一領(lǐng)域的領(lǐng)導者之一。近日,日本大阪大學和日本科學枝術(shù)振興機構(gòu)(JST)ERATO ISHIGURO 共生人機交互項目(Symbiotic Human-Robot Interaction Project)的研究者在 arXiv 提交了一篇論文,介紹了他們在機器人的社會智能上的研究成果。另外值得一提的是,他們的實驗用到了著名的 Pepper 機器人。

摘要

要讓機器人與人類在類似我們社會那樣的社會世界中共存,它們需要掌握類似人類的社交技能,這是很關(guān)鍵的。通過編程的方式來讓機器人掌握這些技能是很艱難的。在這篇論文中,我們提出了一種多模態(tài)深度 Q 網(wǎng)絡(luò)(MDQN:Multimodal Deep Q-Network),可以讓機器人通過試錯的方法來學習類似人類的交互技能。這篇論文的目標是開發(fā)能夠在與人類的交互過程中收集數(shù)據(jù)并且能夠使用端到端的強化學習從高維度傳感信息中學習人類交互行為的機器人。本論文表明,機器人在經(jīng)過了與人類的 14 天交互之后,可以成功學會基本的交互技能。

圖 1:機器人向人學習社交技能

算法介紹

這里提出的算法由兩個獨立工作的流組成:一個用于處理灰度幀(grayscale frame),另一個用于處理深度幀(depth frame)。

下面的 Algorithm 1 概述了這個算法。因為該模型有兩個流,因為其參數(shù) θ 和 θ- 是由兩個網(wǎng)絡(luò)的參數(shù)構(gòu)成的。和 DQN [10] 不同,我們將數(shù)據(jù)生成階段和訓練階段分開了。每一天的實驗都對應(yīng)于一個 episode,在這期間,算法要么執(zhí)行數(shù)據(jù)生成階段,要么執(zhí)行訓練階段。

本研究所提出的算法的偽代碼

以下是這兩個階段的簡述:

數(shù)據(jù)生成階段(data generation phase):在數(shù)據(jù)生成階段,系統(tǒng)使用 Q 網(wǎng)絡(luò) Q(s, a; θ) 來與其環(huán)境進行交互。該系統(tǒng)會觀察當前場景(由灰度幀和深度幀構(gòu)成),并使用 ε-greedy 策略來采取行動。該環(huán)境又會反過來提供標量的獎勵(reward)(請參閱 5(2) 節(jié)了解獎勵函數(shù)的定義)。交互經(jīng)歷是

其被存儲在重放記憶 M 中。重放記憶 M 會保存 N 個最近的經(jīng)歷,然后這些經(jīng)歷會在訓練階段被用于更新該網(wǎng)絡(luò)的參數(shù)。

訓練階段(training phase):在訓練階段,該系統(tǒng)會利用存儲在重放記憶 M 中的數(shù)據(jù)來對網(wǎng)絡(luò)進行訓練。超參數(shù) n 表示經(jīng)歷重放的數(shù)量。對于每一次經(jīng)歷重放,都會從有限大小的重放記憶 M 中隨機采樣出一個包含 2000 次交互經(jīng)歷的迷你緩存器 B。該模型會在從緩存器 B 中采樣出的 mini batch 上進行訓練,該網(wǎng)絡(luò)的參數(shù)會在 bellman targets 的方向上迭代式地更新。這個對重放記憶的隨機采樣會打破樣本之間的相關(guān)性,因為標準的強化學習方法假定樣本是獨立的且完全分布式的。將該算法分成兩個階段的原因是為了避免延遲——如果該網(wǎng)絡(luò)在交互期間同時進行訓練就會產(chǎn)生這種延遲。該 DQN [16] 代理在一個循環(huán)中工作,其中它首先會與環(huán)境進行交互,然后會將這個轉(zhuǎn)變存儲到重放記憶中,然后其會從該重放記憶中采樣出 mini batch,并在這個 mini batch 上訓練該網(wǎng)絡(luò)。這個循環(huán)會不斷重復,直到終止。這個交互和訓練的順序過程在 HRI 之外的領(lǐng)域也許是可以接受的。在 HRI 領(lǐng)域,代理必須基于社會規(guī)范來和人類進行交互,因此機器人的任何停頓和延遲都是不可接受的。因此,我們將該算法分成了兩個階段:在第一個階段,機器人通過與人類進行有限時間的交互來收集數(shù)據(jù);在第二個階段,其進入階段。在這個休息階段,訓練階段激活從而對該多模態(tài)深度 Q 網(wǎng)路(MDQN)進行訓練。

實現(xiàn)細節(jié)

這個模型由兩個流(stream)構(gòu)成,一個用于灰度信息,另一個用于深度信息。這兩個流的結(jié)構(gòu)是完全相同的,每個流都由 8 個層組成(包括輸入層)。整體模型架構(gòu)如圖 2 所示。

圖 2:雙流式卷積神經(jīng)網(wǎng)絡(luò)

該多模態(tài) Q 網(wǎng)絡(luò)的 y 信道和 depth 信道的輸入分別是灰度圖像(198 × 198 × 8)和深度圖像(198 × 198 × 8)。因為每個流都使用 8 幀輸入,因此,來自對應(yīng)相機的最新的 8 幀是被預處理后堆疊到一起,構(gòu)成該網(wǎng)絡(luò)的每個流的輸入。因為這兩個流是完全一樣的,所以我們在這里只討論一個流的結(jié)構(gòu)即可。198 × 198 × 8 的輸入圖像首先被傳遞給第一個卷積層(C1),其以 3 的步幅卷積計算 9×9 的 16 個濾波器,后面則跟著一個整流線性單元(ReLU)函數(shù)并得到每個大小為 64×64 的 16 個特征圖(我們將其記為 16@64×64)。這個來自 C1 的輸出然后會被送入下采樣層 S1,其以 2×2 的步幅應(yīng)用 2×2 的最大池化(max-pooling)。第二(C2)和第三(C3)個卷積層分別卷積計算 32 和 64 個濾波器,其大小為 5×5,使用了 1 的步幅。C2 和 C3 的輸出通過非線性 ReLU 函數(shù),然后分別被送入下采樣層 S2 和 S3。最后的隱藏層是帶有 256 個整流單元的全連接層。輸出層則是一個全連接的線性層,帶有 4 個單元,每一個單元對應(yīng)一個合法動作。

圖 3:成功和不成功的握手示例

圖 4:在經(jīng)過了一系列的 episode 之后,MDQN 在測試數(shù)據(jù)集上的表現(xiàn)

 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行