国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機(jī)器人  機(jī)械手 

從概念上看看智能機(jī)器人的新范式:深度強(qiáng)化學(xué)習(xí)

   日期:2016-08-30     來源:科技小讀    作者:zy     評論:0    
標(biāo)簽:
   近兩年機(jī)器智能取得重大突破,像圍棋九段高手李世石敗北Alpha Go,DeepMind團(tuán)隊(duì)研發(fā)的機(jī)器人在Atari多項(xiàng)游戲上超越人類水平。這些突破主要得益于從基于深度學(xué)習(xí)的視覺、語音、語義感知到動作反饋的激勵懲罰強(qiáng)化訓(xùn)練模式。本文從概念上分析深度強(qiáng)化學(xué)習(xí)的要點(diǎn),部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的報(bào)告。
  強(qiáng)化學(xué)習(xí),即機(jī)器人根據(jù)環(huán)境里動作得到的懲罰和激勵去自動調(diào)整策略。通過訓(xùn)練,機(jī)器人學(xué)到一組策略:在環(huán)境狀態(tài)S下應(yīng)采取動作A,(可)能獲得最大累積獎勵V。
  強(qiáng)化學(xué)習(xí)有豐富的交叉學(xué)科背景,包括經(jīng)濟(jì)學(xué)、工程學(xué)、神經(jīng)科學(xué)里的博弈論、優(yōu)化控制,條件反射系統(tǒng)。
 
  深度學(xué)習(xí),使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器人的記憶,視覺感知,語音語義理解和生成。
 
  深度強(qiáng)化學(xué)習(xí)以深度學(xué)習(xí)做感知,強(qiáng)化學(xué)習(xí)訓(xùn)練策略,并且以深度神經(jīng)網(wǎng)絡(luò)作為策略載體。相比于傳統(tǒng)的多模塊組合,深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從感知到控制的端到端直接訓(xùn)練,減少了模塊間信息損失。
 
  最近兩年在學(xué)術(shù)理論上,GoogleDeepMind團(tuán)隊(duì)在連續(xù)性動作控制[2],異步訓(xùn)練[3],訓(xùn)練框架[4],分布式訓(xùn)練[5]等都有重要突破,為智能機(jī)器人的研發(fā)奠定理論和實(shí)踐基礎(chǔ)。
 
  在特定任務(wù)的應(yīng)用上,深度增強(qiáng)學(xué)習(xí)已有廣泛實(shí)踐嘗試,例如流水線機(jī)器人。
 
  在集成應(yīng)用上,深度強(qiáng)化學(xué)習(xí)在自動駕駛,聊天機(jī)器人[6][7]都有良好的前景。例如,使用分布式訓(xùn)練或異步訓(xùn)練,自動駕駛汽車可以多輛同時(shí)在各種環(huán)境學(xué)習(xí),并且相互交換知識,加速學(xué)習(xí)過程。聊天機(jī)器人可以通過對話過程中用戶的反饋來調(diào)整自己的語言表達(dá),逐步成長。
  深度強(qiáng)化學(xué)習(xí)為智能機(jī)器人提供了新的計(jì)算范式:提供環(huán)境、激勵和懲罰、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)即可訓(xùn)練得到最大化獎勵的智能機(jī)器人。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行