熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人 ABB 機(jī)器人產(chǎn)業(yè)聯(lián)盟發(fā)那科庫卡碼垛機(jī)器人機(jī)械手

從概念上看看智能機(jī)器人的新范式：深度強(qiáng)化學(xué)習(xí)

日期：2016-08-30 來源：科技小讀作者：zy 評論：0

標(biāo)簽：

　　近兩年機(jī)器智能取得重大突破，像圍棋九段高手李世石敗北Alpha Go，DeepMind團(tuán)隊(duì)研發(fā)的機(jī)器人在Atari多項(xiàng)游戲上超越人類水平。這些突破主要得益于從基于深度學(xué)習(xí)的視覺、語音、語義感知到動作反饋的激勵懲罰強(qiáng)化訓(xùn)練模式。本文從概念上分析深度強(qiáng)化學(xué)習(xí)的要點(diǎn)，部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的報(bào)告。

　　強(qiáng)化學(xué)習(xí)，即機(jī)器人根據(jù)環(huán)境里動作得到的懲罰和激勵去自動調(diào)整策略。通過訓(xùn)練，機(jī)器人學(xué)到一組策略：在環(huán)境狀態(tài)S下應(yīng)采取動作A，（可）能獲得最大累積獎勵V。

　　強(qiáng)化學(xué)習(xí)有豐富的交叉學(xué)科背景，包括經(jīng)濟(jì)學(xué)、工程學(xué)、神經(jīng)科學(xué)里的博弈論、優(yōu)化控制，條件反射系統(tǒng)。

　　深度學(xué)習(xí)，使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器人的記憶，視覺感知，語音語義理解和生成。

　　深度強(qiáng)化學(xué)習(xí)以深度學(xué)習(xí)做感知，強(qiáng)化學(xué)習(xí)訓(xùn)練策略，并且以深度神經(jīng)網(wǎng)絡(luò)作為策略載體。相比于傳統(tǒng)的多模塊組合，深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了從感知到控制的端到端直接訓(xùn)練，減少了模塊間信息損失。

　　最近兩年在學(xué)術(shù)理論上，GoogleDeepMind團(tuán)隊(duì)在連續(xù)性動作控制[2]，異步訓(xùn)練[3]，訓(xùn)練框架[4]，分布式訓(xùn)練[5]等都有重要突破，為智能機(jī)器人的研發(fā)奠定理論和實(shí)踐基礎(chǔ)。

　　在特定任務(wù)的應(yīng)用上，深度增強(qiáng)學(xué)習(xí)已有廣泛實(shí)踐嘗試，例如流水線機(jī)器人。

　　在集成應(yīng)用上，深度強(qiáng)化學(xué)習(xí)在自動駕駛，聊天機(jī)器人[6][7]都有良好的前景。例如，使用分布式訓(xùn)練或異步訓(xùn)練，自動駕駛汽車可以多輛同時(shí)在各種環(huán)境學(xué)習(xí)，并且相互交換知識，加速學(xué)習(xí)過程。聊天機(jī)器人可以通過對話過程中用戶的反饋來調(diào)整自己的語言表達(dá)，逐步成長。

　　深度強(qiáng)化學(xué)習(xí)為智能機(jī)器人提供了新的計(jì)算范式：提供環(huán)境、激勵和懲罰、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)即可訓(xùn)練得到最大化獎勵的智能機(jī)器人。

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

機(jī)器人賦能產(chǎn)業(yè)，智贏	機(jī)器人也會創(chuàng)造英國
2018年中國智慧機(jī)場行	智能工廠全面解讀！
艾貓?jiān)缃虣C(jī)器人亮相20	360智能硬件助力美國

推薦資訊

點(diǎn)擊排行

^{<blockquote id="4f0v3"></blockquote>}

• 深圳博銘維又一力作，管道周邊地質(zhì)災(zāi)害探測神器	• 北京啟動建設(shè)國家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)
• Project Loon前CEO已加盟自主機(jī)器人交付企業(yè)Sta	• 嘉定將試點(diǎn)打造機(jī)器人“智慧園區(qū)”
• 提高工效、節(jié)省人力！美空軍用機(jī)器人給戰(zhàn)機(jī)“洗	• 人工智能是否可信？專家：一些疾病診斷AI準(zhǔn)確率
• 上千億激光焊接市場被激發(fā)，但國產(chǎn)機(jī)器人90%的	• 廣州：無人機(jī)遞藥機(jī)器人送餐
• 即日起正式施行協(xié)作機(jī)器人末端接口技術(shù)條件標(biāo)準(zhǔn)	• 即將實(shí)施的協(xié)作機(jī)器人末端接口標(biāo)準(zhǔn)，將對協(xié)作機(jī)

恰佩克獎	機(jī)器人高峰論壇	北大機(jī)器人	金屬加工在線	AI中國網(wǎng)	埃森焊接展	機(jī)氣林
工博會	趕考網(wǎng)	中國機(jī)床網(wǎng)	ITES深圳工業(yè)展	電氣自動化網(wǎng)	高壓電氣網(wǎng)	人工智能機(jī)器人
亞洲工業(yè)網(wǎng)	二手設(shè)備網(wǎng)	展覽會信息網(wǎng)	重慶房交匯網(wǎng)	VLAI未來四足機(jī)器人官網(wǎng)	中國傳動網(wǎng)	華北機(jī)床網(wǎng)
數(shù)控機(jī)床市場網(wǎng)	國家標(biāo)準(zhǔn)化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

從概念上看看智能機(jī)器人的新范式：深度強(qiáng)化學(xué)習(xí)