国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫(kù)卡  碼垛機(jī)器人  機(jī)械手 

OpenAI怎么用自我對(duì)局訓(xùn)練AI機(jī)器人變身摔角王?

   日期:2017-10-24     來源:太平洋電腦網(wǎng)    作者:dc136     評(píng)論:0    
標(biāo)簽: 人工智能 機(jī)器人
   OpenAI 于近日的一項(xiàng)研究中發(fā)現(xiàn),在一個(gè)非明確的技能訓(xùn)練的環(huán)境中,AI 能夠通過“自我對(duì)局”的訓(xùn)練掌握一系列動(dòng)作技能,比如進(jìn)攻、躲避、假動(dòng)作、踢、抓等等。“自我對(duì)局”訓(xùn)練確定了環(huán)境對(duì)于提升AI系統(tǒng)的重要性。Dota2在“自我對(duì)局”訓(xùn)練中的表現(xiàn)和結(jié)果讓團(tuán)隊(duì)越來越相信,“自我對(duì)局”訓(xùn)練不久將會(huì)成為AI系統(tǒng)的核心。對(duì)本文進(jìn)行編譯,全文如下:
 
  我們?cè)趲讉€(gè)3D機(jī)器人之間設(shè)置了一些基本的游戲競(jìng)賽,利用一些簡(jiǎn)單的目標(biāo)(比如:將對(duì)手推到場(chǎng)地圈外;到達(dá)場(chǎng)地的另一邊,并阻止對(duì)手到達(dá);把球踢進(jìn)對(duì)手的網(wǎng)內(nèi),而不讓對(duì)手的球踢進(jìn)自己的網(wǎng)內(nèi)等。)對(duì)每個(gè)機(jī)器人進(jìn)行訓(xùn)練,并且分析機(jī)器人在完成目標(biāo)時(shí)所使用的技能和策略。
 
  一開始,機(jī)器人會(huì)因?yàn)檎玖?、前進(jìn)這樣的行為而獲得豐厚的獎(jiǎng)勵(lì),但最后這些獎(jiǎng)勵(lì)會(huì)被清零,只有勝利的機(jī)器人才會(huì)獲得獎(jiǎng)勵(lì)。除了這些簡(jiǎn)單的獎(jiǎng)勵(lì)以外,機(jī)器人還會(huì)學(xué)到一系列動(dòng)作技能,比如進(jìn)攻、躲避、假動(dòng)作、踢、抓等等。在這個(gè)過程中,每個(gè)機(jī)器人的神經(jīng)網(wǎng)絡(luò)都單獨(dú)接受了“近端策略優(yōu)化” 的訓(xùn)練。
 
  為了弄清楚在這些目標(biāo)和競(jìng)賽的壓力面前,機(jī)器人會(huì)作出如何復(fù)雜的行動(dòng),我們不妨分析一下機(jī)器人的“摔角相撲”比賽吧。在這個(gè)比賽中,為了訓(xùn)練機(jī)器人行走,我們?cè)诒荣惽捌诮o機(jī)器人設(shè)置了豐厚的獎(jiǎng)勵(lì);增加了從這個(gè)圓形場(chǎng)地中心起的負(fù)L2距離,并且將其設(shè)置為機(jī)器人獲得的豐厚獎(jiǎng)勵(lì)。機(jī)器人一開始的時(shí)候可以使用這些獎(jiǎng)勵(lì)在比賽場(chǎng)地內(nèi)作出一些動(dòng)作和反應(yīng),但是我們會(huì)在訓(xùn)練中把獎(jiǎng)勵(lì)悄悄地清零。這樣一來,在接下來的訓(xùn)練迭代中,機(jī)器人才會(huì)為了得到更多的獎(jiǎng)勵(lì),自覺地對(duì)自己的動(dòng)作和技能進(jìn)行優(yōu)化。
OpenAI怎么用自我對(duì)局訓(xùn)練AI機(jī)器人變身摔角王?
  設(shè)計(jì)出有助于這些技能訓(xùn)練的任務(wù)和環(huán)境并非不可能,但這不僅需要研究員耗費(fèi)大量的精力,還需要他們具備獨(dú)到的創(chuàng)意。此外,機(jī)器人的行為也可能會(huì)因?yàn)槿祟愒O(shè)計(jì)師在設(shè)計(jì)中出現(xiàn)的問題而變得更復(fù)雜。通過成千上萬次的迭代優(yōu)化,我們能夠開發(fā)出更好的機(jī)器人,進(jìn)而可以創(chuàng)造出功能強(qiáng)大的AI系統(tǒng),該系統(tǒng)能夠自我引導(dǎo),并完成性能自我優(yōu)化。在Dota2項(xiàng)目中我們也能發(fā)現(xiàn)類似的自我優(yōu)化現(xiàn)象。在Dota2項(xiàng)目中,“自我對(duì)局”訓(xùn)練讓我們成功創(chuàng)造出了一個(gè)能夠在電子競(jìng)技的solo版本中擊敗頂級(jí)人類玩家的強(qiáng)化學(xué)習(xí)機(jī)器人。
 
  遷移學(xué)習(xí)
 
  這些機(jī)器人還能進(jìn)行“遷移學(xué)習(xí)”,它們能夠把在一場(chǎng)景學(xué)習(xí)到的技能運(yùn)用于另一個(gè)從未接觸過的場(chǎng)景。在一個(gè)案例中,我們給那些經(jīng)過了“摔角相撲”訓(xùn)練的機(jī)器人設(shè)置了一個(gè)任務(wù),讓它們?cè)趶?qiáng)風(fēng)中始終保持站立。結(jié)果是,那些無視這個(gè)強(qiáng)風(fēng)環(huán)境的機(jī)器人能夠始終保持直立,而接受過傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人在嘗試行走時(shí)則會(huì)立刻摔倒。
 
  過擬合
 
  我們的機(jī)器人會(huì)與“co-learning策略”發(fā)生過擬合,該策略是針對(duì)某些特定的對(duì)手而設(shè)計(jì)的,但是在面對(duì)新的對(duì)手時(shí),這個(gè)策略就會(huì)失效。針對(duì)這一問題,我們的解決方案是——讓機(jī)器人與多個(gè)不同的對(duì)手進(jìn)行“較量”。這些對(duì)手來自于一系列的策略,其中有同步訓(xùn)練或早期訓(xùn)練的策略。面對(duì)這些各式各樣、風(fēng)格不一的對(duì)手,機(jī)器人就必須學(xué)習(xí)更多通用的策略和技術(shù),這樣才能“來者不懼”。
 
 
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行