国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫(kù)卡  碼垛機(jī)器人  機(jī)械手 

最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀

   日期:2017-10-20     來(lái)源:量子位    作者:dc136     評(píng)論:0    
   昨天AlphaGo再次震驚所有人。
 
  剛剛,這個(gè)史上最強(qiáng)圍棋AI的兩位主要開(kāi)發(fā)者,David Silver和Julian Schrittwieser,做客知名網(wǎng)站reddit,展開(kāi)一場(chǎng)超級(jí)問(wèn)答AMA(Ask Me Anything)。
 
  他們是誰(shuí)?
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  △ 左:Julian Schrittwieser 右:David Silver
 
  比較關(guān)注AlphaGo的朋友對(duì)其中一位應(yīng)該不會(huì)陌生,David Silver是AlphaGo團(tuán)隊(duì)負(fù)責(zé)人,也是上一代AlphaGo的主要作者。從首爾到烏鎮(zhèn),都有他的身影。關(guān)于David Silver我們?cè)谥皥?bào)道黃士杰的文章里也有提及。
 
  名字更長(zhǎng)的Julian Schrittwieser,是這次新一代AlphaGo的三位并列主要作者之一,而且非常年輕。2013年,Schrittwieser本科畢業(yè)于奧地利的維也納技術(shù)大學(xué);同年9月,Schrittwieser加入DeepMind。
 
  此前DeepMind關(guān)于AlphaGo和星際2的研究論文中,Schrittwieser也都有參與。
 
  OK,背景交代到這里。
 
  干貨時(shí)間開(kāi)始。
 
 
  最強(qiáng)AlphaGo是怎么煉成的
 
  提問(wèn):深度強(qiáng)化學(xué)習(xí)本來(lái)就是出了名的不穩(wěn)、容易遺忘,請(qǐng)問(wèn)你們是如何讓Zero的訓(xùn)練如此穩(wěn)定的?
 
  下圖顯示了在自我對(duì)弈強(qiáng)化學(xué)習(xí)期間,AlphaGo Zero的表現(xiàn)。整個(gè)訓(xùn)練過(guò)程中,沒(méi)有出現(xiàn)震蕩或者災(zāi)難性遺忘的困擾。
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  △ 引自AlphaGo Zero論文
 
  David Silver:AlphaGo Zero所用的算法,與策略梯度、Q-learning之類(lèi)的傳統(tǒng)(無(wú)模型)算法完全不同。通過(guò)使用AlphaGo搜索,我們大大改進(jìn)了策略和自我對(duì)弈結(jié)果,然后用簡(jiǎn)單的基于梯度的更新來(lái)訓(xùn)練下一個(gè)策略和價(jià)值網(wǎng)絡(luò)。
 
  這似乎比漸進(jìn)的、基于梯度的策略改進(jìn)要穩(wěn)定得多,梯度策略可能會(huì)忘記之前的優(yōu)化。
 
  提問(wèn):為什么這次AlphaGo Zero就訓(xùn)練了40天?訓(xùn)練3個(gè)月會(huì)怎么樣?
 
  David Silver:我想這是一個(gè)人力和資源優(yōu)先級(jí)的問(wèn)題。如果我們訓(xùn)練了3個(gè)月,我想你還會(huì)好奇訓(xùn)練6個(gè)月會(huì)發(fā)生什么 :)
 
  提問(wèn):看完論文我有個(gè)疑問(wèn),輸入維度那么高好像完全沒(méi)必要,AlphaGo的residual block輸入維度為什么是19×19×17?我不太理解為什么每個(gè)玩家要用8個(gè)二值特征plane。
 
  David Silver:實(shí)際上,不是只有8 planes這一種選擇,用其他形式的表示可能也沒(méi)問(wèn)題,但我們用了觀察值的堆疊歷史,有三個(gè)原因:
 
  這和其他領(lǐng)域,比如說(shuō)玩雅達(dá)利游戲時(shí)的常見(jiàn)輸入表示一致;
 
  我們需要一些歷史記錄來(lái)呈現(xiàn)ko;
 
  歷史可以用來(lái)記錄對(duì)手最近在哪落過(guò)子,這些信息可以當(dāng)作一種注意力機(jī)制來(lái)用,比如說(shuō)集中在對(duì)手認(rèn)為重要的位置上,第17個(gè)plane記錄的是我自己在用什么顏色,因?yàn)橛匈N目規(guī)則,這個(gè)信息也很重要。
 
  提問(wèn):你們發(fā)了AlphaGo論文之后,網(wǎng)友們說(shuō)里邊的算法實(shí)現(xiàn)起來(lái)不難,但很難達(dá)到你們那個(gè)訓(xùn)練量;在計(jì)算機(jī)下象棋的圈子里,開(kāi)發(fā)者們也沒(méi)少?gòu)?fù)制其他程序的算法。你認(rèn)為算法和數(shù)據(jù)哪個(gè)更重要?
 
  Julian Schrittwieser:我認(rèn)為還是算法更重要,比較一下新AlphaGo Zero和之前論文中的版本,新版效率有多高就知道了。另外,我認(rèn)為我們?cè)跀?shù)據(jù)效率方面還能有更多提升。
 
  提問(wèn):據(jù)說(shuō)和柯潔對(duì)戰(zhàn)的AlphaGo,計(jì)算力的消耗只有對(duì)戰(zhàn)李世乭版本的十分之一。這中間做了怎樣的優(yōu)化,能簡(jiǎn)單說(shuō)是AlphaGo的算法比之前提高了10倍嗎?
 
 ?。孔游蛔ⅲ汉涂聺崒?duì)戰(zhàn)的AlphaGo Master,用了和Zero版一樣的算法和架構(gòu),不同之處在于引入了人類(lèi)對(duì)局?jǐn)?shù)據(jù)和特征。)
 
  Julian Schrittwieser:主要是因?yàn)楦倪M(jìn)了價(jià)值/策略網(wǎng)絡(luò),訓(xùn)練和架構(gòu)都變得更好了,不同的網(wǎng)絡(luò)架構(gòu)之間有所對(duì)比。
 
  提問(wèn):你們?yōu)槭裁匆婚_(kāi)始選擇用人類(lèi)對(duì)局?jǐn)?shù)據(jù)來(lái)訓(xùn)練AlphaGo,而不是通過(guò)自我對(duì)弈來(lái)從0開(kāi)始?還是當(dāng)時(shí)也嘗試了但效果不好呢?為什么會(huì)這樣?我想知道,兩年前設(shè)計(jì)一個(gè)完全自學(xué)的AlphaGo瓶頸在哪?
 
  David Silver:創(chuàng)造一個(gè)完全自學(xué)成才的系統(tǒng),一直是強(qiáng)化學(xué)習(xí)中的一個(gè)開(kāi)放式問(wèn)題。我們一開(kāi)始嘗試的方法,以及在文獻(xiàn)綜述部分提到的很多其他方法,都非常不穩(wěn)定。我們做了很多實(shí)驗(yàn),最終發(fā)現(xiàn),AlphaGo Zero的算法是最有效率的,好像攻克了這個(gè)特定的問(wèn)題。
 
  提問(wèn):為什么在剛開(kāi)始訓(xùn)練的時(shí)候也要每局下1600步?這時(shí)候應(yīng)該都是隨機(jī)的噪聲吧……先快速下很多盤(pán)隨機(jī)局,然后在網(wǎng)絡(luò)訓(xùn)練得更好的時(shí)候,再進(jìn)行更深的搜索不是更好嗎?
 
  Julian Schrittwieser:一開(kāi)始少下幾步可能也行,但在整個(gè)試驗(yàn)中保持統(tǒng)一是一種比較簡(jiǎn)明的做法。
 
  提問(wèn):在輸入特征上,用delta featurization可行嗎?
 
  Julian Schrittwieser:神經(jīng)網(wǎng)絡(luò)實(shí)在是很擅長(zhǎng)用不同方式來(lái)表示同樣的信息,所以,是的,我認(rèn)為用delta featurization應(yīng)該也行。
 
  提問(wèn):你們有沒(méi)有想過(guò)用生成對(duì)抗網(wǎng)絡(luò)(GAN)?
 
  David Silver:在某種意義上,AlphaGo的自我對(duì)弈訓(xùn)練已經(jīng)有了對(duì)抗:每次迭代都試圖找到上一代版本的“反策略”。
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  △ 左:Julian Schrittwieser 右:David Silver
 
  為何成功者不是Facebook
 
  提問(wèn):我聽(tīng)說(shuō)在AlphaGo開(kāi)發(fā)初期,你們?cè)谟?xùn)練中人為向特定方向引導(dǎo),來(lái)解決它在棋局中表現(xiàn)出來(lái)的弱點(diǎn)?,F(xiàn)在它的能力已經(jīng)超越人類(lèi)認(rèn)知了,會(huì)不會(huì)還需要人工調(diào)整,避免它落入局部最大化?你們有這個(gè)打算嗎?
 
  David Silver:實(shí)際上,我們從來(lái)沒(méi)有為特定的弱點(diǎn)而人為引導(dǎo)過(guò)AlphaGo,而是一直專(zhuān)注于原則化的機(jī)器學(xué)習(xí)算法,讓算法自己學(xué)會(huì)糾正自己的錯(cuò)誤。
 
  想找到圍棋的最優(yōu)解當(dāng)然是不現(xiàn)實(shí)的,所以,弱點(diǎn)總是存在。在實(shí)踐中,用正確的探索方法來(lái)保證訓(xùn)練沒(méi)有卡在局部最優(yōu)解中非常重要,但我們沒(méi)有用上人為的引導(dǎo)。
 
  提問(wèn):AlphaGo的研究中,最困難的是什么?
 
  David Silver:我們遇到的第一個(gè)大挑戰(zhàn),是在跟李世乭比賽的時(shí)候。當(dāng)時(shí)我們意識(shí)到,AlphaGo偶爾會(huì)產(chǎn)生“妄想”,也就是會(huì)系統(tǒng)地誤判盤(pán)面情況,并且持續(xù)數(shù)手。我們嘗試了很多想法來(lái)解決這個(gè)弱點(diǎn)。而引入更多圍棋知識(shí),或者人類(lèi)元知識(shí)一直是種誘惑。
 
  但最終我們?nèi)〉昧司薮蟮某晒?,徹底解決了AlphaGo的問(wèn)題。我們用的方法是,更多的依賴強(qiáng)化學(xué)習(xí)的力量,讓它自己找到更好的解決方案。
 
  提問(wèn):AlphaGo在行棋時(shí)間安排上是怎么考慮的?
 
  David Silver:我們實(shí)際上用了一個(gè)相當(dāng)直接的時(shí)間控制策略,基于自我博弈中勝率的簡(jiǎn)單優(yōu)化。當(dāng)然可以應(yīng)用更復(fù)雜的策略,性能也應(yīng)該可以再提升一點(diǎn)點(diǎn)。
 
  提問(wèn):NIPS論文Thinking Fast and Slow with Deep Learning and Tree Search也提出了和AlphaGo Zero類(lèi)似的方法。
 
  David Silver:這的確和AlphaGo的策略算法很相似,不過(guò)我們還有個(gè)價(jià)值模塊。以及要澄清一下,在AlphaGo Zero論文4月7日提交給Nature的時(shí)候,那篇NIPS論文還沒(méi)公開(kāi)。
 
  提問(wèn):DeepMind和Facebook研究這個(gè)問(wèn)題大概是在同一時(shí)間誒,是什么讓AlphaGo這么拿到了圍棋最高段位?
 
  David Silver:Facebook更專(zhuān)注于監(jiān)督學(xué)習(xí),這是當(dāng)時(shí)最厲害的項(xiàng)目之一。我們選擇更多地關(guān)注強(qiáng)化學(xué)習(xí),是因?yàn)橄嘈潘罱K會(huì)超越人類(lèi)的知識(shí)。最近的研究結(jié)果顯示,只用監(jiān)督學(xué)習(xí)的方法的表現(xiàn)力驚人,但強(qiáng)化學(xué)習(xí)絕對(duì)是超出人類(lèi)水平的關(guān)鍵。
 
  AlphaGo不開(kāi)源,星際2還早
 
  提問(wèn):你們有開(kāi)源AlphaGo的計(jì)劃嗎?
 
  David Silver:我們過(guò)去開(kāi)源了不少代碼,但是開(kāi)源這個(gè)過(guò)程總是很復(fù)雜。在AlphaGo這個(gè)問(wèn)題上,非常不好意思,它的代碼庫(kù)實(shí)在是過(guò)于復(fù)雜了。
 
  提問(wèn):烏鎮(zhèn)時(shí)說(shuō)過(guò)的圍棋工具什么時(shí)候發(fā)布?
 
  David Silver:這項(xiàng)工作一直在推進(jìn),敬請(qǐng)期待 :)
 
  提問(wèn):AlphaGo Zero還在訓(xùn)練么?未來(lái)還會(huì)有突破么?
 
  David Silver:AlphaGo已經(jīng)退役了!我們的人力和硬件資源,已經(jīng)動(dòng)身前往其他道阻且長(zhǎng)的AI項(xiàng)目上了。
 
  提問(wèn):AlphaGo Zero是最終版本的AlphaGo么?
 
  David Silver:我們已經(jīng)不再主動(dòng)研究如何讓AlphaGo變得更強(qiáng),但它仍然是所有DeepMind同仁的研究測(cè)試平臺(tái),用于嘗試新的想法和算法。
 
  提問(wèn):與圍棋相比,《星際2》有多難?AI打星際什時(shí)候能有新進(jìn)展?
 
  David Silver:前不久我們剛發(fā)布了《星際2》的環(huán)境,現(xiàn)在相關(guān)研究還在相當(dāng)早期的階段?!缎请H2》的行為空間顯然比圍棋大得多,需要監(jiān)控的數(shù)據(jù)量也更大。從技術(shù)上來(lái)講,圍棋是一個(gè)完美信息博弈,而戰(zhàn)爭(zhēng)迷霧讓星際變成不完美信息博弈。
 
  關(guān)于AI研究
 
  提問(wèn):AlphaGo在神經(jīng)網(wǎng)絡(luò)的可解釋性方面有什么進(jìn)展?
 
  David Silver:可解釋性對(duì)我們所有的系統(tǒng)來(lái)說(shuō)都是有趣的問(wèn)題,而不僅僅是AlphaGo。DeepMind內(nèi)部正努力研究詢問(wèn)系統(tǒng)的新方式。最近,他們的研究已經(jīng)發(fā)表出來(lái),主要是從認(rèn)知心理學(xué)出發(fā),來(lái)嘗試破譯神經(jīng)網(wǎng)絡(luò)內(nèi)部的情況。這項(xiàng)研究非常棒。
 
  提問(wèn):似乎使用或模擬強(qiáng)化學(xué)習(xí)智能體的長(zhǎng)期記憶是一個(gè)很大瓶頸。展望未來(lái),你是否相信我們即將以一種新的思維方式“解決”這個(gè)問(wèn)題?
 
  Julian Schrittwieser:你說(shuō)的沒(méi)錯(cuò),長(zhǎng)期記憶確實(shí)是個(gè)重要因素。例如,在星際爭(zhēng)霸的一場(chǎng)比賽中可能有上萬(wàn)個(gè)動(dòng)作,另外還得記住你偵察到的東西。
 
  我認(rèn)為目前已經(jīng)有了很一顆賽艇的組件,比如神經(jīng)圖靈機(jī),但在這個(gè)領(lǐng)域,我們還將看到一些更令人印象深刻的進(jìn)步。
 
  提問(wèn):有沒(méi)有強(qiáng)化學(xué)習(xí)(RL)用在金融領(lǐng)域的案例?
 
  David Silver:很難在公開(kāi)發(fā)表的論文中找到真實(shí)世界的金融算法!但是有一些經(jīng)典論文非常值得一讀,例如Nevmyvaka和Kearns在2006年發(fā)布的研究、Moody和Safell在2001發(fā)布的研究。
 
  提問(wèn):不讀研也能在人工智能領(lǐng)域大有作為嗎?
 
  Julian Schrittwieser:當(dāng)然可以,我也只有計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。這個(gè)領(lǐng)域發(fā)展很快,所以我認(rèn)為你可以從閱讀論文和運(yùn)行實(shí)驗(yàn)中學(xué)習(xí)很多東西。在已經(jīng)有過(guò)機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的公司實(shí)習(xí)是對(duì)你的成長(zhǎng)應(yīng)該很有幫助。
 
  提問(wèn):怎樣進(jìn)入AI行業(yè)?我覺(jué)得“讀個(gè)PhD然后找工作”好像是個(gè)挺明顯的途徑,但是最常見(jiàn)的路徑不見(jiàn)得就是最好的吧……
 
  Julian Schrittwieser:還有一種方法效果也不錯(cuò):挑一個(gè)有意思的問(wèn)題,訓(xùn)練很多神經(jīng)網(wǎng)絡(luò),探索它們的結(jié)構(gòu),然后你會(huì)發(fā)現(xiàn)一些效果很好的部分,去發(fā)表一篇論文,或者去參加會(huì)議展示你的成果。
 
  不斷地重復(fù)這個(gè)過(guò)程。
 
  這個(gè)圈子很好,會(huì)愿意給你反饋,你也可以通過(guò)arXiv了解最近的研究。
最強(qiáng)AlphaGo怎樣煉成?剛剛,DeepMind團(tuán)隊(duì)進(jìn)行了全面解讀
  關(guān)于圍棋
 
  提問(wèn):現(xiàn)在國(guó)際象棋程序能給選手評(píng)分:通過(guò)棋步的分析,來(lái)推算Elo等級(jí)分。AlphaGo能在圍棋上搞這個(gè)嗎?
 
  相關(guān)論文:https://www.cse.buffalo.edu/~regan/papers/pdf/ReHa11c.pdf
 
  Julian Schrittwieser:這個(gè)想法很酷啊,感謝分享這篇論文!
 
  我認(rèn)為在圍棋上也能做這樣的事情,可能會(huì)通過(guò)計(jì)算最佳下法和實(shí)際下法之間的價(jià)值差異來(lái)實(shí)現(xiàn),或者計(jì)算策略網(wǎng)絡(luò)下出實(shí)際下法的概率。等我有時(shí)間試試這個(gè)。
 
  提問(wèn):關(guān)于對(duì)局中的第一手棋,我想問(wèn),AlphaGo會(huì)有一些你從未見(jiàn)過(guò)的開(kāi)局嗎,比如10-10或5-3,或者走很奇怪的一步?如果沒(méi)有這種情況,那是出于“習(xí)慣”,還是有強(qiáng)烈的信念,3-3、3-4和4-4是優(yōu)越的?
 
  David Silver:在訓(xùn)練中,我們看到AlphaGo探索了各種不同的動(dòng)作——甚至在訓(xùn)練開(kāi)始時(shí)下出過(guò)1-1!即使在經(jīng)過(guò)一段訓(xùn)練后,Zero也嘗試過(guò)下6-4,但很快又回到了熟悉的3-4。
 
  Julian Schrittwieser:實(shí)際上,在剛開(kāi)始訓(xùn)練AlphaGo Zero時(shí),它完全是隨機(jī)的,例如在圖5的b部分中,你可以看到它實(shí)際上是在1-1點(diǎn)下出第一手!逐漸適應(yīng)網(wǎng)絡(luò)后,隨著它變得更強(qiáng)大,它開(kāi)始青睞4-4、3-4和3-3。
 
  提問(wèn):現(xiàn)在AlphaGo能讓頂級(jí)圍棋選手幾子?能讓柯潔兩子么?
 
  David Silver:我們還沒(méi)跟人類(lèi)選手下過(guò)讓子棋,我們想專(zhuān)注在整場(chǎng)的圍棋比賽中。然而,在讓子條件下測(cè)試不同版本的AlphaGo很有用。在Zero的論文中我們提到了各個(gè)版本的棋力:AlphaGo Master > AlphaGo Lee > AlphaGo Fan,每個(gè)版本都讓三子擊敗了它的前一代。
 
  值得注意的是,因?yàn)檫@些神經(jīng)網(wǎng)絡(luò)沒(méi)有專(zhuān)門(mén)為讓子棋訓(xùn)練過(guò)。此外,由于AlphaGo是自我對(duì)弈訓(xùn)練的,特別擅長(zhǎng)打敗自身較弱的版本。因此,我認(rèn)為我們不能以任何有意義的方式將這些結(jié)果推廣到人類(lèi)的讓子棋中。
 
  提問(wèn):AlphaGo Zero會(huì)處理征子之類(lèi)的問(wèn)題嗎?你們是怎樣解決這類(lèi)問(wèn)題的?
 
  David Silver:AlphaGo Zero并沒(méi)有特殊的特征來(lái)處理征子,或者任何其他圍棋中的特定問(wèn)題。在訓(xùn)練早期,Zero偶爾會(huì)因?yàn)檎髯酉聺M棋盤(pán),就算它對(duì)全局有很復(fù)雜的理解也沒(méi)用。但在我們分析的棋局中,經(jīng)過(guò)完全訓(xùn)練的Zero能正確識(shí)別所有無(wú)意義的征子。
 
  提問(wèn):已經(jīng)發(fā)布的少量AlphaGo自我對(duì)弈棋局中,白棋勝率太高。是不是貼目應(yīng)該降低?
 
  Julian Schrittwieser:從我的經(jīng)驗(yàn)和實(shí)驗(yàn)來(lái)看,貼7.5目非常平衡。我們只觀察到白棋的勝率略高一點(diǎn)(55%)。
 
  提問(wèn):你們認(rèn)為AlphaGo能解《發(fā)陽(yáng)論》第120題嗎?(傳說(shuō)中的“死活題最高杰作”)
 
  David Silver:我們剛才去問(wèn)了樊麾,他說(shuō)AlphaGo能解這個(gè)問(wèn)題,但更有意思的是,它會(huì)不會(huì)找到跟書(shū)里一樣的答案?還是能給出一個(gè)之前誰(shuí)也沒(méi)想到的解法?在AlphaGo的很多對(duì)局中,我們都看到了以人類(lèi)經(jīng)驗(yàn)無(wú)法想象的下法。
 
  提問(wèn):邁克·雷蒙(Michael Redmond,首位非東亞裔圍棋九段)認(rèn)為AlphaGo會(huì)下出人類(lèi)棋手不會(huì)有的惡手,而且學(xué)不會(huì)圍棋定式(深度程序知識(shí))。
 
  David Silver:我相信AlphaGo的“惡手”只有在影響全局勝利時(shí)才是問(wèn)題。如果結(jié)局仍然是穩(wěn)贏,真的是很差的一招么?
 
  AlphaGo已經(jīng)學(xué)會(huì)很多人類(lèi)的定式,也下出了自己的定式?,F(xiàn)在職業(yè)棋手有時(shí)就在使用AlphaGo的定式 :)
 
  提問(wèn):1846年,桑原秀策四段對(duì)弈幻庵因碩八段,其中著名的是第127手。AlphaGo怎么看這手棋?AlphaGo會(huì)怎么下?
 
  Julian Schrittwieser:我不是圍棋專(zhuān)家,但是我們問(wèn)了樊麾,他說(shuō):
 
  當(dāng)年比賽的時(shí)候,還沒(méi)有貼目這一說(shuō)?,F(xiàn)在,AlphaGo采用的都是貼7.5目的規(guī)則。貼目讓對(duì)弈過(guò)程完全改變。至于第127手,AlphaGo很有可能會(huì)選擇不同的下法。
 
  提問(wèn):還會(huì)再和職業(yè)棋手下棋嗎?
 
  Julian Schrittwieser:我們五月份說(shuō)過(guò),烏鎮(zhèn)那場(chǎng)就是AlphaGo的最后一次比賽了。
 
 
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行