熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人 ABB 機(jī)器人產(chǎn)業(yè)聯(lián)盟發(fā)那科機(jī)械手碼垛機(jī)器人庫卡

Facebook田淵棟：德州撲克上戰(zhàn)勝人類的AI究竟用的是什么算法？

日期：2021-10-13 來源：雷鋒網(wǎng) 作者：田淵棟評(píng)論：0

標(biāo)簽：

最近聽說我的母?？突仿〈髮W(xué)德州撲克的AI Libratus以很大的優(yōu)勢(shì)贏得了與職業(yè)玩家的比賽，非常興奮。在同時(shí)期，還有一篇來自加拿大阿爾伯塔大學(xué)（Univ of Alberta）的文章介紹了DeepStack，同樣在3000局的比賽中擊敗了幾位職業(yè)玩家。這樣在非對(duì)稱信息游戲上人類再一次輸給了AI。

當(dāng)然有AlphaGo的先例，這個(gè)對(duì)廣大吃瓜群眾的沖擊可能沒有那么大。但我個(gè)人覺得非對(duì)稱信息博弈的實(shí)用價(jià)值更大些。因?yàn)榉菍?duì)稱信息博弈的應(yīng)用范圍非常廣泛，涵括我們每天遇到的所有決策，上至國家戰(zhàn)略，下至日常瑣事，全都可以以同樣的方法建模。

非對(duì)稱信息博弈難在哪里？

一方面是因?yàn)閷?duì)于同樣的客觀狀態(tài)，各個(gè)玩家看到的信息不同，因此增加了每個(gè)玩家狀態(tài)空間的數(shù)目和決策的難度；

另一方面即使在同樣的狀態(tài)數(shù)下，解非對(duì)稱信息游戲所需要的內(nèi)存也要比解對(duì)稱信息要多得多，這個(gè)主要是對(duì)于對(duì)稱信息博弈來說，只要記得當(dāng)前局面并且向下推演找到比較好的策略就可以了；但對(duì)非對(duì)稱信息博弈，只記得當(dāng)前（不完整的）局面是不夠的，即使盤面上的情況相同，但對(duì)手之前的各種招法會(huì)導(dǎo)致事實(shí)上局面不同，只有把它們?nèi)剂_列出來進(jìn)行分析，才能保證想出的應(yīng)對(duì)策略不被別人利用。

比如說玩石頭剪刀布，在看不到別人出招的時(shí)候輪到自己出招，如果別人一直用石頭剪刀布各1/3的混合策略，那自己就會(huì)發(fā)現(xiàn)好像怎么出招收益都是0，于是每次都出石頭，但是這樣的話，對(duì)手就可以利用這個(gè)策略的弱點(diǎn)提高自己的收益。所以一個(gè)好的算法就要求，基于別人已有策略得到的新策略盡可能地少被別人利用(low exploitability)。

這次的游戲是Head-up unlimited Texas Hold'em，直譯過來是兩人無限注德州撲克。所謂兩人就是一對(duì)一的零和游戲，不是多人游戲。所謂無限注，就是在加籌碼的時(shí)候可以任意加（比如著名的把全部籌碼都押上的All in），而限注（limited），是指在加籌碼的時(shí)候只能加一個(gè)固定的數(shù)字（通常是前兩輪和大盲注一樣，后兩輪是大盲注兩倍）。

兩人有限注德州撲克（HULHE）因?yàn)橥婕业倪x擇比較少可以暴力計(jì)算，已經(jīng)在2015年被Univ of Alberta解決，得到的策略離納什均衡點(diǎn)非常近了（見這篇文章，發(fā)上了Science，AI叫Cepheus，用的方法是CFR+）。

這次CMU和Alberta用的方法，也和之前的類似，都是Counterfactual regret minimization (CFR)的變種。這次的主要貢獻(xiàn)在于：

DeepStack用上了Continuous Resolving，即動(dòng)態(tài)地解子游戲以避開存儲(chǔ)海量策略時(shí)內(nèi)存不足的問題，還有值網(wǎng)絡(luò)；

CMU用了endgame solving以細(xì)化狀態(tài)空間和策略空間，當(dāng)然他們的文章似乎還沒有公布，細(xì)節(jié)還不明朗（比如說剪枝應(yīng)該是用上的）。

CFR的思路非常簡(jiǎn)單，從隨機(jī)策略開始，每次優(yōu)化一個(gè)玩家的策略以提高其收益并反復(fù)迭代，最后取平均策略作為最終策略。每次優(yōu)化用的是悔恨值最小化（Regret minimization）的辦法，所謂悔恨值就是事后最優(yōu)選擇的收益，減去當(dāng)時(shí)選擇的收益，悔恨值最小化就是把到目前為止的累計(jì)悔恨值拿過來，看哪一步累計(jì)悔恨值高，以后就多走這一步，至于多走的概率，有各種算法（比如說Regret Matching和Hedge）。

對(duì)于兩人零和游戲，可以證明CFR會(huì)收斂到納什均衡點(diǎn)，也就是“反正我就這么一招，你怎么也破不了”這樣的終極招數(shù)。所以計(jì)算機(jī)現(xiàn)在使用的算法，最終目的并不是要利用對(duì)方弱點(diǎn)獲得勝利，而是找出神功以達(dá)到無人可敵的境界。當(dāng)然要達(dá)到這個(gè)境界，訓(xùn)練過程中仍然是不斷找對(duì)方弱點(diǎn)讓自己變強(qiáng)。

CFR是個(gè)帶有理論界的通用算法，說它可以解決一切的非對(duì)稱信息博弈問題也不為過。但是世界上自然沒有免費(fèi)午餐，在跑CFR的時(shí)候，每次都要遍歷一次游戲所有可能的狀態(tài)，而任何一個(gè)稍微復(fù)雜點(diǎn)的游戲都有指數(shù)級(jí)的狀態(tài)，所以運(yùn)行時(shí)間上肯定是不能接受的。

這就有很多折中辦法，比如說狀態(tài)量化（認(rèn)為2到9都是小牌用同一個(gè)策略處理），剪枝（對(duì)方不太可能走這一步，那就不用再搜索下去了），隨機(jī)采樣（采樣一些路徑以代替全部的游戲分支），函數(shù)擬合（比如說用值網(wǎng)絡(luò)來代替深層搜索），等等。

總的來說，CFR和幾年前的RL很像，都是傳統(tǒng)AI的帶理論界的老方法，都是在現(xiàn)實(shí)問題中有指數(shù)復(fù)雜度，都是現(xiàn)在漸漸開始深度學(xué)習(xí)化，所以我相信以后會(huì)有更廣闊的發(fā)展。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問或質(zhì)疑，請(qǐng)立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評(píng)論

推薦圖文

機(jī)器人賦能產(chǎn)業(yè)，智贏	機(jī)器人也會(huì)創(chuàng)造英國
2018年中國智慧機(jī)場(chǎng)行	智能工廠全面解讀！
艾貓?jiān)缃虣C(jī)器人亮相20	360智能硬件助力美國

推薦資訊

點(diǎn)擊排行

?

• RPA自動(dòng)聊天機(jī)器人-一鍵操作-交換手機(jī)/微信號(hào)	• LG-GJQS2A型工業(yè)機(jī)器人與智能視覺系統(tǒng)應(yīng)用實(shí)訓(xùn)
• 在“未來工廠”，老師傅變身“新工人”	• 以5G機(jī)器人為載體打造光伏行業(yè)智慧產(chǎn)線物流
• 智能機(jī)器人未來應(yīng)如何發(fā)展？除了爬樓梯翻障礙，	• 川崎推出新款機(jī)械臂RS007N/L，其生產(chǎn)效率可提高
• 工業(yè)制造大換血：機(jī)器比人更會(huì)制造	• 三一國際（0631.HK）：機(jī)器人業(yè)務(wù)科博會(huì)首秀完
• 造型邪惡！美國“戰(zhàn)斗機(jī)器狗”首次亮相，背上馱	• 美團(tuán)無人配送車出事故，其背后路權(quán)問題，安全問

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	北大機(jī)器人	金屬加工在線	AI中國網(wǎng)	埃森焊接展	機(jī)氣林
工博會(huì)	趕考網(wǎng)	中國機(jī)床網(wǎng)	ITES深圳工業(yè)展	電氣自動(dòng)化網(wǎng)	高壓電氣網(wǎng)	人工智能機(jī)器人
亞洲工業(yè)網(wǎng)	二手設(shè)備網(wǎng)	中國（南京）國際應(yīng)急產(chǎn)業(yè)博覽會(huì)	庫卡機(jī)器人	2022SSE職業(yè)技術(shù)教育現(xiàn)代化博覽會(huì)	海南教育裝備展覽會(huì)	VLAI未來四足機(jī)器人官網(wǎng)
中國傳動(dòng)網(wǎng)	華北機(jī)床網(wǎng)	數(shù)控機(jī)床市場(chǎng)網(wǎng)	國家標(biāo)準(zhǔn)化委員會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

Facebook田淵棟：德州撲克上戰(zhàn)勝人類的AI究竟用的是什么算法？

Facebook田淵棟：德州撲克上戰(zhàn)勝人類的AI究竟用的是什么算法？