下棋、玩游戲,在與人類的博弈中,人工智能(AI)正在不斷成長(zhǎng)。近日,英國(guó)DeepMind公司的AI智能體DeepNash,就在西洋陸軍棋(Stratego)中達(dá)到了專業(yè)級(jí)人類玩家的水平。該成果12月1日發(fā)表于《科學(xué)》。

事實(shí)上,在DeepNash攻克Stratego前,就有報(bào)道稱AI能夠玩“強(qiáng)權(quán)外交”這款類似的經(jīng)典桌游。這是一款具有外交深度的游戲,玩家間存在合作與競(jìng)爭(zhēng)關(guān)系,必要時(shí)須通過(guò)談判結(jié)交盟友。
“近年來(lái),AI掌握本質(zhì)不同的游戲的速度相當(dāng)驚人。”美國(guó)密歇根大學(xué)計(jì)算機(jī)科學(xué)家Michael Wellman表示,Stratego和“強(qiáng)權(quán)外交”這兩款游戲大不相同,但它們都極具挑戰(zhàn)性,與此前AI已經(jīng)掌握的游戲也截然不同。

Stratego是一款需在信息缺失情況下進(jìn)行戰(zhàn)略思考的棋盤游戲,類似于中國(guó)的軍棋。它要比此前AI掌握的國(guó)際象棋、圍棋或撲克復(fù)雜得多。
在游戲中,雙方各有40枚棋子,且彼此看不到棋子的真實(shí)“身份”。雙方輪流移動(dòng)棋子,來(lái)消滅對(duì)手的棋子,最終奪得對(duì)方軍旗或消滅所有能動(dòng)的棋子的一方獲勝。因此,玩家需要進(jìn)行戰(zhàn)略部署、收集信息,并與對(duì)方博弈。
一局Stratego游戲中會(huì)有10535種可能的布局。相比之下,圍棋的布局有10360種可能。此外,在Stratego中,AI需要推理對(duì)手超過(guò)1066種部署策略,這使德州撲克中初始的106種可能情況相形見(jiàn)絀。
“Stratego中可能出現(xiàn)的結(jié)果數(shù)量之多及其復(fù)雜性,意味著在信息完全的游戲中表現(xiàn)出色的算法,甚至在撲克游戲中表現(xiàn)良好的算法,在這款游戲中都不起作用。”DeepMind研究員Julien Perolat說(shuō)。
所以Perolat和同事開(kāi)發(fā)了DeepNash,該命名致敬了提出納什均衡的美國(guó)數(shù)學(xué)家約翰·納什。
納什均衡是博弈論中一種解的概念,指滿足以下條件的策略組合:任何一位玩家在此策略組合下單方面改變自己的策略(其他玩家策略不變),都不會(huì)提高自身的收益。
DeepNash將強(qiáng)化學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,以找到納什均衡。強(qiáng)化學(xué)習(xí)包括為游戲的每個(gè)狀態(tài)找到最佳策略。為了學(xué)習(xí)最佳策略,DeepNash已經(jīng)與自己進(jìn)行了55億次博弈。
今年4月,DeepNash在網(wǎng)絡(luò)游戲平臺(tái)Gravon上與人類Stratego玩家進(jìn)行了兩周的比賽。在50場(chǎng)比賽后,DeepNash目前在所有Gravon Stratego玩家中排名第三。
“我們的研究表明,像Stratego這樣復(fù)雜的涉及不完善信息的游戲,不需要通過(guò)搜索技術(shù)來(lái)解決。”團(tuán)隊(duì)成員、DeepMind研究員Karl Tuyls表示,“這是AI邁出的一大步。”
而曾于2019年報(bào)告了玩撲克的AI——Pluribus的meta AI研究員Noam Brown團(tuán)隊(duì),則將目光投向了一個(gè)不同的挑戰(zhàn):建立一個(gè)可以玩“強(qiáng)權(quán)外交”的AI。
“強(qiáng)權(quán)外交”是一個(gè)最多可由7位玩家參與的游戲,每位玩家代表第一次世界大戰(zhàn)前歐洲的主要力量,游戲目標(biāo)是通過(guò)移動(dòng)部隊(duì)控制供應(yīng)中心。重要的是,該游戲需要玩家間進(jìn)行私人交流和合作,而不是像圍棋或Stratego那樣進(jìn)行雙人博弈。
“當(dāng)進(jìn)行超過(guò)兩人的零和博弈時(shí),納什均衡思想對(duì)游戲就不再有用了。”Brown說(shuō),他們成功訓(xùn)練出了AI——Cicero。在11月22日發(fā)表于《科學(xué)》的論文中,該團(tuán)隊(duì)報(bào)告稱,在40場(chǎng)游戲中,“Cicero的平均得分是人類玩家的兩倍多,在玩過(guò)一場(chǎng)以上游戲的參與者中排名前10%”。
Brown認(rèn)為,可以與人類互動(dòng)并解釋次優(yōu)甚至非理性人類行為的游戲AI,可以為其在現(xiàn)實(shí)世界的應(yīng)用鋪平道路。(徐銳)
相關(guān)論文信息:
https://doi.org/10.1126/science.add4679