熱搜： 佳士科技 irobot 工業(yè)機(jī)器人機(jī)器人 ABB 機(jī)器人產(chǎn)業(yè)聯(lián)盟發(fā)那科機(jī)械手機(jī)器人展覽碼垛機(jī)器人

DeepMind AI在復(fù)雜游戲西洋陸軍棋中挺進(jìn)專家級

日期：2022-12-07 來源：cnBeta 評論：0

　　另一個長期以來被認(rèn)為是人工智能（AI）極難掌握的游戲又已經(jīng)落入機(jī)器之手。總部位于倫敦的DeepMind公司制造的一種名為DeepNash的人工智能在戰(zhàn)略游戲《西洋陸軍棋》（Stratego）方面與人類專家不相上下，這種棋盤游戲需要在不完美的信息面前進(jìn)行長期的戰(zhàn)略思考。

　　12月1日的《科學(xué)》雜志描述了這一成就，緊接著一項研究報告稱人工智能可以玩《強(qiáng)權(quán)外交》，其中玩家必須在合作和競爭中進(jìn)行談判。

　　研究戰(zhàn)略推理和游戲理論的計算機(jī)科學(xué)家邁克爾-韋爾曼（Michael Wellman）說："近年來，人工智能在質(zhì)量上不同的游戲特征被征服--或掌握到新的水平--的速度相當(dāng)驚人?！段餮箨戃娖濉泛汀稄?qiáng)權(quán)外交》彼此之間有很大的不同，而且還擁有與已經(jīng)達(dá)到類似里程碑的游戲明顯不同的挑戰(zhàn)性特征。"

　　《西洋陸軍棋》的特點(diǎn)使其比國際象棋、圍棋或撲克復(fù)雜得多，所有這些游戲都已被人工智能所掌握。在戰(zhàn)略游戲中，兩名玩家在棋盤上各放40個棋子，但不能看到對手的棋子是什么。目標(biāo)是輪流移動棋子以消除對手的棋子并奪取旗幟。戰(zhàn)略游戲的游戲樹--所有可能的游戲方式的圖形--有10535個狀態(tài)，而圍棋是10360個。游戲開始時，Stratego就有1066個可能的走法，這使雙人德州撲克中的106個這樣的開始情況相形見絀。

　　位于巴黎的DeepMind研究員朱利安-佩羅拉（Julien Perolat）說："Stratego中可能出現(xiàn)的結(jié)果數(shù)量之復(fù)雜，意味著在完全信息游戲上表現(xiàn)良好的算法，甚至那些對撲克有用的算法都不起作用。"

　　自學(xué)成才的人工智能在戰(zhàn)略游戲圍棋方面表現(xiàn)最好

　　因此，佩羅拉特和同事們開發(fā)了DeepNash。這個人工智能的名字是對美國數(shù)學(xué)家約翰-納什(John Nash)的致敬，他的工作導(dǎo)致了納什均衡這一術(shù)語的出現(xiàn)，這是一組穩(wěn)定的策略，所有的游戲參與者都可以遵循，這樣就沒有玩家通過改變自己的策略而獲益。游戲可以有零個、一個或多個納什均衡。

　　DeepNash將強(qiáng)化學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，以找到納什均衡。強(qiáng)化學(xué)習(xí)涉及尋找最佳政策，以決定游戲的每個狀態(tài)的行動。為了學(xué)習(xí)一個最佳政策，DeepNash與自己進(jìn)行了55億次游戲。如果一方獲得獎勵，另一方就會受到懲罰，而神經(jīng)網(wǎng)絡(luò)的參數(shù)--代表政策--也會相應(yīng)地進(jìn)行調(diào)整。最終，DeepNash收斂于一個近似的納什均衡狀態(tài)。與AlphaGo等之前的游戲AI不同，DeepNash不會通過游戲樹搜索來優(yōu)化自己。

　　在4月份的兩個星期里，DeepNash在網(wǎng)絡(luò)游戲平臺Gravon上與人類戰(zhàn)略家進(jìn)行了競爭。在50場比賽之后，DeepNash在2002年以來所有Gravon戰(zhàn)略游戲玩家中排名第三。"我們的工作表明，像Stratego這樣復(fù)雜的游戲，涉及不完美的信息，不需要搜索技術(shù)來解決，"團(tuán)隊成員、駐巴黎的DeepMind研究員卡爾-圖伊斯說。"這真是人工智能的一大進(jìn)步。"

　　"結(jié)果令人印象深刻，"總部位于紐約的meta AI的研究員諾姆-布朗同意，他領(lǐng)導(dǎo)的團(tuán)隊在2019年報告了玩起了基于撲克的AI Pluribus4。

　　《強(qiáng)權(quán)外交》游戲的表現(xiàn)

　　布朗和他在meta AI的同事將目光投向了一個不同的挑戰(zhàn)：建立一個能玩外交的人工智能，這是一個最多有七個玩家的游戲，每個玩家代表一戰(zhàn)前歐洲的一個大國。目標(biāo)是通過移動單位（艦隊和軍隊）獲得對供應(yīng)中心的控制。重要的是，該游戲需要玩家之間的私下交流和積極合作，與圍棋或戰(zhàn)略游戲等雙人游戲不同。

　　"當(dāng)你超越雙人零和游戲時，納什均衡的概念對于與人類打好關(guān)系不再那么有用，"布朗說。

　　因此，該團(tuán)隊根據(jù)涉及人類玩家的在線版《強(qiáng)權(quán)外交》游戲的125261場數(shù)據(jù)訓(xùn)練其人工智能--名為Cicero。結(jié)合這些數(shù)據(jù)和一些自我游戲數(shù)據(jù)，Cicero的戰(zhàn)略推理模塊（SRM）學(xué)會了預(yù)測，對于給定的游戲狀態(tài)和累積的信息，其他玩家的可能政策。利用這種預(yù)測，SRM選擇了一個最佳的行動，并向Cicero的對話模塊發(fā)出了它的"意圖"。

　　對話模塊建立在一個27億個參數(shù)的語言模型上，該模型在互聯(lián)網(wǎng)的文本上進(jìn)行了預(yù)訓(xùn)練，然后利用人們玩的外交游戲的信息進(jìn)行微調(diào)?？紤]到來自SRM的意圖，該模塊產(chǎn)生了一個對話信息（例如，代表英國的西塞羅可能會問法國。"你想支持我加入比利時一方嗎？"）。

　　在11月22日的《科學(xué)》論文中，該團(tuán)隊報告說，在40場在線游戲中，"Cicero AI取得了比人類玩家的平均分?jǐn)?shù)高一倍以上的成績，并在參加過多場游戲的參與者中排名前10%"。

　　真實世界的行為

　　布朗認(rèn)為，能夠與人類互動并對人類的次優(yōu)甚至非理性行為進(jìn)行解釋的玩游戲的人工智能可以為現(xiàn)實世界的應(yīng)用鋪平道路。他說："如果你正在制造一輛自動駕駛汽車，你不想假設(shè)道路上的所有其他司機(jī)都是完全理性的，并且會表現(xiàn)得很好。Cicero是朝著這個方向邁出的一大步。我們?nèi)匀挥幸恢荒_在游戲世界里，但現(xiàn)在我們也有一只腳在現(xiàn)實世界里。"

　　威爾曼同意這一看法，但他說還需要更多的工作。他說："這些技術(shù)中的許多確實與娛樂游戲之外的現(xiàn)實世界應(yīng)用有關(guān)，盡管如此，在某些時候，領(lǐng)先的人工智能研究實驗室需要超越娛樂環(huán)境，并找出如何衡量我們真正關(guān)心的更小的現(xiàn)實世界'游戲'的科學(xué)進(jìn)展。"

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對其真實性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑，請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

• 幫助“厭學(xué)兒童”，東京推元宇宙平臺	• Adobe Stock圖庫將允許AI生成的圖片出現(xiàn)在其服
• 2023年元宇宙領(lǐng)域四大趨勢	• Adobe方面宣布，AI生成圖片可在AdobeStock銷售
• 借力AI等科技多家公司切入“智慧教育”賽道	• 人工智能再次戰(zhàn)勝人類玩家
• AI生成裸照誰之過？真相恐怕和你想的不一樣	• 市場仍低迷！預(yù)計2022年全球智能手機(jī)出貨量下降
• 馬斯克的聊天機(jī)器人，能否干翻谷歌？	• 2023年元宇宙領(lǐng)域四大趨勢

恰佩克獎	機(jī)器人高峰論壇	北大機(jī)器人	金屬加工在線	AI中國網(wǎng)	機(jī)氣林	工博會
趕考網(wǎng)	中國機(jī)床網(wǎng)	ITES深圳工業(yè)展	電氣自動化網(wǎng)	高壓電氣網(wǎng)	人工智能機(jī)器人	亞洲工業(yè)網(wǎng)
二手設(shè)備網(wǎng)	工博士	上海機(jī)器人產(chǎn)業(yè)技術(shù)研究院	庫卡機(jī)器人	中國傳動網(wǎng)	索比光伏網(wǎng)	數(shù)控機(jī)床市場網(wǎng)
國家標(biāo)準(zhǔn)化委員會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

DeepMind AI在復(fù)雜游戲西洋陸軍棋中挺進(jìn)專家級