国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  機(jī)械手  機(jī)器人展覽  碼垛機(jī)器人 

DeepMind AI在復(fù)雜游戲西洋陸軍棋中挺進(jìn)專家級

   日期:2022-12-07     來源:cnBeta     評論:0    
標(biāo)簽: AI 科技 創(chuàng)新
  另一個長期以來被認(rèn)為是人工智能(AI)極難掌握的游戲又已經(jīng)落入機(jī)器之手。總部位于倫敦的DeepMind公司制造的一種名為DeepNash的人工智能在戰(zhàn)略游戲《西洋陸軍棋》(Stratego)方面與人類專家不相上下,這種棋盤游戲需要在不完美的信息面前進(jìn)行長期的戰(zhàn)略思考。
 
  12月1日的《科學(xué)》雜志描述了這一成就,緊接著一項研究報告稱人工智能可以玩《強(qiáng)權(quán)外交》,其中玩家必須在合作和競爭中進(jìn)行談判。

微信圖片_20221207091839
 
  研究戰(zhàn)略推理和游戲理論的計算機(jī)科學(xué)家邁克爾-韋爾曼(Michael Wellman)說:"近年來,人工智能在質(zhì)量上不同的游戲特征被征服--或掌握到新的水平--的速度相當(dāng)驚人?!段餮箨戃娖濉泛汀稄?qiáng)權(quán)外交》彼此之間有很大的不同,而且還擁有與已經(jīng)達(dá)到類似里程碑的游戲明顯不同的挑戰(zhàn)性特征。"
 
  《西洋陸軍棋》的特點(diǎn)使其比國際象棋、圍棋或撲克復(fù)雜得多,所有這些游戲都已被人工智能所掌握。在戰(zhàn)略游戲中,兩名玩家在棋盤上各放40個棋子,但不能看到對手的棋子是什么。目標(biāo)是輪流移動棋子以消除對手的棋子并奪取旗幟。戰(zhàn)略游戲的游戲樹--所有可能的游戲方式的圖形--有10535個狀態(tài),而圍棋是10360個。游戲開始時,Stratego就有1066個可能的走法,這使雙人德州撲克中的106個這樣的開始情況相形見絀。
 
  位于巴黎的DeepMind研究員朱利安-佩羅拉(Julien Perolat)說:"Stratego中可能出現(xiàn)的結(jié)果數(shù)量之復(fù)雜,意味著在完全信息游戲上表現(xiàn)良好的算法,甚至那些對撲克有用的算法都不起作用。"
 
  自學(xué)成才的人工智能在戰(zhàn)略游戲圍棋方面表現(xiàn)最好
 
  因此,佩羅拉特和同事們開發(fā)了DeepNash。這個人工智能的名字是對美國數(shù)學(xué)家約翰-納什(John Nash)的致敬,他的工作導(dǎo)致了納什均衡這一術(shù)語的出現(xiàn),這是一組穩(wěn)定的策略,所有的游戲參與者都可以遵循,這樣就沒有玩家通過改變自己的策略而獲益。游戲可以有零個、一個或多個納什均衡。
 
  DeepNash將強(qiáng)化學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,以找到納什均衡。強(qiáng)化學(xué)習(xí)涉及尋找最佳政策,以決定游戲的每個狀態(tài)的行動。為了學(xué)習(xí)一個最佳政策,DeepNash與自己進(jìn)行了55億次游戲。如果一方獲得獎勵,另一方就會受到懲罰,而神經(jīng)網(wǎng)絡(luò)的參數(shù)--代表政策--也會相應(yīng)地進(jìn)行調(diào)整。最終,DeepNash收斂于一個近似的納什均衡狀態(tài)。與AlphaGo等之前的游戲AI不同,DeepNash不會通過游戲樹搜索來優(yōu)化自己。
 
  在4月份的兩個星期里,DeepNash在網(wǎng)絡(luò)游戲平臺Gravon上與人類戰(zhàn)略家進(jìn)行了競爭。在50場比賽之后,DeepNash在2002年以來所有Gravon戰(zhàn)略游戲玩家中排名第三。"我們的工作表明,像Stratego這樣復(fù)雜的游戲,涉及不完美的信息,不需要搜索技術(shù)來解決,"團(tuán)隊成員、駐巴黎的DeepMind研究員卡爾-圖伊斯說。"這真是人工智能的一大進(jìn)步。"
 
  "結(jié)果令人印象深刻,"總部位于紐約的meta AI的研究員諾姆-布朗同意,他領(lǐng)導(dǎo)的團(tuán)隊在2019年報告了玩起了基于撲克的AI Pluribus4。
 
  《強(qiáng)權(quán)外交》游戲的表現(xiàn)
 
  布朗和他在meta AI的同事將目光投向了一個不同的挑戰(zhàn):建立一個能玩外交的人工智能,這是一個最多有七個玩家的游戲,每個玩家代表一戰(zhàn)前歐洲的一個大國。目標(biāo)是通過移動單位(艦隊和軍隊)獲得對供應(yīng)中心的控制。重要的是,該游戲需要玩家之間的私下交流和積極合作,與圍棋或戰(zhàn)略游戲等雙人游戲不同。
 
  "當(dāng)你超越雙人零和游戲時,納什均衡的概念對于與人類打好關(guān)系不再那么有用,"布朗說。
 
  因此,該團(tuán)隊根據(jù)涉及人類玩家的在線版《強(qiáng)權(quán)外交》游戲的125261場數(shù)據(jù)訓(xùn)練其人工智能--名為Cicero。結(jié)合這些數(shù)據(jù)和一些自我游戲數(shù)據(jù),Cicero的戰(zhàn)略推理模塊(SRM)學(xué)會了預(yù)測,對于給定的游戲狀態(tài)和累積的信息,其他玩家的可能政策。利用這種預(yù)測,SRM選擇了一個最佳的行動,并向Cicero的對話模塊發(fā)出了它的"意圖"。
 
  對話模塊建立在一個27億個參數(shù)的語言模型上,該模型在互聯(lián)網(wǎng)的文本上進(jìn)行了預(yù)訓(xùn)練,然后利用人們玩的外交游戲的信息進(jìn)行微調(diào)??紤]到來自SRM的意圖,該模塊產(chǎn)生了一個對話信息(例如,代表英國的西塞羅可能會問法國。"你想支持我加入比利時一方嗎?")。
 
  在11月22日的《科學(xué)》論文中,該團(tuán)隊報告說,在40場在線游戲中,"Cicero AI取得了比人類玩家的平均分?jǐn)?shù)高一倍以上的成績,并在參加過多場游戲的參與者中排名前10%"。
 
  真實世界的行為
 
  布朗認(rèn)為,能夠與人類互動并對人類的次優(yōu)甚至非理性行為進(jìn)行解釋的玩游戲的人工智能可以為現(xiàn)實世界的應(yīng)用鋪平道路。他說:"如果你正在制造一輛自動駕駛汽車,你不想假設(shè)道路上的所有其他司機(jī)都是完全理性的,并且會表現(xiàn)得很好。Cicero是朝著這個方向邁出的一大步。我們?nèi)匀挥幸恢荒_在游戲世界里,但現(xiàn)在我們也有一只腳在現(xiàn)實世界里。"
 
  威爾曼同意這一看法,但他說還需要更多的工作。他說:"這些技術(shù)中的許多確實與娛樂游戲之外的現(xiàn)實世界應(yīng)用有關(guān),盡管如此,在某些時候,領(lǐng)先的人工智能研究實驗室需要超越娛樂環(huán)境,并找出如何衡量我們真正關(guān)心的更小的現(xiàn)實世界'游戲'的科學(xué)進(jìn)展。"
 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對其真實性負(fù)責(zé)。您若對該文章內(nèi)容有任何疑問或質(zhì)疑,請立即與中國機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點(diǎn)擊排行
?