本報訊人工智能(AI)可以在國際象棋、圍棋、撲克和其他需要多種策略才能獲勝的游戲中擊敗人類玩家。這款名為“游戲?qū)W生”(SoG)的AI由谷歌的DeepMind開發(fā)。該公司表示,這是朝著能夠以超人的表現(xiàn)執(zhí)行任何任務(wù)的通用AI邁出的一步。相關(guān)論文11月15日發(fā)表于《科學(xué)進(jìn)展》。
曾在DeepMind從事AI研究的Martin Schmid,現(xiàn)在就職于一家名為“均衡技術(shù)”的初創(chuàng)公司。他表示,SoG模型可以追溯到兩個AI模型。其中一個是DeepStack,這是由加拿大阿爾伯塔大學(xué)的Schmid等團(tuán)隊開發(fā)的AI,是第一個在撲克比賽中擊敗人類職業(yè)選手的AI。另一個是DeepMind的AlphaZero,它在國際象棋和圍棋等游戲中擊敗了最優(yōu)秀的人類棋手。
這兩種AI模型的不同之處在于,一種專注于不完全的知識游戲——玩家不知道其他玩家的狀態(tài),比如撲克游戲中的牌;另一種則專注于完全的知識游戲,比如國際象棋,雙方玩家在任何時候都能看到所有棋子的位置。這兩者需要不同的方法。DeepMind雇用了整個DeepStack團(tuán)隊,目的是建立一個可以泛化兩種類型游戲的模型,從而誕生了SoG。
Schmid表示,SoG最初是一份如何學(xué)習(xí)游戲的“藍(lán)圖”,進(jìn)而通過實踐來提高。然后,這個初學(xué)者模型可以在不同的游戲中自由發(fā)揮,并學(xué)會如何與另一個版本的自己對抗,以掌握新的策略并提高能力。盡管DeepMind之前的AlphaZero可以適應(yīng)完全的知識游戲,但SoG可以適應(yīng)完全和不完全的知識游戲,使其更具通用性。
研究人員在國際象棋、圍棋、得州撲克和一款名為“蘇格蘭場”的棋盤游戲中測試了SoG,并在Leduc撲克和一款定制版的“蘇格蘭場”中測試了SoG,結(jié)果發(fā)現(xiàn)它可以擊敗幾個現(xiàn)有的AI模型和人類玩家。Schmid說,它應(yīng)該也能學(xué)會玩其他游戲。“有很多游戲你可以直接扔給它,它真的非常擅長。”
與DeepMind更專業(yè)的算法相比,這種廣泛的能力使SoG在性能上略有犧牲,但仍然可以在其學(xué)習(xí)的大多數(shù)游戲中輕松擊敗最優(yōu)秀的人類玩家。Schmid說,SoG學(xué)會了與自己對抗,以便在游戲中提高水平;同時也是為了從游戲的當(dāng)前狀態(tài)中探索可能出現(xiàn)的情況,即使它正在玩一個不完全的知識游戲。
“當(dāng)你在玩撲克這樣的游戲時,如果不知道對手持有什么牌,你就不清楚該如何找到游戲中的最佳策略。”Schmid說,“所以有一些來自AlphaZero的思維,還有一些來自DeepStack的思維,它們形成了一個龐大的思維體系,這就是SoG。”
未參與這項研究的英國愛丁堡大學(xué)的Michael Rovatsos表示,盡管這一研究成果令人印象深刻,但要想將AI視為通用智能,還有很長的路要走,因為與現(xiàn)實世界不同,游戲是一種所有規(guī)則和行為都被明確定義的虛擬環(huán)境。
“這里要強(qiáng)調(diào)一點,這是一個受控的、獨立的人工環(huán)境,在這個環(huán)境中,每件事的意義和每一個動作的結(jié)果都是非常清楚的。”Rovatsos說,“這個問題是一個玩具問題,盡管它可能非常復(fù)雜,但它不是真實的。”(李木子)
相關(guān)論文信息:
https://doi.org/10.1126/sciadv.adg3256
《中國科學(xué)報》(2023-11-24第2版國際)