在Google的Alphago大放異彩之后,搜索巨頭把下一個(gè)目標(biāo)瞄準(zhǔn)了復(fù)雜度更高的《星際爭(zhēng)霸》游戲。但社交巨頭Facebook也不甘落后,前不久它偷偷派了一個(gè)機(jī)器人去參加一場(chǎng)AI間的星際爭(zhēng)霸戰(zhàn)。盡管鎩羽而歸,但跟愛(ài)好者做的大部分基于規(guī)則的機(jī)器人相比,F(xiàn)acebook讓機(jī)器人自己制定策略的方案才是未來(lái)。

在銀河系遙遠(yuǎn)的克普魯星區(qū),F(xiàn)acebook的一群跳蟲(chóng)(Zerglings)正在焦躁不安的在敵軍基地外面徘徊。在腦袋缺根筋的指揮官打開(kāi)大門后,該社交網(wǎng)絡(luò)的外星人蜂擁而入,在一場(chǎng)爭(zhēng)奪人工智能研究前沿陣地的戰(zhàn)斗中對(duì)駐扎在里面的部隊(duì)大開(kāi)殺戒。
這場(chǎng)血腥事件是一年一度的由AI軟件機(jī)器人參賽的星際爭(zhēng)霸比賽的一部分,今年的比賽剛剛在本周日結(jié)束。Facebook悄悄的派了一個(gè)名為CherryPi的機(jī)器人參賽,這是有其AI研究實(shí)驗(yàn)室的8個(gè)人設(shè)計(jì)出來(lái)的。
這場(chǎng)秘密的太空站說(shuō)明Facebook對(duì)與Google等就率先達(dá)到AI的下一個(gè)閃耀的里程碑的競(jìng)爭(zhēng)是認(rèn)真的。Google的DeepMind AI研究部門去年因?yàn)锳lphago擊敗了圍棋世界冠軍而登上了新聞?lì)^條。今年8月,DeepMind宣布將最新版的星際爭(zhēng)霸II作為自己的下一個(gè)目標(biāo)。
就像本領(lǐng)域大多數(shù)的AI研究一樣,F(xiàn)acebook參加的這場(chǎng)比賽使用的是更舊版的星際爭(zhēng)霸,這個(gè)版本在難度上被認(rèn)為對(duì)軟件和玩家都是一視同仁的。Facebook的AI研究部門由紐約大學(xué)教授Yann LeCun牽頭,旗下有80多位研究人員,目前已經(jīng)發(fā)表了很多的研究論文,但是還沒(méi)有取得任何像Google在圍棋方面一樣令人震驚的成就。關(guān)于星際爭(zhēng)霸Facebook已經(jīng)發(fā)表了3篇研究論文,但還沒(méi)有宣布要征服此游戲的任何特別行動(dòng)。
周日公布的最終結(jié)果表明Facebook仍然有一段路要走:在總共28位參賽選手中CherryPi的排名為第6;而前3位都是由獨(dú)立的編程愛(ài)好者寫出來(lái)的。
Facebook的研究科學(xué)家Gabriel Synnaeve把CherryPi說(shuō)成是將來(lái)對(duì)星際爭(zhēng)霸研究的“基線”。他說(shuō):“我們希望看到它跟其他現(xiàn)有機(jī)器人的對(duì)比情況,尤其是想測(cè)試一下是不是還有需要修正的瑕疵。” CherryPi參加了一場(chǎng)馬拉松式的競(jìng)賽,這是研究AI在娛樂(lè)業(yè)應(yīng)用的學(xué)術(shù)會(huì)議AIIDE的一部分。Facebook還贊助了今年的競(jìng)賽,成千上萬(wàn)的機(jī)器人對(duì)戰(zhàn)游戲所用的硬件都是由Facebook出錢的。
自從1950年代以來(lái),像一字棋、跳棋、國(guó)際象棋以及圍棋這樣的游戲一直都是人工智能新思路的試驗(yàn)臺(tái)。這段日子以來(lái),隨著公司日益用AI來(lái)作為打磨自身產(chǎn)品和服務(wù)的手段,AI還要服務(wù)于嚴(yán)肅的商業(yè)目的。Facebook、Google等技術(shù)公司用AI來(lái)改進(jìn)定向廣告和個(gè)性化系統(tǒng),并且給虛擬助手和增強(qiáng)現(xiàn)實(shí)等新產(chǎn)品提供支持。
星際爭(zhēng)霸對(duì)AI研究人員的誘惑力可不僅僅在于操弄武器發(fā)號(hào)施令的樂(lè)趣。盡管該游戲看似比圍棋或者國(guó)際象棋更平易近人,但是復(fù)雜度卻要比后者高得多,因?yàn)橥婕业难b備和行動(dòng)都不是局限在固定的棋盤上并且處在對(duì)方的完整視圖下面的。圍棋棋盤的有效位置數(shù)是1后面跟170個(gè)0。研究人員估計(jì),要想遍歷星際爭(zhēng)霸的復(fù)雜度,你還需要在那個(gè)數(shù)后再加100個(gè)0。
今年獲勝的機(jī)器人叫ZZZKBot,開(kāi)發(fā)者是澳大利亞珀斯的軟件開(kāi)發(fā)者Chris Coxe,他之前曾在納斯達(dá)克工作過(guò)。這個(gè)機(jī)器人是他自己一個(gè)人開(kāi)發(fā)的,后來(lái)為了留出更多的時(shí)間做做這個(gè)他甚至停了一段時(shí)間工作。在最終結(jié)果出爐前1一天,Coxe曾經(jīng)這樣調(diào)侃自己的作品。他說(shuō):“這東西只是用來(lái)概念驗(yàn)證。源碼一點(diǎn)都不好。”
就像迄今為止所有的星際爭(zhēng)霸機(jī)器人一樣,在游戲技能一般的人類玩家面前ZZZKBot也頂不了太久。對(duì)異族人部隊(duì)的調(diào)動(dòng)做出預(yù)測(cè)和反應(yīng)需要的計(jì)劃和記憶遠(yuǎn)遠(yuǎn)超出了目前軟件的能力范疇。
隨著在網(wǎng)上廣告和AI方面同時(shí)展開(kāi)競(jìng)爭(zhēng)的兩大巨頭表現(xiàn)出興趣,愛(ài)好者做出最好的星際爭(zhēng)霸機(jī)器人的日子似乎已經(jīng)屈指可數(shù)。這次AIIDE競(jìng)賽的組織者,紐芬蘭紀(jì)念大學(xué)教授David Churchill預(yù)計(jì),未來(lái)幾年星際爭(zhēng)霸機(jī)器人的局面將會(huì)發(fā)生天翻地覆的變化。
Facebook和Google稱自己開(kāi)發(fā)星際爭(zhēng)霸機(jī)器人的辦法跟大多數(shù)個(gè)人程序員都不一樣。領(lǐng)先的機(jī)器人大多數(shù)是基于創(chuàng)建者制訂的規(guī)則和策略進(jìn)行游戲的。Coxes說(shuō)他的機(jī)器人最好的功能之一是簡(jiǎn)單學(xué)習(xí)功能,機(jī)器人會(huì)嘗試預(yù)先編程的針對(duì)其他對(duì)戰(zhàn)機(jī)器人的策略,然后記錄下來(lái)哪一種策略有效,從而為下一場(chǎng)比賽做準(zhǔn)備。兩大技術(shù)巨頭打算更倚重于機(jī)器學(xué)習(xí),計(jì)劃讓機(jī)器人依靠檢查過(guò)去比賽數(shù)據(jù)的龐大緩存或者重復(fù)實(shí)驗(yàn)從頭開(kāi)始制訂自己的策略。Facebook并沒(méi)有按照自己發(fā)布的想法開(kāi)發(fā)CherryPi。而機(jī)器學(xué)習(xí)則是Google的Alphago不可戰(zhàn)勝的核心。
雖然Facebook的機(jī)器人沒(méi)能贏得星際爭(zhēng)霸戰(zhàn),但排名第二的機(jī)器人PurpleWave的開(kāi)發(fā)者Dan Gant卻看到了CherryPi將來(lái)的走勢(shì)。大多數(shù)機(jī)器人的選擇是根據(jù)敵方的相對(duì)人數(shù)要么正面進(jìn)攻,要么撤退。但Gant說(shuō),從競(jìng)賽結(jié)果公布前發(fā)布的視頻看,CherryPi似乎知道什么時(shí)候自己可以足夠快地偷襲地方基地。
盡管如此,不要指望獨(dú)立機(jī)器人開(kāi)發(fā)者一夜之間就會(huì)消失得無(wú)影無(wú)蹤——或者指望星際爭(zhēng)霸很快就會(huì)被征服。Churchill說(shuō):“問(wèn)題仍然非常困難。我預(yù)計(jì)幾年之內(nèi)愛(ài)好者做的主要基于規(guī)則的機(jī)器人仍然會(huì)表現(xiàn)出色。”他猜測(cè)任何機(jī)器人想要擊敗專家級(jí)玩家仍需要5年的時(shí)間——但承認(rèn)也許會(huì)更快。
紐約的軟件開(kāi)發(fā)者Gant今年停下了手頭的工作,用了幾個(gè)月的時(shí)間專門來(lái)做PurpleWave。他說(shuō)技術(shù)巨頭的加入增加了一項(xiàng)代表著獨(dú)特學(xué)習(xí)機(jī)會(huì)的追求的影響力。他說(shuō):“無(wú)論你是Facebook還是DeepMind或者是剛剛在學(xué)習(xí)編程的小孩,大家都在同一個(gè)競(jìng)技場(chǎng)公平競(jìng)技。能限制你的只有自己的努力和能教到自己的東西。”
做出一個(gè)星際爭(zhēng)霸的超級(jí)玩家能給技術(shù)巨頭帶來(lái)的不只是滿足感。Google說(shuō)DeepMind的機(jī)器學(xué)習(xí)已經(jīng)幫助它削減了自己數(shù)據(jù)中心的制冷成本。微軟今年的一篇有關(guān)機(jī)器學(xué)習(xí)的研究論文說(shuō),預(yù)測(cè)用戶何時(shí)會(huì)點(diǎn)擊的準(zhǔn)確率哪怕只提升0.1個(gè)百分點(diǎn)也能帶來(lái)數(shù)億美元的新收入。有能力領(lǐng)導(dǎo)蟲(chóng)族隊(duì)伍沖鋒陷陣擊潰任何人類的機(jī)器人也許很快就能賺大錢。