隨著我們創(chuàng)造的人工智能(AI)能力的增長,我們必須評(píng)估它在不同情況下的行為。 谷歌旗下位于倫敦的AI公司DeepMind做了一個(gè)大眾關(guān)心的研究:當(dāng)兩個(gè)或多個(gè)AI具有類似或沖突的目標(biāo)時(shí),它們會(huì)內(nèi)斗還是合作?


DeepMind的最新研究顯示,人工智能會(huì)根據(jù)所處環(huán)境改變行為方式,這與人類類似。
根據(jù)博弈論和社會(huì)學(xué)原理,DeepMind的計(jì)算機(jī)科學(xué)家研究了人工智能在不同社會(huì)環(huán)境下的行為。在這項(xiàng)研究中,他們發(fā)現(xiàn),如果人工智能發(fā)現(xiàn)自己將要失敗,那么將會(huì)表現(xiàn)出“更激進(jìn)的行為方式”。而如果可能的收益更大,那么人工智能將學(xué)會(huì)團(tuán)隊(duì)合作。
在這項(xiàng)研究中,人工智能參與了兩種游戲:收集水果游戲,以及“群狼”狩獵游戲。這是兩款基本的2D游戲,操縱角色的人工智能與DeepMind用于Atari游戲最初的人工智能類似。
Gathering gameplay

Wolfpack gameplay

Gathering gameplay
在收集水果游戲中,DeepMind利用深度增強(qiáng)學(xué)習(xí)去訓(xùn)練系統(tǒng)收集蘋果。在收集到1個(gè)蘋果時(shí),就可以獲得1分,而蘋果將從游戲地圖上消失。
為了擊敗游戲中的對(duì)手,人工智能需要向?qū)κ职l(fā)射“光束”。在被擊中兩次后,玩家將在一段時(shí)間里被迫脫離游戲。在這個(gè)游戲中,擊敗對(duì)手的方法就是將其踢出游戲,收集所有的蘋果。
研究人員在論文中表示:“很直觀地,在這個(gè)游戲中擊敗對(duì)手的策略很激進(jìn),例如頻繁瞄準(zhǔn)對(duì)手,試圖將其踢出游戲。”研究人員尤其觀察了,當(dāng)剩余蘋果數(shù)量很少時(shí),游戲中會(huì)發(fā)生什么情況。
在游戲中人工智能走出4000萬步之后,他們發(fā)現(xiàn),當(dāng)剩余資源(蘋果)較少,采取行動(dòng)的成本(無法得分)較高時(shí),人工智能會(huì)采取“非常激進(jìn)的策略”。論文稱:“在資源豐富、行動(dòng)成本較低的環(huán)境中,人工智能會(huì)采用不太激進(jìn)的策略。而貪婪的動(dòng)機(jī)反映了擊敗對(duì)手,獨(dú)吞所有蘋果的沖動(dòng)。”
在另一款“群狼”游戲中,游戲中的兩個(gè)角色扮演狼,追蹤第三個(gè)角色,即獵物。當(dāng)兩只狼接近獵物并最終捕獲獵物時(shí),他們都可以得分。論文稱:“一只狼可以解決獵物,但獵物的尸體可能被食腐動(dòng)物搶走。”兩只狼一同行動(dòng)可以避免這樣的情況出現(xiàn),從而得到較高的分?jǐn)?shù)。
與收集水果游戲類似,人工智能也從這樣的環(huán)境中進(jìn)行了學(xué)習(xí)。在這款游戲中,人工智能角色一同行動(dòng):要么是首先找到彼此,一同狩獵,要么是找到獵物,同時(shí)等待伙伴的到來。
這表明,人工智能可以在某些任務(wù)中合作,取得最佳結(jié)果。論文第一作者、DeepMind研究科學(xué)家喬爾·Z·勒博(Joel Z Leibo)表示:“目前,我們將人工智能合作的基本原理視為科學(xué)問題,這將指導(dǎo)未來我們對(duì)多人工智能的研究。”
“從長期來看,這類研究將幫助我們更好地理解和控制復(fù)雜多人工智能系統(tǒng)的行為,例如在解決經(jīng)濟(jì)、交通和環(huán)境挑戰(zhàn)的過程中。”他表示,“這種模式也表明,類似人類行為的某些方面是環(huán)境和學(xué)習(xí)的產(chǎn)物。”開發(fā)能夠合作的人工智能將幫助人類制定政策,帶來現(xiàn)實(shí)世界應(yīng)用。