
開發(fā)能展現(xiàn)出代理間合作和溝通的AI十分重要。流行桌面游戲《外交》為此類行為提供了有用的測(cè)試平臺(tái),它包含玩家之間復(fù)雜的溝通、談判和形成同盟,而AI一直很難達(dá)成這些。要贏得游戲,《外交》需要推斷在場(chǎng)玩家的未來(lái)計(jì)劃、玩家間的承諾,和他們的誠(chéng)實(shí)合作。過去的“AI代理”在單個(gè)玩家或兩個(gè)競(jìng)爭(zhēng)性玩家的游戲中取得過成功,其中玩家之間沒有交流。
英國(guó)“深度思維”研究團(tuán)隊(duì)此次設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)方法,讓代理可以協(xié)商同盟、共同制定計(jì)劃。研究人員創(chuàng)造出了模擬玩家的代理,形成團(tuán)隊(duì),嘗試勝過其他隊(duì)伍的策略。通過預(yù)測(cè)可能的未來(lái)游戲狀態(tài),這一學(xué)習(xí)算法允許代理對(duì)未來(lái)行動(dòng)達(dá)成一致,識(shí)別有益交易。為接近人類水平的表現(xiàn),他們還通過檢驗(yàn)一些代理間承諾破裂的場(chǎng)景(代理背離了過去的協(xié)議),調(diào)查了誠(chéng)實(shí)合作的條件。
這些成果有助于“AI代理”形成靈活溝通機(jī)制,使其能根據(jù)環(huán)境調(diào)整策略。此外,這些發(fā)現(xiàn)還表明,對(duì)違反協(xié)議的同伴的制裁傾向會(huì)大大降低這類違反者的優(yōu)勢(shì),有助于形成大多可信的交流,盡管情況最初更有利于違反協(xié)議者。
我們現(xiàn)在也常會(huì)跟AI打交道。它熱情洋溢、語(yǔ)調(diào)輕快地推銷商品,介紹活動(dòng),提供售后服務(wù)。不過,通常情況下我們很快就能發(fā)現(xiàn)電話那頭的是AI。它很難靈活變通,也回答不了超出設(shè)置之外的問題。在“深度思維”公司的這項(xiàng)研究中,AI已經(jīng)能上談判桌了。它們不僅會(huì)審時(shí)度勢(shì),還會(huì)合縱連橫,并懲罰談判上的不可信者。當(dāng)然,人類不可能放心直接讓AI談判,但這類嘗試可以讓AI形成靈活溝通機(jī)制,從而增進(jìn)它們?cè)谄渌S多領(lǐng)域的表現(xiàn)。