AI能否適配人類的價(jià)值觀,仍是科學(xué)家需要面對(duì)的一項(xiàng)難題。
人類面臨的不僅有諸多技術(shù)問題,還有許多問題需要我們?cè)谏鐣?huì)和經(jīng)濟(jì)中進(jìn)行協(xié)調(diào)處理,從而實(shí)現(xiàn)更大的效益。如何在社會(huì)中重新分配資源一直是經(jīng)濟(jì)學(xué)家、政治學(xué)家等長期關(guān)注的問題。
要想讓AI能夠在資源分配領(lǐng)域提供助力,AI需要直接了解人類的價(jià)值觀念。
近日,DeepMind開發(fā)了一個(gè)“民主AI”,并使用強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL)方法來讓該AI設(shè)計(jì)一種大多數(shù)人都喜歡的社會(huì)機(jī)制。
在一個(gè)有關(guān)保留金錢還是與他人分享以獲取集體利益的在線投資游戲里,通過設(shè)計(jì)不同的收入分配方法(其中一種由AI設(shè)計(jì),其他由人類設(shè)計(jì))讓玩家選擇,最終AI設(shè)計(jì)的機(jī)制贏得多數(shù)選票,并可以避免財(cái)富失衡、“搭便車者”(不出力但從中獲利的人)等問題。
7月4日,相關(guān)論文以《采用“民主AI”進(jìn)行以人為中心的機(jī)制設(shè)計(jì)》()為題發(fā)表在NatureHumanBehavior上,該論文提供了一個(gè)概念驗(yàn)證證明,通過針對(duì)人類偏好進(jìn)行優(yōu)化,深度RL可以在簡單游戲中設(shè)計(jì)以多數(shù)票支持的經(jīng)濟(jì)政策。
當(dāng)一群人決定匯集資金進(jìn)行投資,獲利后的收益應(yīng)如何分配?若簡單地按平均原則分配收益,很可能有失公平,因?yàn)槊總€(gè)人的具體貢獻(xiàn)多少并不相同。

▲圖|游戲和實(shí)驗(yàn)的說明(來源:NatureHumanBehavior)
為了訓(xùn)練“民主AI”,DeepMind記錄了來自大量人類群體(4000多人)的數(shù)據(jù),以讓AI復(fù)制人們玩游戲的方式進(jìn)行訓(xùn)練,同時(shí)讓其在在線四人經(jīng)濟(jì)游戲中進(jìn)行模擬學(xué)習(xí)。這種模擬的群體可以生成無限的數(shù)據(jù),從而能夠使用數(shù)據(jù)密集型機(jī)器學(xué)習(xí)方法來訓(xùn)練RL智能體。
然后,招募真實(shí)人類參與者,并將“民主AI”設(shè)計(jì)的機(jī)制與通常的基線(自由意志主義政策)進(jìn)行對(duì)比。
最終,在玩家的投票中,發(fā)現(xiàn)AI設(shè)計(jì)的政策要更受歡迎。

▲圖|整體投票比例(來源:NatureHumanBehavior)
該方法的一個(gè)優(yōu)點(diǎn)是,AI直接學(xué)習(xí)最大化一群人的偏好(或投票),這可能有助于確保AI系統(tǒng)不會(huì)學(xué)習(xí)不安全或不公平的政策。
“民主AI”在選擇將資金重新分配給人們時(shí),會(huì)考慮每個(gè)人的初始手段和他們的貢獻(xiàn)意愿,它會(huì)更偏向那些相對(duì)貢獻(xiàn)更大的玩家。值得一提的是,該AI只是通過學(xué)習(xí)最大化人類選票來提出這些政策。因此,該方法能產(chǎn)出與人類兼容的解決方案。
事實(shí)上,當(dāng)分析“民主AI”的政策時(shí),發(fā)現(xiàn)它融合了人類思想家和專家以前提出的解決再分配問題的想法,反映出了來自各個(gè)政治派別的混合觀點(diǎn)。
據(jù)了解,AI系統(tǒng)有時(shí)因?qū)W習(xí)可能與人類價(jià)值觀不相容的政策而受到批評(píng),而這種“價(jià)值一致性”的問題已成為AI研究中的主要問題。為了價(jià)值的一致性,可以利用與更廣泛的人類社會(huì)相同的民主工具來達(dá)成共識(shí),這些工具用于選舉代表,決定公共政策或做出法律判斷。
在該研究中,通過要求人們投票,利用多數(shù)民主的原則來決定人們想要什么。
但是,DeepMind在論文中也提到,需要更多的研究來了解,如何通過設(shè)計(jì)來權(quán)衡多數(shù)和少數(shù)群體的相對(duì)偏好,以考慮到所有人的意愿。
研究人員也對(duì)AI驅(qū)動(dòng)的“多數(shù)人的暴政”表示擔(dān)憂,在這種情況下,少數(shù)群體的需求被忽視了。并表示,該工作并不代表“AI政府”的解決方案,也不會(huì)打造專業(yè)的政策制定AI工具。
這或許是由于與人類提出的一些建議相比,AI提案并不一定是獨(dú)一無二的。另外,使用AI的部署方式可能會(huì)加劇社會(huì)中現(xiàn)有的偏見、歧視或不公平。
如今,AI越來越擅長解決從商業(yè)到生物醫(yī)學(xué)等各個(gè)方面的復(fù)雜挑戰(zhàn),故爾使用它進(jìn)一步來幫助設(shè)計(jì)社會(huì)問題的解決方案是一個(gè)有吸引力的想法。
本次DeepMind開發(fā)的新方法,將AI與人類民主審議相結(jié)合,或能為社會(huì)困境提供更好的解決方案。但“民主AI”只是設(shè)計(jì)一些更好政策的潛在方法,并不是在公共領(lǐng)域部署AI的“良藥”。
目前來說,我們距離能幫助制定公共政策的機(jī)器還有很長一段路要走,但AI有一天可能會(huì)幫助人類找到超越既定意識(shí)形態(tài)的新解決方案。