布萊恩•克里斯在其著作《人機(jī)對(duì)齊》中,為我們描繪了一個(gè)與日俱增的現(xiàn)代困境。隨著人工智能技術(shù)的迅猛發(fā)展,我們好似置身于一部現(xiàn)代版的“魔法師學(xué)徒”的故事中。如同初出茅廬的巫師,我們召喚出強(qiáng)大而不可知的力量——人工智能。我們給它下命令,期望它既能自主運(yùn)作又能絕對(duì)服從。但當(dāng)我們意識(shí)到指令的不完整或不精確時(shí),又陷入驚慌失措,拼命阻止它,擔(dān)心自己的智慧不慎喚出了某種無(wú)法控制的怪物。

《人機(jī)對(duì)齊》,布萊恩•克里斯汀著,唐璐譯,湖南科學(xué)技術(shù)出版社2023版

《人機(jī)對(duì)齊》,布萊恩•克里斯汀著,唐璐譯,湖南科學(xué)技術(shù)出版社2023版
這種情境引發(fā)了一系列問(wèn)題:如何防止人工智能偏離我們的預(yù)期,造成災(zāi)難性的背離?我們?cè)撊绾未_保它能夠理解并遵循我們的規(guī)范和價(jià)值觀?最關(guān)鍵的是,我們?cè)鯓硬拍艽_保人工智能按照我們所期望的方式行動(dòng)?這就是所謂的“人工智能對(duì)齊問(wèn)題”(the AI alignment problem)。它目前已經(jīng)超越“人工智能安全”(the AI safety),成為人工智能領(lǐng)域中最為核心和緊迫的議題之一。
那么,究竟什么是“人工智能對(duì)齊”?為什么這個(gè)概念在當(dāng)今世界如此重要?讓我們先放下技術(shù)細(xì)節(jié),轉(zhuǎn)而關(guān)注一個(gè)之前的熱點(diǎn)新聞。如果讓我來(lái)評(píng)選2023年度人工智能十大事件,“ChatGPT之父”山姆·奧特曼和OpenAI董事會(huì)的“宮斗劇”一定會(huì)名列榜單?;厮莸?023年11月17日,OpenAI這家舉世聞名的人工智能初創(chuàng)公司突然宣布解雇其CEO山姆·奧特曼。隨后的5天里,經(jīng)歷了一系列復(fù)雜的政治紛爭(zhēng),被罷免的奧特曼又重返高位。這場(chǎng)發(fā)生在硅谷的內(nèi)斗,被外界廣泛視為人工智能領(lǐng)域的“靈魂之戰(zhàn)”。
爭(zhēng)端背后,其實(shí)折射出對(duì)人工智能未來(lái)兩種截然不同的視角。一方面是我所稱的“人工智能技術(shù)加速主義”,代表人物就是山姆·奧特曼。他們主張無(wú)條件加速人工智能技術(shù)的創(chuàng)新發(fā)展,并快速推出創(chuàng)新內(nèi)容來(lái)顛覆社會(huì)結(jié)構(gòu),讓人類隨著技術(shù)的進(jìn)步而進(jìn)化。另一方面則是“人工智能對(duì)齊主義”,這一派的代表人物是要把山姆·奧特曼趕出董事會(huì)的首席科學(xué)家伊利亞·蘇茨克維。他們認(rèn)為,人工智能雖然能力強(qiáng)大,但在道德和倫理層面仍然存在混沌,我們?cè)谂宄谋举|(zhì)之前,最好持謹(jǐn)慎態(tài)度。
在OpenAI內(nèi)部的這場(chǎng)紛爭(zhēng)中,一個(gè)深刻的問(wèn)題浮現(xiàn)出來(lái):隨著人工智能技術(shù)的飛速發(fā)展,我們是否已經(jīng)做好準(zhǔn)備迎接超級(jí)人工智能的誕生?許多研究者強(qiáng)調(diào),在這種強(qiáng)大的智能形式出現(xiàn)之前,解決人工智能對(duì)齊問(wèn)題是至關(guān)重要的。那么,人工智能對(duì)齊究竟是什么呢?簡(jiǎn)而言之,人工智能對(duì)齊就是確保人工智能系統(tǒng)的目標(biāo)、決策和行為與人類的價(jià)值觀和利益相一致,避免出現(xiàn)人工智能選擇執(zhí)行與人類意圖不一致的行為。
這種對(duì)齊不僅是技術(shù)層面的挑戰(zhàn),更涉及深層的倫理和道德問(wèn)題。它要求我們?cè)谕七M(jìn)技術(shù)的同時(shí),也要考慮如何使這些強(qiáng)大的工具服務(wù)于人類的長(zhǎng)遠(yuǎn)利益。如果處理不當(dāng),可能導(dǎo)致不可預(yù)測(cè)的后果:人工智能的行為可能會(huì)背離我們的意圖和利益,甚至可能帶來(lái)無(wú)法預(yù)料的災(zāi)難。
2018年,在美國(guó)亞利桑那州坦佩市,一輛優(yōu)步自動(dòng)駕駛汽車撞死了過(guò)馬路的伊萊恩·赫爾茨貝格。美國(guó)國(guó)家交通安全委員會(huì)的審查發(fā)現(xiàn),造成這一悲劇的原因之一,在于“系統(tǒng)從未將她歸類為行人……因?yàn)樗跊](méi)有人行橫道的地方過(guò)馬路;該系統(tǒng)的設(shè)計(jì)沒(méi)有考慮亂穿馬路的行人”。這個(gè)案例突顯了人工智能對(duì)齊在自動(dòng)駕駛領(lǐng)域的至關(guān)重要性。僅僅遵循交通規(guī)則是不夠的,我們還需要確保:在保護(hù)乘客和行人安全方面,自動(dòng)駕駛汽車的人工智能系統(tǒng),能夠做出符合人類道德和倫理標(biāo)準(zhǔn)的決策。
2023年12月底,杭州市上城區(qū)網(wǎng)警破獲的一起重大勒索病毒案件,進(jìn)一步揭示了人工智能對(duì)齊問(wèn)題的復(fù)雜性。該犯罪團(tuán)伙成員都具備網(wǎng)絡(luò)安防的專業(yè)資質(zhì),并在犯罪過(guò)程中利用ChatGPT優(yōu)化其程序。這些犯罪分子分工合作,一方面編寫勒索病毒,另一方面借助ChatGPT進(jìn)行程序優(yōu)化,最后實(shí)施網(wǎng)絡(luò)敲詐勒索。這一事件不僅展示了人工智能技術(shù)在誤用時(shí)的潛在危害,也凸顯了防止其被用于有害目的的重要性。
在《人機(jī)對(duì)齊》中,布萊恩•克里斯也列舉了一系列引人深思的實(shí)例:越來(lái)越多的美國(guó)州法和聯(lián)邦法,允許使用“風(fēng)險(xiǎn)評(píng)估”軟件來(lái)決定保釋和假釋。越來(lái)越多的自動(dòng)駕駛汽車,在高速公路和城市的大街小巷中穿梭。貸款申請(qǐng)、求職簡(jiǎn)歷甚至醫(yī)學(xué)檢查的結(jié)果,往往不再需要人工審核便可得出。這種趨勢(shì)仿佛表明,21世紀(jì)初的人類正試圖將社會(huì)的管理交給人工智能,就像將駕駛汽車的任務(wù)交給自動(dòng)駕駛系統(tǒng)一樣。
然而,這里存在一個(gè)極為關(guān)鍵的問(wèn)題:如果人工智能模型缺乏價(jià)值觀對(duì)齊,它們可能輸出具有種族或性別歧視的決策,協(xié)助網(wǎng)絡(luò)黑客編寫用于網(wǎng)絡(luò)攻擊和電信詐騙的代碼,或者在更極端的情況下,它們甚至可能試圖說(shuō)服或幫助有自殺念頭的用戶結(jié)束自己的生命。這些例子清楚地表明:我們需要確保人工智能系統(tǒng)不僅在技術(shù)上高效,而且在道德和倫理上符合人類社會(huì)的基本價(jià)值觀。
因此,為了確保大模型的安全性、可靠性和實(shí)用性,我們必須防止它產(chǎn)生有害輸出或被濫用。2024年1月,谷歌DeepMind的機(jī)器人團(tuán)隊(duì)宣布了一項(xiàng)雄心勃勃的計(jì)劃:建立一個(gè)名為“AutoRT”的系統(tǒng)。這個(gè)系統(tǒng)將作為“機(jī)器人憲法”,指導(dǎo)機(jī)器人在收集和使用訓(xùn)練數(shù)據(jù)時(shí)的行為。這部“機(jī)器人憲法”的構(gòu)思,明顯受到科幻作家艾薩克·阿西莫夫“機(jī)器人三定律”的啟發(fā)。這三條定律要求:機(jī)器人不得傷害人類或見人受傷而無(wú)動(dòng)于衷;應(yīng)服從人類的命令,但這些命令不能與第一條定律相沖突;機(jī)器人應(yīng)保護(hù)自己的安全,但不得違背前兩條定律。
“機(jī)器人憲法”將通過(guò)“以安全為重點(diǎn)的提示”來(lái)指導(dǎo)大語(yǔ)言模型,避免選擇可能對(duì)人類和動(dòng)物造成風(fēng)險(xiǎn)的任務(wù)。這不僅僅是一種技術(shù)上的限制,實(shí)際上,它代表著對(duì)人工智能進(jìn)行道德編碼的一種嘗試,確保它的行為和決策過(guò)程符合人類的倫理和道德標(biāo)準(zhǔn)。通過(guò)這樣的措施,我們可以朝著創(chuàng)建更加可靠和負(fù)責(zé)任的人工智能系統(tǒng)邁進(jìn)。
實(shí)現(xiàn)人工智能對(duì)齊無(wú)疑是一個(gè)錯(cuò)綜復(fù)雜的挑戰(zhàn),目前這個(gè)領(lǐng)域還沒(méi)有找到一個(gè)完全的解決方案。然而,科學(xué)家們已經(jīng)提出了一些富有前景的方法和思路。其中之一是利用人類反饋來(lái)訓(xùn)練人工智能系統(tǒng)。這意味著研究者們需要對(duì)人工智能的行為進(jìn)行持續(xù)的監(jiān)督和評(píng)估,以便及時(shí)發(fā)現(xiàn)并糾正任何與人類價(jià)值觀不一致的行為,進(jìn)而對(duì)系統(tǒng)進(jìn)行調(diào)整和改進(jìn)。此外,也可以開發(fā)人工智能系統(tǒng)以輔助人類進(jìn)行這種評(píng)估,確保其決策過(guò)程更加透明和可靠。甚至,可以考慮專門訓(xùn)練一個(gè)用于人工智能對(duì)齊研究的人工智能系統(tǒng),以更深入地理解和解決對(duì)齊問(wèn)題。
在這篇文章中,我們不會(huì)深入探討上述這些技術(shù)細(xì)節(jié),但是,無(wú)論選擇何種技術(shù)路徑,都必須面對(duì)一個(gè)核心問(wèn)題:如果讓人工智能遵循人類的價(jià)值觀,它究竟應(yīng)該向誰(shuí)看齊?
斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家斯特法諾·埃爾蒙(Stefano Ermon)曾指出,雖然大多數(shù)人都認(rèn)同人工智能對(duì)齊人類價(jià)值觀這一理念,但挑戰(zhàn)在于定義這些價(jià)值觀究竟是什么。畢竟,不同文化背景、社會(huì)經(jīng)濟(jì)地位和地理位置的人們對(duì)價(jià)值觀有著截然不同的理解。
以ChatGPT等大模型為例,它們大多由美國(guó)公司開發(fā),并以北美數(shù)據(jù)為基礎(chǔ)進(jìn)行訓(xùn)練。因此,當(dāng)這些模型被要求生成各種日常物品時(shí),他們會(huì)創(chuàng)建一系列美國(guó)式的物品。隨著世界充滿越來(lái)越多人工智能生成的圖像,反映美國(guó)主流文化和價(jià)值觀的圖像將充斥在日常生活中。這不禁讓我們思考:人工智能是否會(huì)成為一種文化輸出的工具,從而在全球范圍內(nèi)影響其他國(guó)家和文化的話語(yǔ)表達(dá)方式?
在這個(gè)階段,我們面臨著選擇合適價(jià)值觀的挑戰(zhàn)。這里的難題并非僅僅讓人工智能模仿人類,而要決定它應(yīng)該模仿怎樣的人類特質(zhì)。人類本身的不完美性——包括多樣化的價(jià)值觀、個(gè)人偏好、缺點(diǎn),乃至歧視傾向——都可能無(wú)意中被編碼進(jìn)人工智能。在為人工智能制定價(jià)值觀時(shí),除了要尋找不同文化和價(jià)值觀之間的共識(shí),還要考慮如何融合這些共識(shí),來(lái)塑造一個(gè)更全面、更公正的人工智能。這就要求我們開發(fā)出更先進(jìn)的道德和倫理規(guī)則,以確保人工智能不僅反映人類的優(yōu)點(diǎn),同時(shí)也能避免我們的缺陷。
為此,我產(chǎn)生了一個(gè)更加激進(jìn)的想法,為什么人工智能對(duì)齊一定要和人類對(duì)齊?也許我們應(yīng)該探索一種與人類截然不同的、獨(dú)立于人類局限性之外的價(jià)值體系。2018年,人類未來(lái)研究所的尼克·博斯特羅姆說(shuō)過(guò)這么一句話:“人類的技術(shù)能力和人類的智慧在進(jìn)行一場(chǎng)長(zhǎng)距離賽跑,前者就像疾馳在田野上的種馬,后者更像是站不穩(wěn)的小馬駒”。這個(gè)比喻不僅揭示了技術(shù)發(fā)展和人類智慧之間的失衡,也暗示了我們?cè)跇?gòu)建人工智能價(jià)值觀時(shí)可能存在的狹隘視角。
也許,在人工智能的發(fā)展中,我們不應(yīng)該局限于模仿人類現(xiàn)有的思維和行為模式。相反,我們可以探索更廣闊的可能性,例如基于人類理想中的倫理和道德原則,甚至完全超越人類經(jīng)驗(yàn)的新型智能。人工智能模型應(yīng)該超越人類能力的局限性,而不僅僅是復(fù)制人類能力的局限性,這才是人工智能對(duì)齊故事中最激動(dòng)人心的一幕。它給了人類一個(gè)審視自我的機(jī)會(huì)。這種全新的價(jià)值觀對(duì)齊方式,可能是我們?cè)诿鎸?duì)不斷發(fā)展的技術(shù)時(shí)所需的一次重大飛躍。
(作者胡逸為大數(shù)據(jù)工作者)