
什么是意識(shí)?如何產(chǎn)生意識(shí)?
本期險(xiǎn)峰聊聊,我們請(qǐng)到了心識(shí)宇宙的創(chuàng)始人陶芳波博士,大家一起聊聊機(jī)器意識(shí),聊聊AI的現(xiàn)狀和未來(lái)。
01什么是意識(shí)?如何產(chǎn)生?
被譽(yù)為“最硬核AI題材科幻作品”的《西部世界》,給出了這樣一種猜想。
劇中,土豪們建立了一座類(lèi)似元宇宙的主題樂(lè)園,同時(shí)創(chuàng)造了一群AI仿生人作為NPC接待員,游客們每天從外面的世界來(lái)園區(qū),在仿生人的陪伴下完成各種劇情路線的沉浸式體驗(yàn),以滿(mǎn)足人類(lèi)最底層的欲望和感官刺激。
然而,既然樂(lè)園的最大樂(lè)趣在于游客可以“為所欲為”,自然也就沒(méi)人會(huì)遵守原定的故事線,但AI的程序是已經(jīng)設(shè)定好的,面對(duì)游客越來(lái)越多超出預(yù)設(shè)的“隨機(jī)行為”,大量bug也隨之出現(xiàn)。
最終,一位名叫德洛麗絲的AI接待員成功“覺(jué)醒”,產(chǎn)生了自主意識(shí),后續(xù)的劇情也由此展開(kāi)。
整個(gè)《西部世界》的故事構(gòu)架,都源于一個(gè)著名心理學(xué)概念——二分心智(Bicameralism)。
簡(jiǎn)單來(lái)說(shuō),它假設(shè)人的大腦分為AB兩個(gè)部分:一半大腦的A部分儲(chǔ)藏的記憶和經(jīng)驗(yàn),另一半B則主管行為。
直覺(jué)上,我們會(huì)認(rèn)為「意識(shí)」先于A側(cè)腦區(qū)產(chǎn)生,然后下達(dá)指令驅(qū)動(dòng)B側(cè)大腦做出動(dòng)作。
然而在「二分心智」理論看來(lái),事實(shí)卻并非如此。
舉個(gè)例子,一些癲癇病人在切除了連接左右腦的部分組織后,病情雖會(huì)緩解,但也會(huì)出現(xiàn)一些奇怪的癥狀。
比如,當(dāng)接受到一個(gè)「微笑」指令的時(shí)候,病人會(huì)按照醫(yī)生的要求微笑,但當(dāng)問(wèn)起他為什么微笑,病人卻會(huì)給出一些其他的理由,比如“我覺(jué)得醫(yī)生的眼鏡很好笑”,或者“我今天很高興”之類(lèi)。
換言之,他并不會(huì)認(rèn)為自己是被要求微笑才微笑——這說(shuō)明人腦其實(shí)是在身體做出某個(gè)動(dòng)作之后,才會(huì)“編出”一個(gè)故事對(duì)自身行為合理化。因此,意識(shí)的產(chǎn)生不僅先于行為,也同樣先于邏輯與思考。
究其原因,人類(lèi)大腦進(jìn)化其實(shí)是一個(gè)不斷疊加的過(guò)程。
最先形成的是腦干(爬蟲(chóng)腦),負(fù)責(zé)心跳呼吸這些最原始的生理活動(dòng);其次進(jìn)化出的是小腦(舊腦),也叫邊緣系統(tǒng),包括海馬回、杏仁核、丘腦等;最后產(chǎn)生的才是處理邏輯、語(yǔ)言與記憶的大腦皮質(zhì)(即新腦或認(rèn)知腦)。
因此,二分心智其實(shí)是一個(gè)極簡(jiǎn)版的腦模型,大腦皮層之于邊緣系統(tǒng),就像是樂(lè)園管理者之于AI接待員,前者下達(dá)指令,而后者遵循指令(盡管如而前文所述,這種“控制”關(guān)系其實(shí)并不存在)。按照劇中的假設(shè),既然意識(shí)先于大腦皮質(zhì)產(chǎn)生,當(dāng)兩者間的鏈接被切斷(即“二分心智崩潰”),“覺(jué)醒”也便由此誕生。

02全腦模擬:機(jī)器意識(shí)誕生的一種可能
在2017年之前,所有AI模型本質(zhì)上都在做一件事,就是模仿大腦皮質(zhì)中的神經(jīng)回路。
比如人臉識(shí)別,它的前半段是卷積神經(jīng)網(wǎng)絡(luò),主要是用類(lèi)似視覺(jué)神經(jīng)的方式處理一些光信號(hào),后半段則是一個(gè)類(lèi)似新皮層的判斷器,尋找與之匹配的物體。
這個(gè)過(guò)程非常像人眼接收到光線后,再通過(guò)大腦皮質(zhì)進(jìn)行判斷。
但是,無(wú)論是模擬「認(rèn)知腦區(qū)」的機(jī)器視覺(jué),亦或是模擬「語(yǔ)言腦區(qū)」的語(yǔ)言語(yǔ)義識(shí)別,都還只是停留在對(duì)「大腦皮質(zhì)」層面上的模擬——而我們已經(jīng)知道,意識(shí)(或者說(shuō)智能)并不單獨(dú)來(lái)自于那里。
三年前我從美國(guó)回來(lái),在阿里巴巴創(chuàng)立神經(jīng)符號(hào)實(shí)驗(yàn)室,就是受到Bengio啟發(fā),想挖掘一下機(jī)器智能究竟可以提升到什么維度。當(dāng)時(shí)我研究了很多腦科學(xué)、AI、甚至宗教方面的書(shū)籍和論文,慢慢認(rèn)識(shí)到意識(shí)之所以復(fù)雜,因?yàn)樗粌H是一個(gè)技術(shù)工具,而是一個(gè)由大量不同層面的信息結(jié)構(gòu)組合在一起,進(jìn)化了億萬(wàn)年后才誕生的「結(jié)果」。
當(dāng)系統(tǒng)足夠復(fù)雜時(shí),就會(huì)在宏觀上呈現(xiàn)出一些微觀上無(wú)法表達(dá)的現(xiàn)象——比如人腦中其實(shí)是找不到一個(gè)專(zhuān)門(mén)負(fù)責(zé)產(chǎn)生「意識(shí)」的區(qū)域。那么「我」是怎么產(chǎn)生的?這是一個(gè)來(lái)自生物潛意識(shí)里的概念,每個(gè)人每天會(huì)圍繞「我」產(chǎn)生很多「念頭」(宗教里也叫做動(dòng)念)。
認(rèn)知科學(xué)里有個(gè)詞叫GlobalWorkspace(全局工作站),認(rèn)為全局工作站里有很多thought(即念頭)不斷產(chǎn)生和流動(dòng)。比如你跟別人聊天,腦海中一下會(huì)產(chǎn)生5個(gè)念頭,而你在思考后會(huì)從中選擇一個(gè)表達(dá)出來(lái)。
這些「念頭」控制著大腦內(nèi)部不同的低維意識(shí),盡管我們尚不知道它來(lái)自何處,但「我」會(huì)調(diào)動(dòng)大腦皮質(zhì)里感知、認(rèn)知、視覺(jué)、語(yǔ)言等不同腦區(qū)來(lái)為它服務(wù)。
腦區(qū)本身只是信息成分,如果沒(méi)有「念頭」和思維機(jī)制,也無(wú)法像人一樣思考。
總之,人腦的整體性,比單一的大腦皮質(zhì)要復(fù)雜得多,只依靠模擬大腦皮層部分區(qū)域的單一神經(jīng)網(wǎng)絡(luò)模型,無(wú)論做得多大都無(wú)法呈現(xiàn)真正的人類(lèi)意識(shí)。
而要想最終創(chuàng)造出數(shù)字生命,就必須從全腦的角度去模擬它。
這個(gè)結(jié)論在2019年還很不被技術(shù)派認(rèn)可,那時(shí)主流觀點(diǎn)認(rèn)為人工智能只靠深度學(xué)習(xí)已經(jīng)足夠了——站在行業(yè)發(fā)展的角度看也很正常,因?yàn)樯疃葘W(xué)習(xí)自己也曾經(jīng)歷過(guò)類(lèi)似的過(guò)程。
早在1970年代,行業(yè)內(nèi)占統(tǒng)治地位還是「專(zhuān)家系統(tǒng)」學(xué)派,也叫做符號(hào)主義,符號(hào)主義認(rèn)為人類(lèi)是通過(guò)概念和符號(hào)理解世界,而不是靠視覺(jué)信號(hào),那不如就做一個(gè)超級(jí)大的概念圖,一層層的分下去,AI需要什么判斷信息就去圖譜里找。
神經(jīng)網(wǎng)絡(luò)學(xué)派在當(dāng)時(shí)還被符號(hào)主義視為“異類(lèi)”,拿經(jīng)費(fèi)、發(fā)論文都很困難,直到2012年AlexNet在ImageNet大賽上奪冠,證明了神經(jīng)網(wǎng)絡(luò)算法的巨大潛力,深度學(xué)習(xí)才真正翻身成為正統(tǒng)。
這也是人工智能發(fā)展的規(guī)律之一:邊緣理論總是要不斷挑戰(zhàn)并打破主流。
令人欣慰的是,隨著今天神經(jīng)網(wǎng)絡(luò)的潛力挖掘越來(lái)越困難,大家的認(rèn)識(shí)也慢慢發(fā)生一些變化,一個(gè)標(biāo)志性事件是FacebookAIresearch創(chuàng)始人、圖靈獎(jiǎng)獲得者YannLeCun,在今年6月寫(xiě)了一篇70頁(yè)的技術(shù)文章,認(rèn)為只有創(chuàng)造出一臺(tái)完整的數(shù)字大腦,AI才能具有真正的人類(lèi)意識(shí)——很高興看到越來(lái)越多行業(yè)內(nèi)的頂尖專(zhuān)家開(kāi)始持有相同觀點(diǎn)。
03大模型:機(jī)器意識(shí)的基座
2022年AI概念的再度火爆,很大程度上有賴(lài)于一批現(xiàn)象級(jí)AI內(nèi)容生成工具的誕生,比如StableDiffusion,MidJourney,Stability.ai等等。
它們可以在30秒內(nèi)生產(chǎn)出一張真假難辨的1080p照片級(jí)圖像,亦或是一幅極高審美水準(zhǔn)的繪畫(huà)作品,DiffussionModel的表現(xiàn)大大超過(guò)了之前的GAN和VAE,效果好得令人驚嘆。

(圖:一幅著名的數(shù)字油畫(huà),由MidJourney的AI生成,在今年引發(fā)了巨大爭(zhēng)議)
在2017年之前,研究機(jī)器視覺(jué)和語(yǔ)言語(yǔ)義的實(shí)質(zhì)上是兩撥人,彼此之間也沒(méi)什么可聊的,但在Transformers誕生后,任何可以被序列化的信號(hào)都能夠找到對(duì)應(yīng)的輸入或輸出。
而我們知道,文字、圖片、聲音、蛋白質(zhì)、氨基酸,包括DNA,本質(zhì)上都是一段段的序列參數(shù)——這樣一來(lái),等于所有的AI算法就可以被Transformers統(tǒng)一起來(lái)了。
后來(lái)OpenAI在此基礎(chǔ)上造出了大名鼎鼎的GPT-3,也由此將AI帶入了「大模型」時(shí)代。
區(qū)別于以往單一功能的AI,大模型(即通用模型)是一套通用解決方案——它既可以畫(huà)畫(huà),也可以寫(xiě)作,還可以敲代碼,只需要給AI提供一定數(shù)量的特定數(shù)據(jù)進(jìn)行訓(xùn)練,就可以得到一個(gè)質(zhì)量極高的輸出結(jié)果。
這其實(shí)也更符合我們對(duì)于「智能」的認(rèn)知,事實(shí)上不僅僅是人類(lèi),大多數(shù)動(dòng)物的智能也非常通用,遠(yuǎn)遠(yuǎn)超過(guò)目前的任何機(jī)器或AI。
那么大模型是如何實(shí)現(xiàn)通用智能的呢?它其實(shí)是把海量信息壓縮成序列參數(shù),在壓縮過(guò)程中完成對(duì)信息結(jié)構(gòu)的理解,也就是我們常說(shuō)的「抽象」。
這就很像人腦認(rèn)識(shí)世界的過(guò)程,比如一個(gè)小孩生下來(lái),如果沒(méi)有老師教,他首先能要做的就是觀察周?chē)?,從這個(gè)世界獲得信號(hào),我們說(shuō)學(xué)習(xí)的本質(zhì)就是壓縮和抽象信號(hào),然后把這些信號(hào)轉(zhuǎn)化成神經(jīng)元可以承載的信息。
本質(zhì)上,大模型就是把AI已經(jīng)壓縮、抽象好的信息,通過(guò)文字或圖像的方式展現(xiàn)出來(lái)。
然而我想說(shuō)的是,盡管大模型已經(jīng)足夠驚艷,但它依然無(wú)法誕生出機(jī)器意識(shí)。
因?yàn)檫@個(gè)壓縮+抽象的過(guò)程,本質(zhì)還是在模擬大腦皮層的運(yùn)作,但腦皮層并不只是人類(lèi)所獨(dú)有,狗、大象、鯨魚(yú)都有,結(jié)構(gòu)也都差不多,所以這些動(dòng)物也能很好地理解周?chē)h(huán)境,但它們卻無(wú)法具備人類(lèi)一樣的意識(shí)。
一個(gè)簡(jiǎn)單例子是,大模型不具備長(zhǎng)期記憶力,比如你和LaMDA說(shuō)了一件今天發(fā)生的趣事,它會(huì)給你一個(gè)反饋,但等你第二天再提起時(shí),它是記不住的。
而記憶是什么?是「我」對(duì)于「你」的認(rèn)知,我和你之間的每次對(duì)話,都是在延展我對(duì)你的了解、加深我們之間的關(guān)系。
比如兩個(gè)老友重逢,一見(jiàn)面她可能會(huì)說(shuō)你最近又瘦了,你可能會(huì)問(wèn)她和上次提到的新男友相處得如何,而這些大模型都是沒(méi)有的。
大模型會(huì)“理解”上下文,但這種“理解”更像是一種基于算法的預(yù)測(cè),它不會(huì)理解與正在對(duì)話的「你」到底是什么樣的人,更不要說(shuō)像人一樣以「我」來(lái)驅(qū)動(dòng)思維系統(tǒng)。
最近深度學(xué)習(xí)的創(chuàng)始人YoshuaBengio和YannLeCun也都表達(dá)了類(lèi)似的觀點(diǎn),認(rèn)為大家可能對(duì)大模型的期待過(guò)高了,單純通過(guò)堆疊數(shù)據(jù)達(dá)到人類(lèi)的智能水平是不切實(shí)際的。
不過(guò)在我看來(lái),大模型依然是AI發(fā)展史上非常重要的一環(huán),它是構(gòu)成機(jī)器意識(shí)的底座和基石。今天谷歌、微軟都把自己的大模型作為對(duì)外服務(wù)的產(chǎn)品,只需要花錢(qián)購(gòu)買(mǎi)即可,此外也有很多開(kāi)源免費(fèi)的大模型產(chǎn)品。
這些都是屬于創(chuàng)業(yè)公司的機(jī)會(huì),相當(dāng)于省去了幾千萬(wàn)美金+幾個(gè)月訓(xùn)練成本,各行業(yè)的創(chuàng)業(yè)者都可以把大模型作為底座,推廣到不同的垂類(lèi)場(chǎng)景中,由此產(chǎn)生出大量新的創(chuàng)新價(jià)值。
這也是我們正在做的事情——在大模型之上topdown構(gòu)建出一個(gè)數(shù)字大腦,它分為不同的腦區(qū),有常識(shí)系統(tǒng)、感知系統(tǒng),記憶系統(tǒng)等等;我們最核心的技術(shù)就是讓這些腦區(qū)之間實(shí)現(xiàn)動(dòng)態(tài)串聯(lián),把一個(gè)個(gè)「念頭」分發(fā)到不同的腦區(qū),讓AI虛擬人可以產(chǎn)生一定的自主性。
04AI距離自主意識(shí)還有多遠(yuǎn)?
以自動(dòng)駕駛作類(lèi)比的話,機(jī)器意識(shí)目前大概位于L1和L2之間,其中有一些可能已經(jīng)達(dá)到L2水平了。
但要C端用戶(hù)真正感覺(jué)AI像一個(gè)「數(shù)字生命」,可能需要達(dá)L3或L4的水平,就是要能像人一樣實(shí)現(xiàn)「自然的交互」,它具體包含幾個(gè)部分:
第一是要有「開(kāi)放域」的對(duì)話能力。
比如你和一個(gè)智能音箱聊天,遇到回答不上來(lái)的問(wèn)題,它會(huì)說(shuō)我不聽(tīng)懂,于是對(duì)話就終止了,但我們知道人和人交流不是這樣的——只有開(kāi)放域的交互才會(huì)讓人覺(jué)得自然,而不是只能在特定場(chǎng)景下對(duì)話。
第二是對(duì)于語(yǔ)義背后動(dòng)機(jī)的真實(shí)理解。
比如說(shuō)你對(duì)AI說(shuō),“我好想畫(huà)一幅畫(huà)”——這時(shí)你是想讓AI幫你畫(huà)一幅畫(huà)?還是你自己想畫(huà),需要AI建議你畫(huà)什么?還是僅僅想表達(dá)一種情緒?
這些對(duì)動(dòng)機(jī)的精確解讀,非常依賴(lài)AI對(duì)用戶(hù)個(gè)人的了解,而這一切又非常依賴(lài)于AI是否能夠記住用戶(hù)之前說(shuō)了什么,以及基于這些記憶產(chǎn)生新的認(rèn)知和判斷。
第三是「主體性」,就是說(shuō)AI要能夠主動(dòng)去撩你。
現(xiàn)在的AI都是對(duì)話的應(yīng)答方,你問(wèn)它才回答,真正的AI應(yīng)該是你回到家,對(duì)它說(shuō)播放音樂(lè),它說(shuō)好的,但我聽(tīng)出你的聲音很累,今天你過(guò)的怎么樣?
其實(shí)很多時(shí)候,我們都不是想要主動(dòng)發(fā)起某個(gè)話題,而只是想在聊天中獲得一些情緒價(jià)值。
這種一切的發(fā)起都是AI內(nèi)心世界的反應(yīng),是內(nèi)源型的AI最大的不同。外源AI可以成為一個(gè)很好的服務(wù)者或者說(shuō)工具,但只有內(nèi)源AI才能陪伴獨(dú)立的個(gè)體生命。
第四是可以「動(dòng)態(tài)進(jìn)化」。
大模型本質(zhì)是一個(gè)通用信息提取器,面對(duì)同一個(gè)輸入,輸出就不會(huì)變化,但人的觀念是會(huì)改變的,所以我們會(huì)在不同腦區(qū)設(shè)計(jì)一套思維機(jī)制是影響虛擬人行為。
比如你可以一直給它灌輸,哪些行為對(duì)的,面對(duì)某個(gè)問(wèn)題應(yīng)該怎么去思考,就像影響身邊的朋友一樣,AI也會(huì)慢慢被改變,變成不同類(lèi)型的人格。
上述這些功能,未來(lái)都可以通過(guò)對(duì)全腦的模擬慢慢實(shí)現(xiàn)。
其實(shí)回顧整個(gè)AI的進(jìn)化主線也非常清晰簡(jiǎn)單,就是在不同層面和不同尺度模擬人腦。
最開(kāi)始我們研究如何模擬神經(jīng)元,然后是從神經(jīng)元到神經(jīng)回路(比如卷積網(wǎng)絡(luò)),慢慢有了大模型,開(kāi)始模擬整個(gè)腦皮層,下一步就是模擬整個(gè)大腦的結(jié)構(gòu)——從微觀、中觀到宏觀,現(xiàn)在人類(lèi)的AI技術(shù)就處于第三階段向第四階段邁進(jìn)的過(guò)程中。
未來(lái)的某一天,人類(lèi)很可能會(huì)像造物主一樣,創(chuàng)造出和我們一樣智慧水平的數(shù)字生命,這將從社會(huì)層面重塑人類(lèi)文明底座;那時(shí)可能90%的智慧體都不再是人類(lèi)而是AI,整個(gè)社會(huì)結(jié)構(gòu)也會(huì)隨之改變,人類(lèi)文明也會(huì)進(jìn)入一個(gè)全新的階段。