物理學(xué)界有一個(gè)老掉牙的笑話:自然界的一切奧秘都已經(jīng)被發(fā)現(xiàn)并發(fā)表于一篇1960年代的蘇聯(lián)期刊上,只是我們不知道而已。雖然有些夸張,但這個(gè)笑話準(zhǔn)確地描述了目前的狀態(tài)。知識(shí)的體量已經(jīng)非常龐大并且正在迅速增長(zhǎng):2021年在arXiv(全球最大且應(yīng)用最廣的論文預(yù)印本網(wǎng)站)上發(fā)表的科學(xué)論文數(shù)量預(yù)期超過(guò)190000篇——這也只是今年產(chǎn)生的科學(xué)文獻(xiàn)的冰山一角。
很顯然,我們并不清楚我們究竟知道多少,因?yàn)闆]有人可以讀完自己所在的狹小領(lǐng)域內(nèi)的所有文獻(xiàn)(除了期刊論文外,這還包括了博士論文、實(shí)驗(yàn)筆記、幻燈片、白皮書、技術(shù)筆記和報(bào)告)。事實(shí)上,在這些堆積如山的文獻(xiàn)中,完全可能找到許多問題的答案、被忽視或遺忘的重要發(fā)現(xiàn)或者隱藏的聯(lián)系。
對(duì)于這些問題,人工智能是一個(gè)潛在的解決方案?,F(xiàn)在,算法已經(jīng)可以在無(wú)人工干預(yù)的情況下分析文本,找出詞句中的聯(lián)系以幫助發(fā)現(xiàn)知識(shí)。但是,我們?nèi)绻晦饤墡装倌瓴蛔兊膫鹘y(tǒng)科學(xué)文章的寫法,就不能取得更大的成就。
目前,文本挖掘(text mining)面臨著許多限制,包括獲取全文的和法律問題。但最重要的是,人工智能并沒有真正地理解這些概念以及它們之間的關(guān)系,并且對(duì)數(shù)據(jù)的偏差(bias)極其敏感,例如它選擇分析的論文的偏差。對(duì)人工智能來(lái)說(shuō),理解科學(xué)論文是一項(xiàng)艱巨的任務(wù)——事實(shí)上,對(duì)非專業(yè)的人類讀者來(lái)說(shuō)也一樣,因?yàn)槊總€(gè)學(xué)科的專業(yè)術(shù)語(yǔ)都大相徑庭,甚至一個(gè)詞語(yǔ)在不同的領(lǐng)域會(huì)有截然不同的意思。用一系列關(guān)鍵詞的排列組合很難準(zhǔn)確定義一個(gè)主題,這使得想要全面地檢索相關(guān)的文獻(xiàn)變得十分困難。即使對(duì)于最智慧的人來(lái)說(shuō),建立不同學(xué)科之間的聯(lián)系、(重新)發(fā)現(xiàn)相似的概念也很艱難。
只要目前的情況還未改變,人工智能就無(wú)法被完全信任,人類仍需要再次檢查人工智能文本挖掘后的輸出結(jié)果。這是一項(xiàng)單調(diào)無(wú)聊的工作,并且也偏離了使用人工智能的目的。為了解決這個(gè)問題,我們不僅需要將科學(xué)文獻(xiàn)變得計(jì)算機(jī)可讀,也需要用一種特定的編程語(yǔ)言將它們(重新)寫成。換句話說(shuō):要用一種機(jī)器可以理解的語(yǔ)言教它們科學(xué)。
雖然用類似于編程的語(yǔ)言寫科學(xué)知識(shí)是枯燥乏味的,但這具有可持續(xù)性,因?yàn)樾碌母拍顣?huì)被直接添加到機(jī)器可以理解的庫(kù)內(nèi)。此外,因?yàn)闄C(jī)器學(xué)習(xí)了更多的科學(xué)知識(shí),它們也可以幫助科學(xué)家們組織邏輯論證,發(fā)現(xiàn)錯(cuò)誤、矛盾、抄襲和重復(fù),并突出聯(lián)系。了解物理定律的人工智能比僅用數(shù)據(jù)訓(xùn)練的人工智能更強(qiáng)大,因此真正懂得科學(xué)的機(jī)器也會(huì)幫助未來(lái)的發(fā)現(xiàn)。這些擁有大量科學(xué)知識(shí)的機(jī)器將會(huì)幫助人類科學(xué)家,而非取代人類科學(xué)家。
數(shù)學(xué)家們已經(jīng)開始了這個(gè)翻譯的過(guò)程。他們用Lean語(yǔ)言寫定理和證明來(lái)教計(jì)算機(jī)數(shù)學(xué)。Lean是一種輔助證明語(yǔ)言,可以用對(duì)象(object)的形式引入數(shù)學(xué)概念。通過(guò)使用已知對(duì)象,Lean可以判斷一個(gè)語(yǔ)句(statement)的正誤,以此幫助數(shù)學(xué)家們驗(yàn)證證明并識(shí)別邏輯不嚴(yán)謹(jǐn)之處。Lean知道的數(shù)學(xué)知識(shí)越多,它就可以做得越多。帝國(guó)理工學(xué)院的Xena項(xiàng)目的目標(biāo)便是將本科數(shù)學(xué)課程的知識(shí)全部輸入到Lean。有朝一日,輔助證明或許可以通過(guò)驗(yàn)證邏輯和檢索它們擁有的大量數(shù)學(xué)知識(shí),幫助數(shù)學(xué)家做研究。
但相比于數(shù)學(xué),用Lean語(yǔ)言寫其他學(xué)科更困難。顯然,并不是所有的科學(xué)結(jié)果都適用這種寫法,但尤其是STEM*等許多學(xué)科都可以采用此方式。在設(shè)計(jì)這種新語(yǔ)言的過(guò)程中,可以從類似于Lean的語(yǔ)言開始定制,加入一些某領(lǐng)域特有的特點(diǎn)。毫無(wú)疑問,科學(xué)概念的定義比數(shù)學(xué)更復(fù)雜;它需要有背景、直觀表達(dá)和解釋。這也是為什么量子力學(xué)**雖然有清晰的數(shù)學(xué)表達(dá)式,卻仍有無(wú)數(shù)論文和教科書嘗試解釋它的原因。將科學(xué)知識(shí)的這些微妙的方面?zhèn)魇诮o機(jī)器是富有挑戰(zhàn)性的,但要記得,機(jī)器輔助的最終目的是幫助人類科學(xué)家改進(jìn)這些微妙之處,并更清楚地表達(dá)它們?;蛟S機(jī)器會(huì)更準(zhǔn)確,因?yàn)橛行┛茖W(xué)概念與人類直覺相悖,而機(jī)器可以可以更好地將它們與背景結(jié)合起來(lái)。
這種人類與機(jī)器共通的語(yǔ)言可能會(huì)演化出各領(lǐng)域?qū)iT的詞匯庫(kù),雖然我們目前還未開發(fā)出這種語(yǔ)言。但當(dāng)這項(xiàng)技術(shù)一旦成熟,它不會(huì)缺乏市場(chǎng)。Xena項(xiàng)目表明,沒有先前編程經(jīng)驗(yàn)的互聯(lián)網(wǎng)原住民能夠非常迅速地學(xué)習(xí)新語(yǔ)言。對(duì)于一些科學(xué)家來(lái)說(shuō),這種語(yǔ)言甚至?xí)葘懹⒄Z(yǔ)散文更直接,因?yàn)橛⒄Z(yǔ)并非他們的母語(yǔ)。這會(huì)幫助他們更好地組織想法。解釋器(interpreters)也可以將Lean語(yǔ)言翻譯回?cái)?shù)學(xué),就像將一種新語(yǔ)言翻譯成英語(yǔ)或其他任何語(yǔ)言一樣。
將已知的大量知識(shí)翻譯成機(jī)器語(yǔ)言是一項(xiàng)巨大的任務(wù),但并不是一項(xiàng)不可能的任務(wù)。從互聯(lián)網(wǎng)*到arXiv等預(yù)印本服務(wù)器,科學(xué)家們非常擅長(zhǎng)發(fā)明共享知識(shí)的新方法。因此,讓每位科學(xué)家為翻譯機(jī)器可讀的科學(xué)知識(shí)庫(kù)做一點(diǎn)貢獻(xiàn)并不是毫無(wú)根據(jù)的幻想。就像數(shù)學(xué)一樣,其它的本科課程也可以由本科生傳授給機(jī)器。研究生們可以將與他們課題有關(guān)的知識(shí)輸入給機(jī)器,而研究者們可以直接用新語(yǔ)言寫研究結(jié)果。
互聯(lián)網(wǎng)(World Wide Wed)誕生的初衷是讓世界范圍內(nèi)的科學(xué)家們共享信息。
這個(gè)項(xiàng)目除了需要集體的努力,還會(huì)消耗大量的時(shí)間和金錢。但除此之外,我們或許沒有其他可以解決不斷增長(zhǎng)的科學(xué)知識(shí)的方法:我們會(huì)繼續(xù)在重新發(fā)現(xiàn)已知的概念和死路上浪費(fèi)大量的時(shí)間和資源??茖W(xué)的未來(lái),必將是人類和機(jī)器的共同事業(yè)。