最近,機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域的應(yīng)用有很大進(jìn)展,特別是化學(xué)搜索問題,從藥物篩選、電池設(shè)計(jì)到OLEDs設(shè)計(jì),催化劑的發(fā)現(xiàn)。 歷史上化學(xué)家使用薛定諤方程做數(shù)值近似來解決化學(xué)檢索問題,如使用密度泛函理論(DFT),然而近似值的計(jì)算成本限制了搜索的規(guī)模。

為了能夠擴(kuò)大搜索能力,雷鋒網(wǎng)了解到已有幾個(gè)研究小組使用DFT生成的訓(xùn)練數(shù)據(jù),創(chuàng)建ML模型來預(yù)測(cè)化學(xué)性質(zhì),例如Matthias Rupp等用機(jī)器學(xué)習(xí)模型來預(yù)測(cè)各種有機(jī)分子的原子化能,J?rg Behler 和 Michele Parrinello引入DFT勢(shì)能面的一種新的神經(jīng)網(wǎng)絡(luò)表征。在這些工作的基礎(chǔ)之上,谷歌研究院在QM9基準(zhǔn)數(shù)據(jù)集(配有DFT計(jì)算的電子,熱力學(xué)和振動(dòng)性質(zhì)的分子集合)上應(yīng)用了各種機(jī)器學(xué)習(xí)方法。
谷歌研究院發(fā)布了兩篇論文,介紹了他們?cè)谶@一領(lǐng)域的研究,研究工作由Google Brain團(tuán)隊(duì),Google Accelerated Science團(tuán)隊(duì),DeepMind和巴塞爾大學(xué)合作完成。 第一篇論文《Fast machine learning models of electronic and energetic properties consistently reach approximation errors better than DFT accuracy》調(diào)查了回歸分子和分子表征的選擇對(duì)快速機(jī)器學(xué)習(xí)模型的影響,模型用于構(gòu)建有機(jī)分子的十三個(gè)基態(tài)電子性質(zhì),每個(gè)回歸/表征/性質(zhì)組合的性能通過學(xué)習(xí)曲線評(píng)估,該曲線描繪近似誤差,以此作為訓(xùn)練集大小的函數(shù)。論文在QM9基準(zhǔn)數(shù)據(jù)集上測(cè)試了多種機(jī)器學(xué)習(xí)方法,并集中改進(jìn)最有希望的深層神經(jīng)網(wǎng)絡(luò)模型。
第二篇論文《Neural Message Passing for Quantum Chemistry》描述了一種稱為消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN)的模型族,將其抽象地定義為包含很多對(duì)圖形對(duì)稱性具有不變性的神經(jīng)網(wǎng)絡(luò)模型。研究團(tuán)隊(duì)在MPNN模型族中開發(fā)了新變體,性能明顯優(yōu)于QM9基準(zhǔn)測(cè)試的所有基準(zhǔn)測(cè)試方法,另外某些目標(biāo)的性能改進(jìn)了近四倍。
從機(jī)器學(xué)習(xí)的角度來看,分子數(shù)據(jù)之所以有趣,原因之一是一個(gè)分子的自然表征以原子作為邊界的結(jié)點(diǎn)和鍵。能夠利用數(shù)據(jù)中固有對(duì)稱性的模型更容易泛化,這很容易理解,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上之所以成功,一部分原因是模型能夠記住圖像數(shù)據(jù)中的一些不變性知識(shí),比如把一種圖片中的狗挪到圖片左邊還是一張狗的照片)。 圖形對(duì)稱性這一固有特征是機(jī)器學(xué)習(xí)處理圖像數(shù)據(jù)非常理想的性質(zhì),在這領(lǐng)域也有許多有趣的研究,例如Yujia Li等研究了結(jié)構(gòu)化圖片的特征學(xué)習(xí)技巧,David Duvenaud等應(yīng)用圖像神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分子指紋信息,Steven Kearnes等提出一種機(jī)器學(xué)習(xí)模型用于無向圖的學(xué)習(xí)。盡管這一領(lǐng)域已有所進(jìn)展,谷歌研究院希望找到化學(xué)(和其他)應(yīng)用模型的最佳版本,并找出文獻(xiàn)中提到的不同模型之間的聯(lián)系。
谷歌研究院提出的MPNN模型提高了QM9數(shù)據(jù)集任務(wù)(預(yù)測(cè)所有13種化學(xué)性質(zhì))的最好性能,在這個(gè)特定的數(shù)據(jù)集上,他們的模型可以準(zhǔn)確地預(yù)測(cè)13種性質(zhì)中的11個(gè),這樣的預(yù)測(cè)性能已經(jīng)足夠準(zhǔn)確,能對(duì)化學(xué)家未來的應(yīng)用有幫助。另外,此模型比使用DFT模擬要快30萬倍。但是在MPNN模型走向?qū)嶋H應(yīng)用之前還有很多工作要做。實(shí)際上,MPNN模型必須應(yīng)用于比QM9數(shù)據(jù)更多樣化的分子集合(例如數(shù)目更大,變化更大的重原子集合)。當(dāng)然,即使有了更真實(shí)的數(shù)據(jù)集,模型的泛化性能還是很差。克服以上兩個(gè)挑戰(zhàn)需要解決機(jī)器學(xué)習(xí)研究的核心問題,例如泛化。
預(yù)測(cè)分子性質(zhì)是一個(gè)非常重要的問題,它既是先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用場(chǎng)景,也為機(jī)器學(xué)習(xí)帶來了非常有趣的基礎(chǔ)研究課題。最后,分子性質(zhì)的預(yù)測(cè)有助于造福人類的新藥物和材料的設(shè)計(jì)。谷歌科學(xué)家們認(rèn)為傳播研究成果,幫助其他研究者學(xué)習(xí)機(jī)器學(xué)習(xí)應(yīng)用都是及其重要的。