高粱,一種重要的農(nóng)作物,用作食品和生物燃料的生產(chǎn)。美國(guó)科學(xué)家考慮在這個(gè)領(lǐng)域如何提高產(chǎn)量和質(zhì)量,他們的辦法是AI。人工智能(AI)會(huì)如何影響農(nóng)業(yè),食品工業(yè)和生物工程領(lǐng)域?美國(guó)能源部(DOE)橡樹嶺國(guó)家實(shí)驗(yàn)室(ORNL)生物科學(xué)部門的研發(fā)人員Dan Jacobson提出了一些想法。
在過(guò)去的5年中,雅各布森和他的團(tuán)隊(duì)研究了許多類似高粱的植物,以了解使它們適應(yīng)不斷變化的環(huán)境和氣候的遺傳變量和模式。作為計(jì)算生物學(xué)家,雅各布森使用了一些世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)進(jìn)行工作,包括最近退役的Cray XK7 Titan和世界上最強(qiáng)大,最聰明的開放科學(xué)超級(jí)計(jì)算機(jī)IBM AC922 Summit超級(jí)計(jì)算機(jī),兩者均位于Oak Ridge領(lǐng)導(dǎo)層計(jì)算設(shè)施(OLCF),是ORNL DOE科學(xué)辦公室的用戶設(shè)施。

圖源:Pixabay
去年,Jacobson及其團(tuán)隊(duì)在Summit上使用一種稱為“混合精度”的特殊計(jì)算技術(shù),成為第一個(gè)達(dá)到百億分之一秒速度(每秒大約五百億次計(jì)算)的計(jì)算機(jī)組,從而獲得了戈登·貝爾獎(jiǎng)。
雅各布森(Jacobson)的團(tuán)隊(duì)目前正在從事眾多項(xiàng)目,這些項(xiàng)目形成了AI在植物育種和生物能源領(lǐng)域的未來(lái)發(fā)展路線圖。該團(tuán)隊(duì)的工作在10月份的《生物技術(shù)趨勢(shì)》中有介紹。
在此次問答中,Jacobson討論了他的團(tuán)隊(duì)在基因組選擇算法方面的工作,他對(duì)環(huán)境基因組學(xué)的未來(lái)的愿景以及模擬與AI相遇的空間。
問:您的團(tuán)隊(duì)在過(guò)去一年中一直在做什么?
雅各布森:我們一直在做一些事情。最近,我們已經(jīng)開發(fā)出新的方法來(lái)進(jìn)行所謂的“基因組選擇”,或設(shè)計(jì)用于繁殖目的的生物。我們已經(jīng)開發(fā)了一種新的基因組選擇算法,該算法由新興的機(jī)器學(xué)習(xí)方法(統(tǒng)稱為“可解釋的AI”)驅(qū)動(dòng),該領(lǐng)域通過(guò)嘗試了解這些算法的決策方式來(lái)改進(jìn)黑盒分類器AI方法。
該算法可幫助我們確定需要組合基因組中的哪些變異,以產(chǎn)生能夠適應(yīng)其環(huán)境的植物。這將根據(jù)您要采取的生物工程策略為育種工作,基因編輯工作或這些工作的組合提供信息。

問:去年,您使用一個(gè)允許您研究生物體與其環(huán)境之間的組合相互作用的代碼突破了百億億美元級(jí)障礙后獲得了戈登·貝爾獎(jiǎng)。該算法如何適合該研究?
雅各布森:我們?nèi)栽谑褂萌ツ晔褂玫哪P停乾F(xiàn)在,我們已經(jīng)將這種由AI驅(qū)動(dòng)的基因組選擇算法引入到組合度量[CoMet]代碼中,并且每年都會(huì)向其提供環(huán)境信息,因此我們可以在整個(gè)氣候時(shí)間內(nèi)進(jìn)行全基因組關(guān)聯(lián)研究。
此外,我們已將我們所謂的“氣候類型”(即植物正在適應(yīng)的氣候和環(huán)境信息)的工作擴(kuò)展到全球范圍。借助ORNL的彼得·桑頓(Peter Thornton)及其團(tuán)隊(duì)在生物地理學(xué)和氣候領(lǐng)域的專業(yè)知識(shí),我們構(gòu)建了地球上每平方公里土地的模型,并將從土壤到光譜的50年環(huán)境和氣候數(shù)據(jù)編碼到這些模型中質(zhì)量,介于兩者之間。
為了了解不同環(huán)境之間的所有關(guān)系,我們?cè)诜鍟?huì)上使用了添加到CoMet代碼庫(kù)中的稱為Duo的新算法將這些環(huán)境相互比較。據(jù)我們所知,這是有史以來(lái)最大的科學(xué)計(jì)算。
問:這聽起來(lái)是一項(xiàng)巨大的成就。這些比較可以為您提供哪些信息?
雅各布森:這些比較可以幫助我們準(zhǔn)確地確定我們可以針對(duì)特定環(huán)境的位置,以及我們需要包括哪些基因突變和等位基因以幫助這些植物適應(yīng)不同的環(huán)境。我們可以看一個(gè)環(huán)境,然后說(shuō):“對(duì)于這種環(huán)境,這是我們?cè)谥参锘蚪M中要擁有的一切,才能使其盡可能地繁衍。”
問:這是環(huán)境基因組學(xué)的未來(lái)嗎?
雅各布森(Jacobson):我們所看到的綜合視野是所有“-組學(xué)”層之間的聯(lián)系,從基因組學(xué)(基因表達(dá)),蛋白質(zhì)組學(xué)(蛋白質(zhì)表達(dá))和代謝組學(xué)(代謝產(chǎn)物表達(dá))一直貫穿表型(可觀察到的性狀)。因此,從基因組到現(xiàn)象組以及介于兩者之間的所有事物。
理想情況下,我們希望將基因型數(shù)據(jù)與氣候和環(huán)境數(shù)據(jù)結(jié)合在一個(gè)集成模型中,從單個(gè)核苷酸(構(gòu)成DNA的分子結(jié)構(gòu))到行星規(guī)模的環(huán)境和氣候,都應(yīng)結(jié)合在一起。由于我們實(shí)際上已經(jīng)計(jì)算出了行星上每個(gè)點(diǎn)的光譜尺度,這是可能的,因?yàn)槲覀儗?shí)際上已經(jīng)計(jì)算出了地球上每個(gè)點(diǎn)的光譜尺度,這是來(lái)自我們最近的恒星太陽(yáng)的天體表型。
首先,我們需要研究此類模型中的組合相互作用,以了解它們?nèi)绾螌?dǎo)致我們?cè)噲D在植物中優(yōu)化其新興特性以實(shí)現(xiàn)未來(lái)的生產(chǎn)力和可持續(xù)性。然后,我們可以將其與植物歷來(lái)適應(yīng)環(huán)境的方式聯(lián)系起來(lái),以便為生物能源或食品生產(chǎn)設(shè)計(jì)新的理想基因型,并對(duì)其進(jìn)行優(yōu)化以在特定環(huán)境中蓬勃發(fā)展。

問:將來(lái)農(nóng)業(yè)中會(huì)需要這種東西嗎?
雅各布森(Jacobson):隨著世界的變化,利用“邊際土地”的壓力越來(lái)越大,這是目前通常不用于農(nóng)業(yè)或不能有效地用于農(nóng)業(yè)的土地。因此,如果我們?cè)O(shè)計(jì)在這些邊緣環(huán)境中壯成長(zhǎng)的基因型,那么除了我們的能源生產(chǎn)外,我們還將能夠增加我們的糧食生產(chǎn)。這是一項(xiàng)雙重用途技術(shù)。
我們還真的擔(dān)心土地過(guò)度施肥,因?yàn)檫@可能導(dǎo)致徑流產(chǎn)生嚴(yán)重的生態(tài)后果。如果我們能夠優(yōu)化植物以利用幾乎不需額外肥料的養(yǎng)分,那么對(duì)可持續(xù)發(fā)展也將帶來(lái)巨大好處。因此,我們實(shí)際上是試圖從整體上看待這個(gè)問題,并盡可能在模型中建立盡可能多的適應(yīng),以便我們知道在某些環(huán)境中的影響。
問:接下來(lái)要做什么?
雅各布森(Jacobson):下一步是查看歷史數(shù)據(jù)以及所有這些關(guān)系,然后進(jìn)行展望,以便我們可以實(shí)際設(shè)計(jì)不僅在當(dāng)前環(huán)境區(qū)域中能夠繁盛,而且在未來(lái)隨著全球網(wǎng)絡(luò)變化而繼續(xù)繁盛的基因型。對(duì)于一年生作物和長(zhǎng)期多年生作物而言,向前預(yù)測(cè)的能力非常重要。
問:還有哪些挑戰(zhàn)?
雅各布森:我們正在做的一切都是繁重的工作,但我們正在研究如何在Summit和OLCF未來(lái)的百億億分之一系統(tǒng)Frontier上設(shè)計(jì)這種新方法,以便我們能夠真正理解所有這些關(guān)系。而且,既然我們?cè)谒羞@些“ -omics”層上都擁有此數(shù)據(jù),我們就必須運(yùn)行這些稱為多面體的層組合,成千上萬(wàn)次。我們正在構(gòu)建的下一組算法是在所有多表位之內(nèi)和之間找到所有可能的關(guān)系和關(guān)聯(lián)。那是下一個(gè)領(lǐng)域。
問:您的工作是否會(huì)與傳統(tǒng)的氣候模擬模型相交?
雅各布森(Jacobson):這是由數(shù)據(jù)和AI驅(qū)動(dòng)的氣候信息視圖,與模擬方法不同。隨著時(shí)間的流逝,看到它們相交的位置將很有趣,并且我們?cè)谶@里可能學(xué)到的東西對(duì)于氣候模型很有幫助,反之亦然。我們也知道,這種可解釋的AI技術(shù)可以在模擬研究中提供很多幫助。理想情況下,我們可以開發(fā)可解釋的AI驅(qū)動(dòng)模型,該模型可以幫助模擬模型解決某些瓶頸問題。如果我們可以學(xué)習(xí)模擬模型使用的模式,并用學(xué)習(xí)的結(jié)果代替它們的某些瓶頸,那么這些模型可以做更多有創(chuàng)意的事情。確實(shí),這是我們將來(lái)可能會(huì)看到某些空間相交的地方。