高粱,一種重要的農(nóng)作物,用作食品和生物燃料的生產(chǎn)。美國科學家考慮在這個領域如何提高產(chǎn)量和質(zhì)量,他們的辦法是AI。人工智能(AI)會如何影響農(nóng)業(yè),食品工業(yè)和生物工程領域?美國能源部(DOE)橡樹嶺國家實驗室(ORNL)生物科學部門的研發(fā)人員Dan Jacobson提出了一些想法。
在過去的5年中,雅各布森和他的團隊研究了許多類似高粱的植物,以了解使它們適應不斷變化的環(huán)境和氣候的遺傳變量和模式。作為計算生物學家,雅各布森使用了一些世界上最強大的超級計算機進行工作,包括最近退役的Cray XK7 Titan和世界上最強大,最聰明的開放科學超級計算機IBM AC922 Summit超級計算機,兩者均位于Oak Ridge領導層計算設施(OLCF),是ORNL DOE科學辦公室的用戶設施。

圖源:Pixabay
去年,Jacobson及其團隊在Summit上使用一種稱為“混合精度”的特殊計算技術,成為第一個達到百億分之一秒速度(每秒大約五百億次計算)的計算機組,從而獲得了戈登·貝爾獎。
雅各布森(Jacobson)的團隊目前正在從事眾多項目,這些項目形成了AI在植物育種和生物能源領域的未來發(fā)展路線圖。該團隊的工作在10月份的《生物技術趨勢》中有介紹。
在此次問答中,Jacobson討論了他的團隊在基因組選擇算法方面的工作,他對環(huán)境基因組學的未來的愿景以及模擬與AI相遇的空間。
問:您的團隊在過去一年中一直在做什么?
雅各布森:我們一直在做一些事情。最近,我們已經(jīng)開發(fā)出新的方法來進行所謂的“基因組選擇”,或設計用于繁殖目的的生物。我們已經(jīng)開發(fā)了一種新的基因組選擇算法,該算法由新興的機器學習方法(統(tǒng)稱為“可解釋的AI”)驅(qū)動,該領域通過嘗試了解這些算法的決策方式來改進黑盒分類器AI方法。
該算法可幫助我們確定需要組合基因組中的哪些變異,以產(chǎn)生能夠適應其環(huán)境的植物。這將根據(jù)您要采取的生物工程策略為育種工作,基因編輯工作或這些工作的組合提供信息。

問:去年,您使用一個允許您研究生物體與其環(huán)境之間的組合相互作用的代碼突破了百億億美元級障礙后獲得了戈登·貝爾獎。該算法如何適合該研究?
雅各布森:我們?nèi)栽谑褂萌ツ晔褂玫哪P停乾F(xiàn)在,我們已經(jīng)將這種由AI驅(qū)動的基因組選擇算法引入到組合度量[CoMet]代碼中,并且每年都會向其提供環(huán)境信息,因此我們可以在整個氣候時間內(nèi)進行全基因組關聯(lián)研究。
此外,我們已將我們所謂的“氣候類型”(即植物正在適應的氣候和環(huán)境信息)的工作擴展到全球范圍。借助ORNL的彼得·桑頓(Peter Thornton)及其團隊在生物地理學和氣候領域的專業(yè)知識,我們構建了地球上每平方公里土地的模型,并將從土壤到光譜的50年環(huán)境和氣候數(shù)據(jù)編碼到這些模型中質(zhì)量,介于兩者之間。
為了了解不同環(huán)境之間的所有關系,我們在峰會上使用了添加到CoMet代碼庫中的稱為Duo的新算法將這些環(huán)境相互比較。據(jù)我們所知,這是有史以來最大的科學計算。
問:這聽起來是一項巨大的成就。這些比較可以為您提供哪些信息?
雅各布森:這些比較可以幫助我們準確地確定我們可以針對特定環(huán)境的位置,以及我們需要包括哪些基因突變和等位基因以幫助這些植物適應不同的環(huán)境。我們可以看一個環(huán)境,然后說:“對于這種環(huán)境,這是我們在植物基因組中要擁有的一切,才能使其盡可能地繁衍。”
問:這是環(huán)境基因組學的未來嗎?
雅各布森(Jacobson):我們所看到的綜合視野是所有“-組學”層之間的聯(lián)系,從基因組學(基因表達),蛋白質(zhì)組學(蛋白質(zhì)表達)和代謝組學(代謝產(chǎn)物表達)一直貫穿表型(可觀察到的性狀)。因此,從基因組到現(xiàn)象組以及介于兩者之間的所有事物。
理想情況下,我們希望將基因型數(shù)據(jù)與氣候和環(huán)境數(shù)據(jù)結合在一個集成模型中,從單個核苷酸(構成DNA的分子結構)到行星規(guī)模的環(huán)境和氣候,都應結合在一起。由于我們實際上已經(jīng)計算出了行星上每個點的光譜尺度,這是可能的,因為我們實際上已經(jīng)計算出了地球上每個點的光譜尺度,這是來自我們最近的恒星太陽的天體表型。
首先,我們需要研究此類模型中的組合相互作用,以了解它們?nèi)绾螌е挛覀冊噲D在植物中優(yōu)化其新興特性以實現(xiàn)未來的生產(chǎn)力和可持續(xù)性。然后,我們可以將其與植物歷來適應環(huán)境的方式聯(lián)系起來,以便為生物能源或食品生產(chǎn)設計新的理想基因型,并對其進行優(yōu)化以在特定環(huán)境中蓬勃發(fā)展。

問:將來農(nóng)業(yè)中會需要這種東西嗎?
雅各布森(Jacobson):隨著世界的變化,利用“邊際土地”的壓力越來越大,這是目前通常不用于農(nóng)業(yè)或不能有效地用于農(nóng)業(yè)的土地。因此,如果我們設計在這些邊緣環(huán)境中壯成長的基因型,那么除了我們的能源生產(chǎn)外,我們還將能夠增加我們的糧食生產(chǎn)。這是一項雙重用途技術。
我們還真的擔心土地過度施肥,因為這可能導致徑流產(chǎn)生嚴重的生態(tài)后果。如果我們能夠優(yōu)化植物以利用幾乎不需額外肥料的養(yǎng)分,那么對可持續(xù)發(fā)展也將帶來巨大好處。因此,我們實際上是試圖從整體上看待這個問題,并盡可能在模型中建立盡可能多的適應,以便我們知道在某些環(huán)境中的影響。
問:接下來要做什么?
雅各布森(Jacobson):下一步是查看歷史數(shù)據(jù)以及所有這些關系,然后進行展望,以便我們可以實際設計不僅在當前環(huán)境區(qū)域中能夠繁盛,而且在未來隨著全球網(wǎng)絡變化而繼續(xù)繁盛的基因型。對于一年生作物和長期多年生作物而言,向前預測的能力非常重要。
問:還有哪些挑戰(zhàn)?
雅各布森:我們正在做的一切都是繁重的工作,但我們正在研究如何在Summit和OLCF未來的百億億分之一系統(tǒng)Frontier上設計這種新方法,以便我們能夠真正理解所有這些關系。而且,既然我們在所有這些“ -omics”層上都擁有此數(shù)據(jù),我們就必須運行這些稱為多面體的層組合,成千上萬次。我們正在構建的下一組算法是在所有多表位之內(nèi)和之間找到所有可能的關系和關聯(lián)。那是下一個領域。
問:您的工作是否會與傳統(tǒng)的氣候模擬模型相交?
雅各布森(Jacobson):這是由數(shù)據(jù)和AI驅(qū)動的氣候信息視圖,與模擬方法不同。隨著時間的流逝,看到它們相交的位置將很有趣,并且我們在這里可能學到的東西對于氣候模型很有幫助,反之亦然。我們也知道,這種可解釋的AI技術可以在模擬研究中提供很多幫助。理想情況下,我們可以開發(fā)可解釋的AI驅(qū)動模型,該模型可以幫助模擬模型解決某些瓶頸問題。如果我們可以學習模擬模型使用的模式,并用學習的結果代替它們的某些瓶頸,那么這些模型可以做更多有創(chuàng)意的事情。確實,這是我們將來可能會看到某些空間相交的地方。