文丨陳根
當前,新藥研發(fā)正面臨著成本高企、收益率下降的雙重困境,而人工智能是否能解放新藥研發(fā)的艱難景況,還是個謎題。
眾所周知,一款新藥的研發(fā)是一個風險大、周期長、成本高的艱難歷程。國際上有一個傳統(tǒng)的“雙十”說法——10年時間,10億美金,才可能成功研發(fā)出一款新藥。即使如此,大約只有10%新藥能被批準進入臨床期,最終只有更小比例的藥物分子可以上市,甚至有人將這個過程形容為“死亡之谷”。
2017年德勤發(fā)布的報告指出,成功上市一個新藥的成本從2010年的11.88億美元已經增加到20億美元。而2017年全球TOP12制藥巨頭在研發(fā)上的投資回報率低到3.2%,處于8年來的最低水平。面對投入越來越高的制藥領域,人工智能作為一種新興技術,被視為新藥研發(fā)實現(xiàn)降本增效的重要方式之一。
然而,人們寄希望于人工智能,但至今,似乎未聽到什么突破性的結果。早在1981年就被《Discovery》雜志看好的人工智能新藥研發(fā)——“化學家們再也不用整周、甚至是整月地呆在實驗室,去測試那些計算機認為難以成功的分子”——為什么在40年后依然步伐緩慢?傳統(tǒng)制藥與機器制藥的明天又在哪里?
傳統(tǒng)制藥的窮途末路
盡管現(xiàn)代醫(yī)學的高速發(fā)展拯救了越來越多的生命,但一個不可否認的事實是,當前,現(xiàn)代醫(yī)學已研發(fā)出的藥物,與現(xiàn)存的疾病數(shù)目相比,依然是九牛一毛。有許多疾病至今無藥可治,而新的病毒又層出不窮。
制藥業(yè)是危險與迷人并存的行業(yè),昂貴且漫長。一款新型藥物的推出,需要經過藥物發(fā)現(xiàn)、臨床前研究、臨床研究和審批上市等多階段,而這往往需要耗費十幾年乃至數(shù)十年的時間,以及數(shù)十億美元的成本。即便如此,其失敗率依然高達90%以上。
通常,一款藥物的研發(fā)可以分為藥物發(fā)現(xiàn)和臨床研究兩個階段。在藥物發(fā)現(xiàn)階段,需要科學家先建立疾病假說,發(fā)現(xiàn)靶點,設計化合物,再是展開臨床前研究。其中,僅發(fā)現(xiàn)靶點、設計化合物環(huán)節(jié),就障礙重重,包括苗頭化合物篩選、先導化合物優(yōu)化、候選化合物的確定、合成等,每一步都面臨高淘汰率。
阿爾茨海默癥(Alzheimer’s disease,AD),俗稱老年癡呆,是一種神經系統(tǒng)退行性疾病,在1906年由一位德國醫(yī)生首次發(fā)現(xiàn)并且報道。阿爾茨海默癥臨床表現(xiàn)為漸進性記憶障礙、認知功能障礙和語言障礙等,出現(xiàn)失語、失用、失認等病癥表現(xiàn),就像是記憶的橡皮擦,一點點擦去患者與其家人、朋友的記憶。
遺憾的是,到目前為止,仍沒有明確的治療阿爾茨海默癥的方法。也就是說,我們等待了100年,還是沒有找到更好的藥。2019年,國際阿爾茨海默病協(xié)會估計全球有超過5000萬人患有阿爾茨海默癥,到2050年,這一數(shù)字將飆升至1.52億。沒有可以治療阿爾茨海默癥的藥,就意味著2050年,這1.52億人群仍要遭受阿爾茨海默癥的困擾。
《Nature》在2017年發(fā)表了題為The drug-maker’s guide to the galaxy的文章,文章指出:經過化學家的分析,在整個化學空間里面,人們可以找到的藥物分子的個數(shù),可能性是10的60次方。
要知道,太陽系里面所有的原子加到一起,數(shù)量大概也只有10的54次方。更不用說在傳統(tǒng)實驗室里,通過傳統(tǒng)的藥物篩選辦法能夠接觸到的分子數(shù)量,大概僅有10的11次方。11和60,這兩個數(shù)字中間,就是橫亙在一款新藥走向臨床道路的巨大天塹。
并且,一種藥物,即便是經過成千上萬種化合物的篩選,也僅有幾種能順利進入最后的研發(fā)環(huán)節(jié),大約只有10%新藥能被批準進入臨床期,最終只有更小比例的藥物分子可以上市。在這樣的篩選比例下,無怪投資人將新藥“從實驗室進入臨床試驗階段”描述為“死亡之谷”。
并且,隨著現(xiàn)代醫(yī)學的精進,其所研發(fā)新藥的難度也日益提升。一方面,2017年全球TOP12制藥巨頭在研發(fā)上的投資回報率僅有3.2%,處于8年來的最低水平。過去公認的高投入和高回報,似乎落到了低谷。另一方面,全球新藥管線中處于后期階段的項目越來越少,2016年尚有189個III期項目,2017年則落到159個III期項目。傳統(tǒng)的制藥似乎已經走到窮途末路。
開啟制藥行業(yè)的新篇章
面對傳統(tǒng)制藥行業(yè)高成本、高投入、高風險的困境,人工智能作為一種新興技術,被寄予希望成為擰動這一難題的好鑰匙。
事實上,人工智能進發(fā)制藥并不是近來才有的事情。1981年的《Discovery》雜志就已經清楚地解釋了計算機對于制藥業(yè)的重要性:“平均下來,醫(yī)藥公司每篩選出的8000個藥用分子中,只有1款能最終問世。計算機有望能提高這個比例——化學家們再也不用整周、甚至是整月地呆在實驗室,去測試那些計算機認為難以成功的分子。”
幾個月后,《財富》雜志的封面則對計算機輔助的藥物發(fā)現(xiàn)進行了專題報道,并稱這項技術為“下一次工業(yè)革命”。人工智能被制藥業(yè)寄予顛覆性的期望并不是沒有原因的,面對似乎已經走到窮途末路的傳統(tǒng)制藥,用人工智能制藥無疑是實現(xiàn)制藥業(yè)降本增效的重要方式之一。
一方面,人工智能可以幫助尋找疾病、基因和藥物之間的深層次聯(lián)系,以降低高昂的研發(fā)費用和失敗率。基于疾病代謝數(shù)據(jù)、大規(guī)模基因組識別、蛋白組學、代謝組學,人工智能可以對候選化合物進行虛擬高通量篩選,尋找藥物與疾病、疾病與基因的鏈接關系,提升藥物開發(fā)效率,提高藥物開發(fā)的成功率。
具體而言,科研人員可以使用人工智能的文本分析功能搜索并剖析海量文獻、專利和臨床結果,找出潛在的、被忽視的通路、蛋白、機制等與疾病的相關關系,進一步提出新的可供測試的假說,從而找到新機制和新靶點。
漸凍人癥(ALS)就是由特定基因引起的一類罕見病,而IBMWatson使用人工智能技術來檢測數(shù)萬個基因與ALS的關聯(lián)性,成功發(fā)現(xiàn)了5個與ALS相關的基因,推進了人類對漸凍人癥的研究進展(此前醫(yī)學已發(fā)現(xiàn)了3個與ALS相關基因)。
目前,人工智能算法模型被諸多學者提出,隨著藥物研發(fā)數(shù)據(jù)的高速累積和數(shù)字化轉型,以及人工智能技術的加速發(fā)展,決策樹(DT)、隨機森林(RF)和支持向量機(SVM)等機器學習模型以及深度神經網絡(DNN)、卷積神經網絡(CNN)和循環(huán)神經網絡(FNN)等深度學習算法逐漸被應用于藥物發(fā)現(xiàn)領域。
另一方面,工智能可以虛擬篩選候選藥物,幫助科研人員高效找到活性較高的化合物,提高潛在藥物的篩選速度和成功率。人工智能可以通過模擬小分子化合物的藥物特性,在較短時間內挑選出最佳模擬化合物進行合成試驗,大幅提高化學合成路線設計速度,以降低操作成本。
比如,美國Atomwise公司使用深度卷積神經網絡AtomNet來支持基于結構的藥物設計輔助藥品研發(fā),通過人工智能分析藥物數(shù)據(jù)庫模擬研發(fā)過程,預測潛在的候選藥物,評估新藥研發(fā)風險,預測藥物效果。
當前,人工智能已經實現(xiàn)在生物醫(yī)藥產業(yè)自上游到下游的投入使用,且虛擬篩選、靶點發(fā)現(xiàn)等部分應用場景也能夠為企業(yè)帶來實際收益。新型冠狀病毒肺炎疫情發(fā)生后,越來越多的生物醫(yī)藥企業(yè)和研究機構通過將其業(yè)務與人工智能結合來完成創(chuàng)新突破,在新藥開發(fā)、生產運營,甚至商業(yè)戰(zhàn)略中都有所應用。
今年3月,總部位于中國香港的國際知名AI制藥公司Insilico Medicine(英矽智能)就宣布,他們通過人工智能發(fā)現(xiàn)了治療肺纖維化的新靶點,然后從無到有設計了一個新的藥物分子來靶向這個靶點。這也是全球首次利用人工智能發(fā)現(xiàn)新機制特發(fā)性肺纖維化藥物。
這一突破標志著業(yè)界首次對人工智能發(fā)現(xiàn)的藥物進行科學驗證,并將其用于新藥研發(fā),直至候選化合物的臨床前研究。而且,整個研發(fā)過程只花了不到18個月的時間和大約200萬美元,刷新了速度和最低成本記錄,在大大加快和推進臨床前開發(fā)的同時,節(jié)約了大量藥物發(fā)現(xiàn)成本。
AI制藥,步伐緩慢
當然,人們雖然寄希望于人工智能,但人工智能所獲得的突破與人們對人工智能報以的高漲的熱情似乎并不成正比。計算機設計新藥的程序已經存在了好幾十年,但在醫(yī)藥行業(yè),研發(fā)產出率非但沒有上升,反而還逐年下降。藥物發(fā)現(xiàn)的時間沒有縮短,成本也沒有變得更低。
這并不是說這些程序阻礙了新藥的研發(fā),而是說它們尚未給行業(yè)帶來大幅的可喜改觀。四十年來,人工智能在制藥行業(yè)前進的步伐依然緩慢。新藥發(fā)現(xiàn)和研發(fā)所面臨的挑戰(zhàn)數(shù)不勝數(shù),人工智能可以解決的部分實在有限。
這背后涉及到至少兩方面的原因。一方面,當今的人工智能存在其固有局限。對于目前的人工智能來說,其主要還是通過在數(shù)據(jù)中尋找模式來學習的。通常,輸入的數(shù)據(jù)越多,人工智能就越智能。這也意味著,這些數(shù)據(jù)也具有限制了人工智能制藥的可能。
要實現(xiàn)超自然的性能,一般來說,必須輸入模擬特定行為的高質量數(shù)據(jù)對系統(tǒng)進行訓練。這在圍棋等游戲中容易實現(xiàn),每一步都有明確的參數(shù),但在不太可預測的現(xiàn)實生活場景中則要困難得多。這也令人工智能在應用到現(xiàn)實場景的過程中,經常會遇到困難。
疫情期間,在法國、美國和英國等地,人工智能之所以也未能支持政府建立有效的接觸者追蹤系統(tǒng)的努力,很大一部分原因就是缺少必要的“原料”:在英國,由于缺乏系統(tǒng)的數(shù)據(jù)采集來追蹤和溯源新冠病例,在短期內幾乎不可能使用人工智能技術實施接觸者追蹤干預。
在我國,醫(yī)藥大數(shù)據(jù)也存在數(shù)據(jù)量少、數(shù)據(jù)體系不完整、數(shù)據(jù)標準不統(tǒng)一、數(shù)據(jù)共享機制不完善等問題。諸如病歷、隨訪記錄目前還很難標準化、數(shù)字化;國內創(chuàng)新藥研發(fā)起步較晚,原始數(shù)據(jù)積累有限;國內藥品數(shù)據(jù)存儲分散,存儲格式不一,完整藥物數(shù)據(jù)獲取比較困難;新藥研發(fā)領域的核心數(shù)據(jù)來源于藥企,考慮到商業(yè)機密的問題,企業(yè)不愿公開核心數(shù)據(jù)。醫(yī)藥數(shù)據(jù)的數(shù)量和質量成為人工智能在制藥行業(yè)發(fā)展的主要障礙。
另一方面,我們不得不充滿敬畏地說,生物是一個非常復雜的體系。理論上能起效的新分子,在人體中可能有毒性,可能有脫靶效應,可能有副作用,可能與其他分子發(fā)生復雜的反應。更何況,沒有兩名患者的身體特征完全一致,這進一步增加了藥物研發(fā)的復雜程度。事實上,人工智能再具有潛力,也只能是作為工具存在,我們不必神話它。
上個世紀的人類基因組計劃是一個偉大的計劃,是人類嘗試在分子層面上去理解人類生命是如何自我表達、代際之間怎么去溝通,人體如何通過遺傳物質,讓一代人和下一代人進行對話。這才有了現(xiàn)代醫(yī)學對于堿基可以形成DNA的序列,然后DNA通過生物學的過程去指導蛋白質的合成的了解?,F(xiàn)在,人工智能要扮演的,就是這樣的角色。
人類智慧所能做的,是嘗試理解生物學語言,嘗試理解化學語言,然后把這兩個語言合到一起,從而能夠找到和疾病相關的蛋白質最匹配的那個化學分子,最終治愈人體的疾病。而人工智能所要做的,就是和藥物化學家一起合作,來讓人類可以去發(fā)現(xiàn)更好的藥物。
制藥業(yè)就是這樣一個一路荊棘一路玫瑰的行業(yè),危險但迷人,昂貴且漫長。人工智能制藥作為一個新生的跨學科的復雜行業(yè),每一天都需要面對復雜的問題。在人工智能探究新藥上,人們將會綜合化學、生物、計算機、數(shù)學、統(tǒng)計等多個學科的經驗。如何實現(xiàn)如此多學科的彼此對話和彼此理解,也是人工智能研發(fā)新藥的未竟之路。
好在一切才剛開始。和任何一個新生的技術一樣,人工智能制藥也會經歷一個成長爬坡期。未來,人工智能藥物研發(fā)將不再是生物醫(yī)藥行業(yè)中一個概念性技術,而是成為行業(yè)中非常核心的存在。