10分鐘能做什么?充其量只能用來看幾條新聞的時(shí)間,對(duì)于Watson而言卻能診斷一名病人。Watson的認(rèn)知計(jì)算能力已經(jīng)為我們所熟悉,而它也在醫(yī)學(xué)領(lǐng)域不斷發(fā)力。日前,東京大學(xué)醫(yī)學(xué)研究院利用Watson判斷一位女性患有罕見的白血病,而這只用了10分鐘的時(shí)間?;颊邽橐幻?0歲的女性,最初根據(jù)診斷結(jié)果,顯示她患了急髓白血病。
但在經(jīng)歷各種療法后,效果并不明顯。 根據(jù)東大醫(yī)學(xué)院研究人員Arinobu Tojo的說法,他們利用Watson系統(tǒng)來對(duì)此病人進(jìn)行診斷。系統(tǒng)通過比對(duì)2000萬份癌癥研究論文,在10分鐘得出了診斷結(jié)果:患者得了一種罕見白血病。
該研究主要由美國(guó)的IBM研究所,紐約基因組中心及東大醫(yī)學(xué)研究所聯(lián)合完成。

10分鐘診斷是如何實(shí)現(xiàn)的?
東京系統(tǒng)與軟件開發(fā)研究所Watson Health Cloud的軟件工程師林雪婷向雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)表示,目前醫(yī)療方面的項(xiàng)目難點(diǎn)其實(shí)比較統(tǒng)一。
首先,你要有可以對(duì)照的數(shù)據(jù),在這個(gè)項(xiàng)目里是和紐約基因中心進(jìn)行合作。
其次數(shù)據(jù)使用時(shí),第三方只能根據(jù)HIPPA協(xié)議使用個(gè)人數(shù)據(jù)的統(tǒng)計(jì)信息。
再者,可能就是怎么把數(shù)據(jù)導(dǎo)出來作為這個(gè)研究的樣本了,這個(gè)也很麻煩,因?yàn)榛驍?shù)據(jù)很大。
而做人工智能診斷智能圖譜的康夫子CEO,前百度自然語言處理部資深研發(fā)工程師、文本知識(shí)挖掘方向負(fù)責(zé)人張超也列舉了這一研究的主要難點(diǎn)。“數(shù)據(jù)抽取是個(gè)非常有門檻的技術(shù)”,主要體現(xiàn)在四個(gè)方面:
1. 相比較結(jié)構(gòu)化或者半結(jié)構(gòu)化抽取,無結(jié)構(gòu)化抽取面臨更多的挑戰(zhàn),比如:抽取模板學(xué)習(xí)更為復(fù)雜,抽取過程的語義轉(zhuǎn)移,另外還有不少歧義、邊界問題需要處理;
2. 無結(jié)構(gòu)化抽取的面對(duì)的數(shù)據(jù)源更為繁雜,如:網(wǎng)頁、論文、書籍、問答數(shù)據(jù)等等,不同數(shù)據(jù)源帶來的數(shù)據(jù)清洗工作也不盡相同;
3. 在醫(yī)學(xué)應(yīng)用場(chǎng)景下,要求抽取工作的準(zhǔn)確率、召回率都需要很高,這也是抽取任務(wù)的一大挑戰(zhàn);
4. 無結(jié)構(gòu)化文本抽取的過程也伴隨著大量的計(jì)算,對(duì)計(jì)算性能也有較高的要求。
而新聞中提到的“10分鐘”,在林雪婷看來,“應(yīng)該是不包括把數(shù)據(jù)導(dǎo)出來的時(shí)間的”。
張超也對(duì)這一點(diǎn)表示肯定。“這個(gè)10分鐘,應(yīng)該是用在匹配搜索上的。”
也就是說,這一過程首先要對(duì)結(jié)構(gòu)化的知識(shí)進(jìn)行構(gòu)建,肯定是在離線狀態(tài)下完成的。在這個(gè)案例中,將基因中心的相關(guān)數(shù)據(jù)導(dǎo)在一個(gè)數(shù)據(jù)池中,并進(jìn)行內(nèi)容管理,而Watson在10分鐘內(nèi)所做的,就是在已經(jīng)做了篩選的數(shù)據(jù)中進(jìn)行對(duì)比,找尋相似項(xiàng)。“所以文中說的2000萬論文,應(yīng)該是離線抽取后使用的;還有一種可能是,利用這2000萬篇論文去調(diào)參原來的模型。”
Watson的醫(yī)療藍(lán)圖
2011年2月,Watson在智力節(jié)目《危險(xiǎn)邊緣》打敗了人類對(duì)手,用自然語言實(shí)現(xiàn)深度問答,展示了其強(qiáng)大的學(xué)習(xí)能力。而Watson在醫(yī)療機(jī)構(gòu)的合作,同樣也幫助醫(yī)學(xué)研究人員在認(rèn)知計(jì)算應(yīng)用上不斷推進(jìn)。
Watson Health成立于2015年4月,吹響了Watson進(jìn)軍醫(yī)療行業(yè)的號(hào)角。
去年7月,Watson和美國(guó)第二大連鎖藥店CVS進(jìn)行合作,對(duì)用戶行為和指標(biāo)分析,并預(yù)測(cè)其健康狀況。在第一階段的合作中,CVS主要向Watson開放用戶的行為信息、臨床數(shù)據(jù)、購(gòu)藥數(shù)據(jù)及保險(xiǎn)信息等。
8月份,IBM還收購(gòu)了醫(yī)學(xué)影像公司Merge,結(jié)合Watson的認(rèn)知學(xué)習(xí)能力,能夠?qū)⑨t(yī)學(xué)影像、診斷和用藥方案三者貫通起來,而對(duì)醫(yī)學(xué)影像的深度解讀,就成為了Watson的核心力量。除外,IBM還與蘋果、美敦力等公司建立了合作關(guān)系。
Watson在醫(yī)學(xué)研究上的應(yīng)用其實(shí)不只局限于診斷領(lǐng)域,在讀病例、讀論文、尋找治療疾病的配藥方面,都已經(jīng)有了成果。此前IBM和美國(guó)癌癥基因會(huì)(AACR)建立過合作,據(jù)推測(cè)這一舉措可能是為了獲得患者的統(tǒng)計(jì)數(shù)據(jù),但Watson在治療上的成功應(yīng)該是首例。
張超對(duì)IBM Watson的信心相對(duì)比較充足,他認(rèn)為只要有足夠的數(shù)據(jù),就可以在腫瘤領(lǐng)域大規(guī)模應(yīng)用。
“在記憶維度,機(jī)器要比人厲害;只要灌輸給機(jī)器足夠多的知識(shí),機(jī)器可以代替人們來搜索各種可能,最后輔助醫(yī)生。”
而根據(jù)林雪婷向雷鋒網(wǎng)的表述,Watson Health Cloud將把這個(gè)案例作為成功應(yīng)用放在醫(yī)療云上,這也就意味著可能成為大范圍的應(yīng)用。
“但我估計(jì)真正落實(shí)到云端可以用的,也就是說醫(yī)院可以直接應(yīng)用于診斷領(lǐng)域的方法要兩三年,在這之前都是研究成果而已。”
而林雪婷也指出,目前所有的項(xiàng)目,所引用的數(shù)據(jù)都源于美國(guó),日本暫時(shí)還沒有相關(guān)的第三方使用醫(yī)療數(shù)據(jù)的法規(guī),“據(jù)說(日本)明年會(huì)重新提案立法。”雖然目前我們已經(jīng)看到了IBM在醫(yī)療領(lǐng)域上的成功,但要真正走進(jìn)我們的日常診斷中,不僅需要技術(shù)的不斷優(yōu)化,在法律上同樣也需要迎頭趕上啊。