深度學(xué)習(xí)模型表述的難點(diǎn)與意義
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)作為當(dāng)前人工智能應(yīng)用的首選模型,在圖像識(shí)別,語(yǔ)音識(shí)別,自然語(yǔ)言處理,計(jì)算生物,金融大數(shù)據(jù)等領(lǐng)域成效顯著。但深度神經(jīng)網(wǎng)絡(luò)又被稱為“黑盒”模型,多層隱藏結(jié)構(gòu),數(shù)據(jù) / 特征矢量化,海量決策關(guān)鍵元等因素讓模型使用者犯難:模型決策的依據(jù)是什么?應(yīng)該相信模型么?特別是對(duì)于金融,醫(yī)藥,生物等關(guān)鍵型任務(wù),深度學(xué)習(xí)模型的弱解釋性成為人工智能項(xiàng)目落地的最大障礙。
云腦科技自主研發(fā)的 Deepro 深度學(xué)習(xí)平臺(tái)利用可視化技術(shù),集成了最前沿的各類深度神經(jīng)網(wǎng)絡(luò)可視化組件,分析與顯化內(nèi)部隱藏結(jié)構(gòu)與模型輸出的關(guān)系,解決“黑盒”難題。
深度神經(jīng)網(wǎng)絡(luò)的可視化
作為理解人工智能系統(tǒng)的主要技術(shù),模型可視化是一個(gè)由來(lái)已久而且寬泛的話題。模型可視化與數(shù)據(jù)可視化屬于不同的范疇,數(shù)據(jù)可視化通過(guò)降維,主成分分析等技術(shù)來(lái)分析數(shù)據(jù)的結(jié)構(gòu),模型可視化針對(duì)的是對(duì)機(jī)器學(xué)習(xí)模型本身的理解。深度神經(jīng)網(wǎng)絡(luò)又是最為復(fù)雜的機(jī)器學(xué)習(xí)模型,其可解釋性與可視化性更加具有挑戰(zhàn)性。網(wǎng)絡(luò)模型為什么起作用,它是否足夠好,圖像識(shí)別是如何抽象出“貓”這個(gè)概念的?本段分析了幾種典型深度神經(jīng)網(wǎng)絡(luò)可視化技術(shù),詳盡展示了前沿的可視化原理以及解釋性效果。
云腦 Deepro 采用的 CNN 可視化
作為最有效的神經(jīng)網(wǎng)絡(luò)之一,CNN(Convolutional Neural Network, 卷積神經(jīng)網(wǎng)絡(luò))解決了大量復(fù)雜的機(jī)器學(xué)習(xí)實(shí)際問(wèn)題。CNN 被廣泛應(yīng)用于圖像識(shí)別,語(yǔ)音識(shí)別,語(yǔ)義識(shí)別等系統(tǒng)。最近的研究表明 CNN 在包含自動(dòng)駕駛在內(nèi)的自動(dòng)復(fù)雜智能系統(tǒng)中也大展身手。CNN 結(jié)構(gòu)通常由一個(gè)或多個(gè)卷積層和頂端的全連通層組成,同時(shí)也包括關(guān)聯(lián)權(quán)重和池化層(pooling layer)。這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的二維結(jié)構(gòu)。 相比較其他深度、前饋神經(jīng)網(wǎng)絡(luò),CNN 需要的參數(shù)更少,能夠更好的利用 GPU 作大規(guī)模并行處理,使之成為一種頗具吸引力的深度學(xué)習(xí)結(jié)構(gòu)。
舉個(gè) CNN 的栗子
CNN 帶來(lái)了高精度的預(yù)測(cè)模型,但是同時(shí)也留下重要的問(wèn)題,在復(fù)雜的多層非線性網(wǎng)絡(luò)結(jié)構(gòu)中,究竟是什么讓訓(xùn)練好的 CNN 模型給出近乎完美的預(yù)測(cè)答案?從 CNN 被大規(guī)模研究使用以來(lái),學(xué)者們持續(xù)不斷的探索可以理解和解釋 CNN 的方法,其中可視化技術(shù)被證明是解釋 CNN 內(nèi)部結(jié)構(gòu)最有效的方法之一。CNN 可視化技術(shù)包括,獨(dú)立單元激活的可視化,圖案和區(qū)域生成法,維度縮減空間表示法等。
獨(dú)立單元激活的可視化
理解 CNN 內(nèi)部網(wǎng)絡(luò)的操作需要追蹤多層網(wǎng)絡(luò)中每一層的特征狀態(tài),而中間層的狀態(tài)可以通過(guò)一種叫做 DeconvNet(Deconvolutional Network,去卷積網(wǎng)絡(luò))的技術(shù)反向映射回輸入層的圖像像素空間。DeconvNet 可以理解成另一個(gè) CNN,利用同樣的網(wǎng)絡(luò)結(jié)構(gòu),包括卷積元,池化等,但相對(duì)于 CNN 是反向的。DeconvNet 主要作用是把 CNN 從像素學(xué)會(huì)的特征給還原成像素。一個(gè)多層 CNN 網(wǎng)絡(luò)中每一層都會(huì)對(duì)應(yīng)一個(gè) DeconvNet,這樣做的好處是得到的 DeconvNet 也是連續(xù)的,可以從任意一個(gè)輸出層或者中間層反推到輸入層的對(duì)應(yīng)像素。
CNN 與 DeconvNet
設(shè)定好 DeconvNet 后,如果對(duì) CNN 網(wǎng)絡(luò)的某一個(gè)激活元感興趣,只需保留該單元而把其它單元設(shè)為 0 值后提交給 DeconvNet。DeconvNet 進(jìn)行反池化,非線性化,去卷積化等操作,每一層 DeconvNet 重復(fù)此操作后直至到達(dá)最初的像素空間。
CNN 隱藏層的可視化
該圖展示了 CNN 在 ImageNet 訓(xùn)練后得到的模型中每一層 CNN 中最強(qiáng)的激活特征單元(灰度圖片),以及該激活單元通過(guò) DeconvNet 后生成的像素圖(彩色圖片)。通過(guò) DeconvNet 可以非常清楚的理解每一層 CNN 的作用。
通過(guò) DeconvNet 分析得出,CNN 第一層訓(xùn)練學(xué)習(xí)的是以“邊”為單位的基本元,第二層學(xué)習(xí)了“角”,“圓”等其他圖像元,之后的第三層則開(kāi)始學(xué)習(xí)復(fù)雜圖案,而且會(huì)把相似的圖案歸類到一起。限于篇幅的原因后面更深的 CNN 層圖片就不放出了,通過(guò) DeconvNet 可以分析出 CNN 第四層開(kāi)始出現(xiàn)物體的特征,比如“狗的臉部”,“鳥的腿部”等,第五層開(kāi)始出現(xiàn)整個(gè)物體,以及物體的不同姿勢(shì)和形態(tài)。
DeconvNet 清楚的證明了 CNN 高效的學(xué)習(xí)能力:通過(guò)學(xué)習(xí)圖像中物體從小至大的特征而歸納出物體的整體特征。由此得出結(jié)論 CNN 網(wǎng)絡(luò)中海量的內(nèi)部隱藏特征元并不是隨機(jī)或者不可解釋的。該結(jié)論極大的增加了使用者對(duì)于 CNN 模型的理解,從而進(jìn)一步信任模型的結(jié)果。DeconvNet 技術(shù)除了可以觀察解釋 CNN 內(nèi)部結(jié)構(gòu)外,還可以用來(lái)排除模型建立和調(diào)試時(shí)遇到的問(wèn)題,以及通過(guò)分析內(nèi)部結(jié)果來(lái)得到更好的模型。研究表明 CNN 模型一大優(yōu)勢(shì)就是預(yù)測(cè)精確度與內(nèi)部隱藏層的局部結(jié)構(gòu)有很強(qiáng)的關(guān)聯(lián)。
圖案和區(qū)域生成法
除了從 CNN 內(nèi)部結(jié)構(gòu)著手的 DeconvNet,圖案和區(qū)域生成法也是有效的模型可視化手段。通過(guò)進(jìn)行數(shù)值優(yōu)化技術(shù)來(lái)生成圖案,CNN 預(yù)測(cè)的結(jié)果可以被更好的可視化并帶有解釋性。以常見(jiàn)的圖像分類問(wèn)題來(lái)舉例,CNN 在大量圖像數(shù)據(jù)集上訓(xùn)練得出一個(gè)分類器模型:給定的一張圖像會(huì)被標(biāo)注為一個(gè)或多個(gè)類別,比如一張貓的照片會(huì)標(biāo)記為貓或某種貓。對(duì)于一個(gè)特定的標(biāo)注類,圖案生成法通過(guò)數(shù)值優(yōu)化生成可以表述為 CNN 分類分?jǐn)?shù)的圖像,也就是把 CNN 理解分類的過(guò)程給“畫”了出來(lái),如下圖所示。
CNN 所理解的:洗衣機(jī),鍵盤,狐貍,鵝,鴕鳥,轎車
從生成的圖像中可以看出 CNN 對(duì)于圖像分類的判斷與人對(duì)圖像的判斷有一定的相似之處,物體的部分特征可以表述出來(lái)。但是 CNN 又學(xué)會(huì)了自有和特有的判定條件,而有一些條件從人類的角度上來(lái)看可能是顯而易見(jiàn)的錯(cuò)誤,比如上圖中鵝有多于兩條腿等。通過(guò)圖像生成可視化可以幫助理解 CNN 模型,從而進(jìn)行更好的排錯(cuò)和優(yōu)化。
圖像生成法的另一類應(yīng)用是圖像的區(qū)域識(shí)別。區(qū)域識(shí)別是圖像識(shí)別應(yīng)用中廣泛需求的技術(shù),在安防人臉識(shí)別,自動(dòng)駕駛環(huán)境識(shí)別等應(yīng)用中是識(shí)別準(zhǔn)確的關(guān)鍵步驟。圖像生成法先建立 CNN 分類與圖像空間的映射關(guān)系,通過(guò)反向梯度傳導(dǎo)來(lái)更新映射關(guān)系中的權(quán)重,最終得到一個(gè)完整的類顯著映射集。給定一個(gè) CNN 指定分類和原始輸入圖像,該映射集可以生成特征圖案。
映射集生成灰度圖案,白色部分是 CNN 標(biāo)注的顯著區(qū)域
利用單次反向梯度傳導(dǎo)就可以快速得到上圖中的映射集,從而可以顯示出 CNN 判斷分類的特征和區(qū)域。比如通過(guò)生成法可以理解 CNN 學(xué)習(xí)的過(guò)程同時(shí)包含從圖像中找到小狗的位置,并加以判斷這是一只小狗。用生成法產(chǎn)生的映射集可以進(jìn)一步結(jié)合 GraphCut 顏色分割技術(shù)來(lái)進(jìn)行圖像區(qū)域識(shí)別和物體分割。 通過(guò)生成法產(chǎn)生的映射集劃定了圖像的大體邊界,加上顏色分割技術(shù)的細(xì)節(jié)修正可以快速高效的識(shí)別物體區(qū)域。
原圖(左)映射生成圖(中 1 中 2)產(chǎn)生分割圖(右)
生成法利用 CNN 分類模型實(shí)現(xiàn)了區(qū)域識(shí)別。原圖中的物體不僅被標(biāo)識(shí)為正確類別,同時(shí)也標(biāo)注出物體的區(qū)域和邊界。整個(gè)過(guò)程又可以通過(guò)映射集可視化。
云腦 Deepro 采用的 RNN 可視化
RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))可以和 CNN 并稱為當(dāng)前兩大最熱門的深度神經(jīng)網(wǎng)絡(luò)。RNN 可以描述動(dòng)態(tài)時(shí)間行為,因?yàn)楹颓梆伾窠?jīng)網(wǎng)絡(luò)(feedforward neural network)接受較特定結(jié)構(gòu)的輸入不同,RNN 將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,因此可以接受更廣泛的時(shí)間序列結(jié)構(gòu)輸入。RNN 與其衍生的 LSTM,GRU 網(wǎng)絡(luò)被廣泛應(yīng)用于時(shí)序數(shù)據(jù)問(wèn)題中,包括語(yǔ)言模型,手寫識(shí)別,語(yǔ)音識(shí)別,機(jī)器翻譯,視頻識(shí)別等。
RNN 結(jié)構(gòu)由來(lái)已久,Werbos 在 1988 年就提出用 RNN 學(xué)習(xí)時(shí)序任務(wù)。RNN 的循環(huán)元展開(kāi)是深度神經(jīng)網(wǎng)絡(luò)中最“深”的網(wǎng)絡(luò)結(jié)構(gòu),過(guò)深的網(wǎng)絡(luò)結(jié)構(gòu)容易導(dǎo)致權(quán)重梯度成指數(shù)級(jí)爆炸或消失,從而使模型失去學(xué)習(xí)的能力。因此 RNN 發(fā)展出很多強(qiáng)化變種,其中最成功的要數(shù) LSTM(Long Short Term Memory,長(zhǎng)短期記憶)和 GRU(Gated Recurrent Unit)。LSTM 和 GRU 引入 Gate 機(jī)制來(lái)控制記憶/遺忘時(shí)間序列中的信息,從而使模型更加有效的學(xué)習(xí)更長(zhǎng)(深)的時(shí)序數(shù)據(jù)。
和很多深度學(xué)習(xí)結(jié)構(gòu)一樣,RNN 可以提供一個(gè)有效的預(yù)測(cè)模型,但是復(fù)雜的結(jié)構(gòu)讓使用者望而卻步。時(shí)序數(shù)據(jù)有沒(méi)有規(guī)律,時(shí)間關(guān)鍵點(diǎn)在哪里,哪些信息被記憶了,哪些被遺忘了,等等有諸多問(wèn)題隱藏在黑箱之中。要想更好的理解 RNN,可視化技術(shù)是必不可少的,但是相比于 CNN 結(jié)構(gòu),RNN 可視化難度更大,網(wǎng)絡(luò)中間層的控制和相互依賴性更高。這里列出一種基于 LSTM 的可視化技術(shù),解釋元與激活門統(tǒng)計(jì)法。
LSTM 解釋元與激活門統(tǒng)計(jì)
從原理分析,LSTM 可以記錄較長(zhǎng)時(shí)間的時(shí)序信息,以及持續(xù)追蹤當(dāng)前時(shí)間的數(shù)據(jù)。但是在真實(shí)數(shù)據(jù)的模型上這種解釋元理論很難被直接證明。研究通過(guò)字母級(jí)別語(yǔ)言模型建立的任務(wù),進(jìn)行對(duì) RNN,LSTM,GRU 定性分析,加以對(duì) Gate 激活的統(tǒng)計(jì)和比較,可以可視化出 LSTM 中的長(zhǎng)期有效記憶,給出了一個(gè)合理的解釋。
LSTM 可視化標(biāo)記文本和代碼結(jié)構(gòu)
舉例來(lái)說(shuō),LSTM 中某個(gè)單位元專注學(xué)習(xí)了文本輸入的行數(shù),數(shù)值從行始開(kāi)始遞減至行尾為 0,然后開(kāi)始新的一行。另一個(gè)元記錄并保證了成對(duì)出現(xiàn)的引號(hào),括號(hào)等標(biāo)點(diǎn)符號(hào)。
LSTM 文本標(biāo)記可以用來(lái)理解 RNN 的內(nèi)部結(jié)構(gòu),也可以用來(lái)做模型分析以更好的優(yōu)化模型。
LSTM 錯(cuò)誤分類分析
同樣是字母級(jí)別語(yǔ)言模型實(shí)例,在上圖中預(yù)測(cè)的錯(cuò)誤原因得到分析,錯(cuò)誤的模型結(jié)果可以通過(guò)標(biāo)記可視化分解為多類原因。N-gram 占據(jù) 18% 的錯(cuò)誤,意味著模型記錄的字母序列過(guò)短;生僻字占據(jù) 9%,意味著需要增加訓(xùn)練覆蓋率;空格,換行等標(biāo)點(diǎn)占據(jù)了 37% 的錯(cuò)誤,意味著 LSTM 需要更長(zhǎng)的時(shí)序輸入,或者需要加入斷章斷句等層次模型??梢暬夹g(shù)極大提高了模型的解釋性,為提升模型效果提供了最直接的方案。
人工智能模型可視化實(shí)例
醫(yī)療影像診斷網(wǎng)絡(luò)
近年來(lái)深度神經(jīng)網(wǎng)絡(luò)在生物與醫(yī)療影像領(lǐng)域的應(yīng)用有著爆發(fā)式的增長(zhǎng)。圖像識(shí)別,圖像分割極大的利用了大數(shù)據(jù)技術(shù)協(xié)助醫(yī)生作出診斷。作為更進(jìn)一步的發(fā)展,自動(dòng)診斷系統(tǒng)也嶄露頭角,連連創(chuàng)造驚喜。GOOGLE 的糖尿病視網(wǎng)膜病變?cè)\斷系統(tǒng)得出的算法準(zhǔn)確度已經(jīng)高于美國(guó)委員會(huì)認(rèn)證的眼科醫(yī)生的檢查結(jié)果。IBM 的沃森腫瘤診斷機(jī)器人已經(jīng)入住海內(nèi)外多家腫瘤治療醫(yī)院,成為醫(yī)療 AI 商業(yè)化的標(biāo)桿。
醫(yī)療診斷本質(zhì)上是一個(gè)標(biāo)準(zhǔn)的深度學(xué)習(xí)分類問(wèn)題,然而普通的深度神經(jīng)網(wǎng)絡(luò)生成的模型隱藏了關(guān)鍵判斷依據(jù),缺乏解釋性,無(wú)法被醫(yī)療系統(tǒng)和大眾接受。只有具有可視化可解釋性的模型才是醫(yī)療 AI 可用的模型。這里介紹一種綜合網(wǎng)絡(luò)結(jié)構(gòu) MDNet,可以讀取醫(yī)療影像,生成診斷報(bào)告,同時(shí)可以根據(jù)癥狀描述獲取對(duì)應(yīng)的影像,并利用網(wǎng)絡(luò)注意力機(jī)制提供診斷的依據(jù)。實(shí)例采用 BCIDR 膀胱癌診斷報(bào)告數(shù)據(jù)集。
MDNet:影像通過(guò) CNN 生成特征后接入 AAS 模塊,最后通過(guò) LSTM 生成診斷報(bào)告
為了更好的模型效果和更容易的解釋性,模型整合 CNN,AAS 與 LSTM 幾大模塊。圖像輸入部分利用最新的 ResNet 網(wǎng)絡(luò)作深層連接,并且利用 ensemble-connection 來(lái)連接 ResNet 的各個(gè)殘差部分便于模型表述。在圖像處理層與語(yǔ)言模型層之間的是 AAS 模塊,基于注意力機(jī)制原理來(lái)增加訓(xùn)練的有效性。最終的診斷報(bào)告通過(guò) LSTM 語(yǔ)言模型生成,其中有 LSTM 專注于挖掘訓(xùn)練數(shù)據(jù)中有區(qū)別的病癥描述,而其他 LSTM 共享該 LSTM 的結(jié)果。這樣做的好處是每一份數(shù)據(jù)的學(xué)習(xí)都可以增加診斷知識(shí)庫(kù),從給最終生成報(bào)告提供幫助。
MDNet 診斷結(jié)果以及分析
如上圖所示,對(duì)于給定的 CT 照片,MDNet 可以給出膀胱癌的診斷報(bào)告。左圖表示診斷報(bào)告不僅給出了診斷結(jié)論,對(duì)于結(jié)論中每一個(gè)關(guān)鍵詞也可以劃出原圖中對(duì)應(yīng)區(qū)域作為判斷依據(jù)。右圖標(biāo)示了不同級(jí)別的癌癥判斷,并且通過(guò)熱力圖展示了判斷對(duì)應(yīng)的區(qū)域。MDNet 可以有效的協(xié)助醫(yī)療機(jī)構(gòu)進(jìn)行大量診斷排查工作,極大的加強(qiáng)腫瘤防治效果。
結(jié)語(yǔ)
李開(kāi)復(fù)在題為《人工智能的黃金時(shí)代》的萬(wàn)字演講中提到,深度學(xué)習(xí)有四點(diǎn)挑戰(zhàn),分別是平臺(tái)化、數(shù)據(jù)、計(jì)算及可解釋性。人工智能的黃金時(shí)代已經(jīng)到來(lái),深度學(xué)習(xí)已經(jīng)在圖像,語(yǔ)音,大數(shù)據(jù),自動(dòng)駕駛等諸多領(lǐng)域占絕對(duì)優(yōu)勢(shì)。相較而言,模型可解釋性的研究還處于起步階段。云腦科技的小伙伴們潛心學(xué)習(xí)與研發(fā)更高效易用的 AI 平臺(tái),算法與可視化技術(shù),助力深度學(xué)習(xí)應(yīng)用的推廣與落地,致力于推動(dòng)整個(gè)人工智能產(chǎn)業(yè)的發(fā)展進(jìn)程。
問(wèn)答環(huán)節(jié)
問(wèn)題:1、高維可視化一般是降維,還有其他處理的手段嗎?2、降維的手段一般有 PCA、t-SNA、自定義投影,這三種方式可視化后應(yīng)重點(diǎn)關(guān)注哪些拓?fù)洳蛔兞俊?、對(duì) Google 的 embedding project 有什么看法?
答:這 3 個(gè)問(wèn)題一并回答了,所謂的可視化技術(shù)分為數(shù)據(jù)可視化與模型可視化兩個(gè)范疇,提問(wèn)涉及的主要是數(shù)據(jù)可視化方面。通過(guò)降維,主成分分析等手段分析數(shù)據(jù)本身的結(jié)構(gòu),并且可視化到低緯空間,這也是非常有意義的數(shù)據(jù)分析方法。一些非監(jiān)督學(xué)習(xí)也可以幫助數(shù)據(jù)可視化分析。今天分享的主題是深度學(xué)習(xí)模型的可視化,是針對(duì)一類深度神經(jīng)網(wǎng)絡(luò),分析其模型的組成部分,與數(shù)據(jù)的結(jié)構(gòu)分布并沒(méi)有關(guān)系。模型的可視化可以幫助確認(rèn)模型的準(zhǔn)確性,協(xié)助理解與優(yōu)化模型。
問(wèn)題:最近正好在看 lstm 的東西,但一直沒(méi)弄明白,lstm 的輸入到底是什么樣子?對(duì)于 mlp,每次輸入的向量就好比 Excel 中的一行數(shù)據(jù),但是 lstm 呢
答:lstm 或者 rnn 針對(duì)的是時(shí)序數(shù)據(jù),常見(jiàn)的比如天氣變化,股票價(jià)格,隨著時(shí)間變動(dòng)。如果變成向量輸入 mlp 就失去數(shù)據(jù)內(nèi)部有關(guān)時(shí)間的前后關(guān)系信息。lstm 比較常用在自然語(yǔ)言處理,翻譯等方向,人類的語(yǔ)言自然是需要考慮上下文的,一整句話語(yǔ)序不同意思可能就不同了,而 rnn 和 lstm 都可以保持輸入數(shù)據(jù)的時(shí)間序列,從而真正的學(xué)出時(shí)序相關(guān)的規(guī)律。
問(wèn)題:有個(gè)問(wèn)題:請(qǐng)問(wèn)云腦公司的這些深度學(xué)習(xí)可視化技術(shù)是以服務(wù)的形式付費(fèi)開(kāi)放給用戶嘛,那么有開(kāi)源一些好玩的東西嗎,謝謝老師
答:云腦科技提供 Deepro 深度學(xué)習(xí)平臺(tái),主要應(yīng)用在企業(yè)級(jí)大數(shù)據(jù)人工智能服務(wù)。我們的服務(wù)現(xiàn)在主要是以定制為主,主要包括金融,通信,能源與人力資源等行業(yè)?,F(xiàn)在平臺(tái)包含的可視化技術(shù)還沒(méi)有直接針對(duì)個(gè)人用戶的開(kāi)放,如果企業(yè)用戶有興趣歡迎隨時(shí)垂詢。
問(wèn)題:國(guó)內(nèi)目前將 AI 用于醫(yī)學(xué)圖像識(shí)別診斷的現(xiàn)狀如何?
答:醫(yī)療圖像識(shí)別是 AI 非?;钴S的方向,相比較人臉識(shí)別,物品識(shí)別等應(yīng)用,醫(yī)療圖像識(shí)別屬于高精度高風(fēng)險(xiǎn)應(yīng)用,需要更加完善的技術(shù)支持,現(xiàn)在主要是與醫(yī)療機(jī)構(gòu)配合診斷。今天分享的可視化與解釋性在醫(yī)療方向的應(yīng)用與需求是走在最前沿的。一個(gè)可以分析結(jié)果的 AI 系統(tǒng)才可以算是完整的醫(yī)療 AI 系統(tǒng)。
問(wèn)題:CNN 可視化是基于 matt zeiler 的那篇論文嘛?rnn 可視化初看下來(lái)不是很明白有沒(méi)有比較推薦的實(shí)施腳本 github 連接,謝謝
答:CNN 的 DeconvNet 介紹是基于 Matt 的論文,AlexNet 在 2012 年 ImageNet 奪冠改變整個(gè)世界對(duì)于深度學(xué)習(xí)的看法,Matt 的分析等于是用實(shí)驗(yàn)證明了 CNN 的有效性,是分析 CNN 結(jié)構(gòu)最主要的方法之一。RNN 的可視化可以參考 Andrej Karpathy 的 VISUALIZING AND UNDERSTANDING RECURRENT NETWORKS
問(wèn)題:圖像遷移風(fēng)格是深度學(xué)習(xí)可視化的一種應(yīng)用嗎?比如類似 prisma. 云腦有沒(méi)有相關(guān)研究分享?
答:這個(gè)問(wèn)題很有趣。圖像遷移采用的 VAE 等技術(shù)可以理解為把網(wǎng)絡(luò)已經(jīng)學(xué)會(huì)的圖像風(fēng)格應(yīng)用到新的圖像上。有一點(diǎn)像是 CNN 可視化中的圖案生成法。如果把圖像遷移到一張空白的新圖像上,可以看作是某種程度上的可視化。
問(wèn)題:CNN 的可視化似乎都集中在幾年前,近幾年幾乎看不到 CNN 可視化的文章了,同時(shí) CNN 的層數(shù)越來(lái)越多、結(jié)構(gòu)也越來(lái)越復(fù)雜,我想知道 CNN 可視化未來(lái)的發(fā)展方向是什么?最近沒(méi)有什么 CNN 可視化的文章,是因?yàn)榭梢暬y做了,還是因?yàn)檎也坏绞裁纯梢宰龅牧耍?/span>
答:CNN 確實(shí)是各種 ANN 里可視化研究開(kāi)始比較早的,近期的 CNN 可視化比較偏向于垂直領(lǐng)域的 CNN 應(yīng)用可視化。確實(shí) ResNet 的出現(xiàn)使得神經(jīng)網(wǎng)絡(luò)達(dá)到百層,千層的深度,利用 layer by layer 的可視化分析可行性就很差了。我們的 AI 算法小組保持追蹤更高效的可視化方法研究,有興趣的話可以加好友一起學(xué)習(xí)
講師介紹
樊向軍:清華大學(xué)學(xué)士,日本東京大學(xué)與美國(guó)華盛頓州立大學(xué)雙碩士。第 33 屆亞洲、國(guó)際物理奧賽雙料金牌得主。在美國(guó)硅谷高通等公司有著多年超高性能計(jì)算仿真軟件設(shè)計(jì)開(kāi)發(fā)經(jīng)驗(yàn),獲得高通 Qualstar Diamond 杰出貢獻(xiàn)獎(jiǎng)。目前作為云腦科技算法團(tuán)隊(duì)的主要成員,進(jìn)行金融、通信、能源等大數(shù)據(jù)領(lǐng)域的核心人工智能算法研發(fā)與系統(tǒng)設(shè)計(jì)工作。
參考文檔
Zeiler, Matthew D and Fergus, Rob. Visualizing and Understanding Convolutional Networks.
Karpathy, A., Johnson, J., and Fei-Fei, L. Visualizing and Understanding Recurrent Networks.
Zizhao Zhang, Yuanpu Xie, Fuyong Xing, Mason McGough and Lin Yang.MDNet: A Semantically and Visually Interpretable Medical Image Diagnosis Network.