深度學(xué)習(xí)近年來在多個領(lǐng)域取得了重要突破,盡管理論上并沒有解釋清楚深度學(xué)習(xí)的機(jī)制,但已在大量領(lǐng)域取得了巨大成功。在圖像分類方面,微軟研究團(tuán)隊指出他們的系統(tǒng)在ImageNet 2012分類數(shù)據(jù)集中的錯誤率降低至4.94%。此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。這個數(shù)據(jù)包含約120萬張訓(xùn)練圖像、5萬張測試圖像,分為1000個不同的類別。在人臉識別領(lǐng)域,香港中文大學(xué)教授湯曉鷗、王曉剛及其研究團(tuán)隊研發(fā)的DeepID在LFW數(shù)據(jù)庫上獲得了99.15%的識別率。LFW是人臉識別領(lǐng)域使用最廣泛的測試基準(zhǔn)。實驗表明,僅僅給出人臉中心區(qū)域,人肉眼在LFW上的識別率為97.52%。
在一些實際應(yīng)用場景中,業(yè)界已經(jīng)充分展現(xiàn)了深度學(xué)習(xí)在人臉識別領(lǐng)域取得的成就,比如在2015年IT和通信產(chǎn)業(yè)盛會GeBIT上,馬云向德國總理默克爾與中國副總理馬凱,演示了螞蟻金服的Smile to Pay 掃臉技術(shù),為嘉賓從淘寶網(wǎng)上購買了1948年漢諾威紀(jì)念郵票。
更不可思議的是,基于深度學(xué)習(xí)模型的人工智能能夠自學(xué)成才成為游戲高手。2013年11月,DeepMind公司發(fā)表的一篇論文描述了一個單個的網(wǎng)絡(luò),它能夠自我學(xué)習(xí)從而自動地玩一些老的電視游戲。它僅僅通過屏幕上的圖像和游戲中的分?jǐn)?shù)是否上升下降,從而做出選擇性的動作。正因為深度學(xué)習(xí)取得了如此多的成就,業(yè)界很多觀點認(rèn)為,由于深度學(xué)習(xí)的出現(xiàn),我們距離人工智能的時代已經(jīng)不遙遠(yuǎn)了。
那么到底什么是深度學(xué)習(xí)呢?深度學(xué)習(xí)的深度一詞直接指明了其特點。盡管沒有標(biāo)準(zhǔn)的定義,但是如果一個模型具有典型的層次化結(jié)構(gòu),且方法的效果隨著層次的增加能夠顯著提升,那么大家都樂意把這個方法加個前綴“深度”。比如經(jīng)典的神經(jīng)網(wǎng)絡(luò),其典型的結(jié)構(gòu)就是層次化,每一層有一系列的神經(jīng)元構(gòu)成,神經(jīng)元的輸入是下層神經(jīng)元的輸出。最底層是原始的輸入信號,最頂層是輸出信號,也就是所謂的特征表示。
過去并沒有被賦予深度網(wǎng)絡(luò)的說法,但隨著Hinton在《科學(xué)》發(fā)表文章指出,如果把神經(jīng)網(wǎng)絡(luò)加深而不是加寬,那么這個網(wǎng)絡(luò)會取得很好的效果。這一現(xiàn)象是深度學(xué)習(xí)的基本由來,大家逐漸習(xí)慣于用深度一詞來刻畫模型的特點。
經(jīng)典的深度學(xué)習(xí)有深度卷積網(wǎng)絡(luò)(CNN)、深度置信網(wǎng)絡(luò)(DBN)等模型。這些模型具有很強(qiáng)的分層結(jié)構(gòu),能夠自動地學(xué)習(xí)每層的特征。與傳統(tǒng)的淺層模型相比,深度分層網(wǎng)絡(luò)結(jié)構(gòu)中多層次的非線性運算操作,使得深度學(xué)習(xí)具有更強(qiáng)的擬合能力。
盡管深度學(xué)習(xí)的應(yīng)用非常成功,但是深度學(xué)習(xí)的理論進(jìn)展卻很小。2006年以來,Hinton、Yoshua Bengio、Yann Lecun等人的相關(guān)工作,奠定了深度學(xué)習(xí)在機(jī)器人學(xué)習(xí)中的地位。之后,深度學(xué)習(xí)在理論上發(fā)展非常緩慢,近年來的研究成果也并沒有能夠很清楚地解釋理論問題。當(dāng)然,所謂理論問題是相對傳統(tǒng)的一些工作而言,在傳統(tǒng)的一些模型中,研究者們能夠確定一個問題是否可解、解是否唯一、求解的過程是否收斂、什么時候能夠收斂。
就目前看,深度學(xué)習(xí)的理論不能揭示這些答案,大家所知道的一些結(jié)論大多是讓人比較沮喪的,比如高度非線性、非凸問題、容易過擬合等等。沒有統(tǒng)一的理論可以指導(dǎo)網(wǎng)絡(luò)分多少層、初始化參數(shù)如何設(shè)置、正則化如何更加有效等。不過可能正是這種理論上目前很難解釋清楚的復(fù)雜性,使得神經(jīng)網(wǎng)絡(luò)在很多問題上都能夠表現(xiàn)得非常優(yōu)秀。
雖然我們還不能很清晰地解釋機(jī)器人深度學(xué)習(xí)成功的原因,但大體上以下幾個觀點還是得到普遍認(rèn)可。
一、模型強(qiáng)大的擬合能力、高密度的計算能力、海量的訓(xùn)練數(shù)據(jù)是深度學(xué)習(xí)獲得成功的重要因素。通過大量的神經(jīng)元非線性操作,深度神經(jīng)網(wǎng)絡(luò)獲得了很強(qiáng)的擬合能力。利用GPU等高密度計算設(shè)備,網(wǎng)絡(luò)模型能夠基于海量的訓(xùn)練數(shù)據(jù)(百萬級)在可接受的時間內(nèi)(數(shù)天)完成訓(xùn)練。
二、深度學(xué)習(xí)的應(yīng)用范圍非常廣泛,可以滲透到很多領(lǐng)域。如果我們將深度學(xué)習(xí)看成是一個具有很強(qiáng)擬合能力的復(fù)雜函數(shù),那么只要你能定義好合適的目標(biāo)函數(shù)(比如最小化分類錯誤率),有足夠的訓(xùn)練樣本和計算資源,都可以通過深度學(xué)習(xí)來解決你的問題,而且其效果往往會出乎意料的好。
三、現(xiàn)在很成功的各種深度模型不代表一定是未來的模型。深度模型本質(zhì)上也可以看成圖模型,神經(jīng)元是節(jié)點,神經(jīng)元之間的連接是邊?,F(xiàn)在找到的幾種實際很有效的結(jié)構(gòu),比如,卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN),它們準(zhǔn)確率較高,計算速度可以接受。但圖模型結(jié)構(gòu)本身可以非常多樣,未來哪種結(jié)構(gòu)更有效現(xiàn)在還不得而知,還需要更深層次的研究。
四、對深度學(xué)習(xí)的追捧對學(xué)術(shù)界未必是好事。目前,深度學(xué)習(xí)在一些具體問題上取得了一些出乎意料的結(jié)果,但是在理論工作上進(jìn)展不大。一個好的理論能夠被接受需要好的理論創(chuàng)新和令人信服的實驗結(jié)果,目前的現(xiàn)狀是復(fù)雜的可解釋的模型,其效果往往不如深度神經(jīng)網(wǎng)絡(luò)。這導(dǎo)致研究人員大多轉(zhuǎn)向深度學(xué)習(xí),將很多精力放在網(wǎng)絡(luò)調(diào)參和結(jié)構(gòu)設(shè)計上,盡管在實驗效果上取得了很大進(jìn)展,但理論貢獻(xiàn)卻微乎其微。
五、深度學(xué)習(xí)目前仍然有計算瓶頸。目前百萬級的訓(xùn)練數(shù)據(jù)借助GPU一般都能在幾天內(nèi)完成訓(xùn)練。實際使用時,利用GPU也可以在幾十毫秒內(nèi)完成預(yù)測。但對于普通移動終端,無論是內(nèi)存容量還是計算能力,都遠(yuǎn)不能跟臺式機(jī)或服務(wù)器的GPU比,深度學(xué)習(xí)實際上在移動終端幾乎還不可用,這大大限制了深度學(xué)習(xí)的實用范圍。
六、傳統(tǒng)模型與深度學(xué)習(xí)的融合是值得研究的問題。經(jīng)過幾十年的努力,機(jī)器學(xué)習(xí)有很多復(fù)雜的并且理論相對完備的模型,如何將這些模型引入到深度學(xué)習(xí)是值得研究的問題,比如一種簡單的方案就是將傳統(tǒng)模型的特征替換為深度學(xué)習(xí)獲得的特征,然后基于最終的損失函數(shù)進(jìn)行迭代優(yōu)化。