很多人認(rèn)為,經(jīng)過多年的積累,人工智能技術(shù)已處于爆炸式增長的前夕——也許他們的判斷沒錯(cuò),但作為信息科技領(lǐng)域的從業(yè)者,我和同行們更關(guān)心的是,人工智能何以突然間從“冷宮”穿越到“朝堂”上,成為了萬眾矚目的焦點(diǎn)?誰在為人工智能賦能?

請想象以下場景——
某種人工智能助手成為了像數(shù)字支付、地圖那樣的基礎(chǔ)服務(wù)。
它跨越平臺(tái)。無論是PC和手機(jī),又或是智能家電與無人汽車,它都隱身于幕后,隨時(shí)準(zhǔn)備著響應(yīng)主人的“召喚”。
它跨越應(yīng)用。用戶無論是拍照片、玩游戲,又或是到語言不通的異國旅行、開始一輪新的健身訓(xùn)練,都少不了它的陪伴。
它還是跨越場景的,感官健全的。能聽又能說、能看又能寫,也就是說,它會(huì)極大地增強(qiáng)主人的能力,幫助人類更好地應(yīng)對工作與生活場景中的各種挑戰(zhàn)。
人工智能技術(shù):爆炸倒計(jì)時(shí)?
盡管目前行業(yè)里還沒有一款人工智能產(chǎn)品能達(dá)到這樣的水平——既能對接企業(yè)的產(chǎn)品數(shù)據(jù)庫,又能基于長期的用戶數(shù)據(jù)積累,達(dá)成對主人客觀情況的某種程度的了解——但我們距離類似的目標(biāo)已越來越近。
預(yù)計(jì)幾年之內(nèi),通過嵌入各類硬件、軟件與服務(wù)中,人工智能可以收集到更多實(shí)時(shí)生成的用戶數(shù)據(jù),類似于體重、體脂、體溫、心率、血氧飽和度等生理健康指標(biāo)和健身項(xiàng)目、時(shí)長等運(yùn)動(dòng)指標(biāo)等自身數(shù)據(jù),以及用戶飲食禁忌、消費(fèi)習(xí)慣、品牌偏好等外部數(shù)據(jù),再加上時(shí)刻灌入更新的實(shí)時(shí)企業(yè)商品及服務(wù)信息,就可以為用戶提供最貼身、最吻合其需要的生活提示與消費(fèi)推薦。當(dāng)然,所有的用戶數(shù)據(jù)都會(huì)加密存儲(chǔ)于云端,不會(huì)有泄密的問題。
很多人認(rèn)為,經(jīng)過多年的積累,人工智能技術(shù)已處于爆炸式增長的前夕——也許他們的判斷沒錯(cuò),但作為信息科技領(lǐng)域的從業(yè)者,我和同行們更關(guān)心的是,人工智能何以突然間從“冷宮”穿越到“朝堂”上,成為了萬眾矚目的焦點(diǎn)?誰在為人工智能賦能?
三大動(dòng)力
盡管人們很早以前就開始對有自主思維與行動(dòng)能力的機(jī)器展開暢想,并在60年前(達(dá)特茅斯會(huì)議)便確立了“人工智能”(Artificial Intelligence)的概念,但經(jīng)歷了幾十年漫長歲月的探索、挫折、重振,直到最近這幾年,學(xué)術(shù)界、產(chǎn)業(yè)界似乎才看到將人工智能由構(gòu)想轉(zhuǎn)換為現(xiàn)實(shí)的曙光。
深度學(xué)習(xí)算法、高質(zhì)量大數(shù)據(jù)與高性能計(jì)算資源,這是令人工智能技術(shù)研發(fā)驟然加速的三大動(dòng)力,推動(dòng)著人工智能從實(shí)驗(yàn)室走向人們工作與生活,也推動(dòng)著相關(guān)技術(shù)孵化和裂變出越來越多的精彩應(yīng)用。
首先,深度學(xué)習(xí)算法其實(shí)就是推理算法與機(jī)器學(xué)習(xí)算法的結(jié)合。典型的深度學(xué)習(xí)模型往往需要架設(shè)出層次很深的神經(jīng)網(wǎng)絡(luò),通過強(qiáng)化模型的復(fù)雜度來提升機(jī)器的學(xué)習(xí)能力,而模型復(fù)雜度又需要增加模型寬度(即隱性神經(jīng)元數(shù)目)與增加模型深度(即隱層數(shù)目)。
其次,研究者還必須不斷提高數(shù)據(jù)規(guī)模與質(zhì)量,來增強(qiáng)機(jī)器的學(xué)習(xí)效果。以過去幾個(gè)月來名聲大噪的AlphaGo為例,這個(gè)圍棋程序借助對人類六至九段棋手的16000次對局分析獲得了3000萬個(gè)布點(diǎn)數(shù)據(jù),并將這些數(shù)據(jù)用來訓(xùn)練其“策略網(wǎng)絡(luò)”(Policy Network)。
其三,高性能計(jì)算資源亦不可或缺。Elo評(píng)分法(Elo Rating)是由美籍匈牙利裔物理學(xué)博士阿帕德·埃羅(Arpad Elo)創(chuàng)建的對決類比賽選手水平評(píng)分方法。根據(jù)Elo評(píng)分,AlphaGo采用不同硬件配置、運(yùn)行于異步模式(Asyncdivonous)與分布模式(Distributed)時(shí)對應(yīng)的得分如圖1:

圖1:AlphaGo的Elo評(píng)分,引自谷歌Deep
很顯然,分布模式下,從1202個(gè)CPU、176個(gè)GPU到1920個(gè)CPU、280個(gè)GPU,計(jì)算性能的線性增長只帶來了28點(diǎn)的評(píng)分增長,這表明,計(jì)算資源呈線性增長,評(píng)分卻不可能同樣呈線性增長。越往后,每一點(diǎn)評(píng)分的增長都需要海量計(jì)算資源的支持。
從長遠(yuǎn)來看,我不覺得同為人類的棋手能夠在與機(jī)器的搏殺中重占上風(fēng)——無論棋類游戲的空間與規(guī)則是多么復(fù)雜,對機(jī)器而言,只要證明了某種算法行之有效,那么,在與日俱增的大數(shù)據(jù)資源、與時(shí)俱進(jìn)的計(jì)算資源的加持下,其相對于人類而言的優(yōu)勢只會(huì)越來越大。
大數(shù)據(jù):豈止于大
一個(gè)有趣的問題是,有關(guān)人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的理論探討和實(shí)踐嘗試已有幾十年歷史,然而為什么直到今天,深度學(xué)習(xí)才顯現(xiàn)出非凡的威力?
美國聯(lián)合服務(wù)協(xié)會(huì)(USAA)數(shù)據(jù)科學(xué)部部長羅伯特·韋爾伯恩(Robert Welborn)認(rèn)為,2015年是機(jī)器學(xué)習(xí)商業(yè)化進(jìn)程快速發(fā)展的一年。存儲(chǔ)市場的大范圍降價(jià)及存儲(chǔ)設(shè)備制造成本的降低是機(jī)器學(xué)習(xí)領(lǐng)域騰飛的關(guān)鍵。
而當(dāng)大數(shù)據(jù)和云遇見深度學(xué)習(xí),這一計(jì)算機(jī)科學(xué)家朝思暮想了數(shù)十載的科技終于不再是無本之木。隨著深度學(xué)習(xí)技術(shù)的潛能被充分釋放,弈棋程序的勝利以及我們在圖像識(shí)別、語音識(shí)別等領(lǐng)域的連番突破也就是順理成章的事。
大數(shù)據(jù)到底有多大?根據(jù)IDC在2014年發(fā)布的一份報(bào)告,僅在2013年,人類生成、復(fù)制與消費(fèi)的數(shù)據(jù)量便達(dá)到4.4ZB,即44億TB——可以想想,這些數(shù)據(jù)需要多少個(gè)硬盤來盛裝——而到2020年,這一數(shù)值將達(dá)到40ZB,年增長率40%。
很明顯,云計(jì)算、移動(dòng)互聯(lián)網(wǎng)與社交網(wǎng)絡(luò)是大數(shù)據(jù)的三大推進(jìn)器。做一組數(shù)字對比就知道:
1997年,全中國膠卷消費(fèi)量約為1.2億個(gè),而當(dāng)時(shí)的人口數(shù)是12.36億。以每卷膠卷能拍24-36張照片計(jì),總共約40億張照片,相當(dāng)于每年每10個(gè)中國人消費(fèi)1卷膠卷,拍攝3張照片。
2015年,僅小米手機(jī)用戶每天新拍攝的照片就達(dá)到1億張,而微信用戶每天上傳的新照片則超過10億張,也就是小米手機(jī)用戶每一個(gè)半月、微信每四天新增的照片數(shù)量就超過1997年全中國人拍攝的照片。
由對比揭示出,過去不到20年的時(shí)間里,個(gè)人計(jì)算設(shè)備生成的數(shù)據(jù)量呈現(xiàn)出驚人的增長態(tài)勢。而要想處理好這些激增的數(shù)據(jù),就需要強(qiáng)大的云存儲(chǔ)與計(jì)算平臺(tái)。以處理小米手機(jī)每日新增照片為例,1億張照片的云相冊縮略圖處理就需要2400核、2.6GHz的CPU與200TB的存儲(chǔ)空間。
況且要讓手機(jī)這種設(shè)備支持某些看起來很酷很智能的功能,比如人臉檢測、根據(jù)面孔特征實(shí)現(xiàn)身份識(shí)別和分類編目等,若沒有一流云平臺(tái)在背后支持,也是不可想象的。
小米手機(jī)相冊就加入了一些對用戶而言相當(dāng)便利和人性化的功能,例如:
用戶可以從合影中找到每一張人臉并看到年齡標(biāo)簽。
點(diǎn)擊“面孔”分欄,所有包含人物的照片便被歸入“姓名”影集中。
選擇其中一張合影,應(yīng)用還能標(biāo)示出畫面里每個(gè)人的姓名……
上述功能對于“患有”臉盲癥和健忘癥的朋友來說非常有用,而且也讓手機(jī)看起來很“聰明”。但其實(shí),相關(guān)的運(yùn)算過程并不是在手機(jī)硬件平臺(tái)上進(jìn)行,而是依托于遠(yuǎn)端的“小米云相冊”——至于小米云相冊,其實(shí)是由金山云做支撐。
深度學(xué)習(xí):讓機(jī)器勝過人
正是因?yàn)閿?shù)據(jù)量以幾何級(jí)數(shù)激增,從事機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等研究工作的科學(xué)家們以前認(rèn)為不可能完成的訓(xùn)練任務(wù),今天才能相對容易地完成。
我自己是做研究出身的,以前專攻的方向正是視頻與圖像內(nèi)容分析及檢索、計(jì)算機(jī)視覺和信息系統(tǒng)。關(guān)于人臉識(shí)別,早在20年前,我和團(tuán)隊(duì)就獲得了一項(xiàng)專利——記得1996年,我在硅谷的HP實(shí)驗(yàn)室時(shí)開始研究,1997年提出專利申請,2000年獲得批準(zhǔn)(如圖2、圖3)。這是一個(gè)分布式的架構(gòu),數(shù)據(jù)從客戶端生成,傳輸至后端的系統(tǒng),經(jīng)過一系列處理后,再將結(jié)果推送到前端。事實(shí)上,現(xiàn)在學(xué)界與產(chǎn)業(yè)所做的人臉識(shí)別、云-端圖像處理研究與20年前相比,在原理方面是相近的,只是在數(shù)據(jù)資源與算法上有了極大的改進(jìn)。

圖2

圖3
20年來,在原理變化不大的前提之下,應(yīng)用開發(fā)進(jìn)展卻極其遲緩,其原因在于,此前無論是人臉圖像數(shù)據(jù)庫的規(guī)模,還是計(jì)算能力本身,都只能用“貧瘠”來形容。
供研究的人臉圖像數(shù)據(jù)庫為何不足以支持任何形式的技術(shù)突破?有數(shù)字為證:1990年前后,ORL人臉庫、E yale B耶魯實(shí)驗(yàn)室和AR人臉庫中的人臉原型樣本人數(shù)少于130人,首選識(shí)別率在95%-99%的范圍內(nèi);直到2007年,LFW(Labeled Face in the Wild)人臉庫中也僅有5749位明星的13233張圖。
在一些擁有大規(guī)模數(shù)據(jù)資產(chǎn)的IT領(lǐng)袖企業(yè)加入人臉識(shí)別研究陣營后,這種情況才得到了顯著改善。2014年,F(xiàn)acebook的DeepFace人臉庫包含了4030位樣本人物的4400萬張圖,算法方面由多達(dá)8層網(wǎng)絡(luò)、1.2億訓(xùn)練參數(shù)的系統(tǒng)來支持。而谷歌的FaceNet數(shù)據(jù)庫規(guī)模更大,容量為來自800萬樣本人物的2億張圖像,以及22層深度網(wǎng)絡(luò)與1.4億參數(shù)的算法系統(tǒng)。在此方面國內(nèi)公司也不遜色,有公司已搭建出多達(dá)7000萬名樣本人物(每人1張證件照、1張生活照)的圖像庫,以30層以上深度網(wǎng)絡(luò)、20塊NVIDIA M40 GPU訓(xùn)練6天,取得了相當(dāng)不錯(cuò)的成績。
多大規(guī)模的數(shù)據(jù)才算是大數(shù)據(jù)?當(dāng)數(shù)據(jù)多到可對幾乎整個(gè)樣本空間進(jìn)行充分覆蓋,從而減弱對理論與模型的依賴時(shí),這樣的數(shù)據(jù)就足夠“大”了。像預(yù)測投擲硬幣這種問題,樣本空間為{0, 1},1000個(gè)樣本就算是大數(shù)據(jù),就足以得到置信度較高的預(yù)測。而對機(jī)器翻譯、圖像識(shí)別這樣的課題而言,樣本空間的數(shù)量級(jí)就大得太多——去年年底召開的第六屆ImageNet圖像識(shí)別大賽上,微軟團(tuán)隊(duì)設(shè)計(jì)的圖像識(shí)別系統(tǒng)擊敗了Google、英特爾、高通等強(qiáng)大對手,取得了多項(xiàng)第一名。據(jù)我所知,微軟訓(xùn)練其圖像識(shí)別系統(tǒng)是使用了152層深度網(wǎng)絡(luò)。這提示了我們?nèi)绾瓮七M(jìn)研究:傳統(tǒng)方法是少量數(shù)據(jù)+復(fù)雜模型,到一定階段后,系統(tǒng)性能便很難再提升;有了大數(shù)據(jù)之后,業(yè)界使用海量數(shù)據(jù)+簡單模型也能獲得比傳統(tǒng)方法更好的結(jié)果;接下來,當(dāng)海量數(shù)據(jù)與復(fù)雜模型相結(jié)合,應(yīng)該可以創(chuàng)造出最佳的訓(xùn)練結(jié)果。
由上述案例也可以看出,學(xué)術(shù)界的算法與系統(tǒng)的實(shí)操水平與工業(yè)界的差距較大,學(xué)術(shù)界對應(yīng)用性能的理解水平與工業(yè)界差距亦大——一直以來,在人臉識(shí)別領(lǐng)域,工業(yè)界的應(yīng)用任務(wù)有兩個(gè)模式:1:1也即兩張人臉二選一辨認(rèn)、1:N也即多張人臉N選一辨認(rèn)。在各種測試條件下,企業(yè)已做到:處理1:1任務(wù)時(shí),性能達(dá)到誤報(bào)率百萬分之一以下;處理1:N任務(wù)時(shí),性能已實(shí)現(xiàn)在N等于千萬級(jí)查詢的條件下,首選命中率約90%。也正因工業(yè)界的介入,兩年前,機(jī)器識(shí)別人臉的能力已超人類。類似美劇《疑犯追蹤》里人臉識(shí)別的場景隨時(shí)會(huì)成為現(xiàn)實(shí)。
在推進(jìn)技術(shù)實(shí)用化、主流化方面,工業(yè)界比學(xué)術(shù)界的效率高很多,這并不難理解——不僅是因?yàn)榍罢叩馁Y金充裕,更重要的是,工業(yè)界在獲取、儲(chǔ)備、利用用戶數(shù)據(jù)方面較之學(xué)術(shù)界優(yōu)勢明顯,而且像Facebook、谷歌這樣的巨頭,可以使用幾乎無限制的云計(jì)算資源來加速研發(fā)進(jìn)程。
云將越來越重要
我的前同事,圖靈獎(jiǎng)獲得者、數(shù)據(jù)庫大師吉姆·格雷在他的大作《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》中對科學(xué)發(fā)展的范式有著非常精辟的總結(jié):千年以前,科學(xué)是基于簡單的實(shí)踐經(jīng)驗(yàn)來描述現(xiàn)象。過去的幾百年里,科學(xué)家們開始嘗試開辟學(xué)科與理論分支,建立和使用模型來概括現(xiàn)象。最近的幾十年,新生的計(jì)算分支以計(jì)算來模擬復(fù)雜的現(xiàn)象。而今則是靠大數(shù)據(jù)來探索現(xiàn)象。
計(jì)算資源從端向云匯集,這為算法創(chuàng)新和大數(shù)據(jù)應(yīng)用創(chuàng)造了無盡的可能性——過去五年來,我們見證了云計(jì)算是如何推動(dòng)消費(fèi)級(jí)產(chǎn)品與企業(yè)級(jí)產(chǎn)品領(lǐng)域的偉大創(chuàng)新,見證了云計(jì)算是怎樣從一個(gè)被過度炒作、被無端懷疑的概念逐步成長為整個(gè)IT產(chǎn)業(yè)乃至各行各業(yè)的基礎(chǔ)平臺(tái),見證了云計(jì)算支持下的技術(shù)(如AI、VR、AR等等)爆炸與應(yīng)用模式(如游戲、O2O、直播等等)革新。
今后十年,整個(gè)中國IT產(chǎn)業(yè)成長速度最快的,很可能會(huì)是云計(jì)算公司。回顧以往,從新生力量迅速成長為巨頭的美國公司只有一家,那就是專注于云計(jì)算的AWS(如圖4),其發(fā)展軌跡幾乎與從事ToC業(yè)務(wù)的Facebook重合。況且,與發(fā)展更快、成熟度更高的美國市場相比,中國云計(jì)算市場仍處在從爬坡式漸增到直升式激增的進(jìn)化節(jié)點(diǎn)上(如圖5)。

圖4

圖5
總結(jié)一下,算法、大數(shù)據(jù)、計(jì)算資源,讓科幻成真,為人工智能賦能。由這三大動(dòng)力推動(dòng),人工智能會(huì)在不久的將來成為各行業(yè)領(lǐng)域有遠(yuǎn)見的企業(yè)的標(biāo)配。根據(jù)SoftServe的一項(xiàng)調(diào)查,截至目前,已有60%的IT公司、48%的商業(yè)和專業(yè)服務(wù)公司、47%的金融服務(wù)公司、38%的制造業(yè)公司、29%的零售業(yè)與物流運(yùn)輸業(yè)公司在使用基于云平臺(tái)而愈積愈多的大數(shù)據(jù)輔佐決策。大數(shù)據(jù)不再只是一個(gè)機(jī)遇,它成為了企業(yè)決勝未來的必需品。在人工智能介入后,會(huì)進(jìn)一步減少對數(shù)據(jù)的人工分析、判斷等干預(yù),令企業(yè)以更低的成本實(shí)現(xiàn)更快更準(zhǔn)確的決策。
我們確信,人工智能已成信息技術(shù)產(chǎn)業(yè)的主流與傳統(tǒng)行業(yè)升級(jí)、轉(zhuǎn)型和變革的關(guān)鍵。而算法、大數(shù)據(jù)、計(jì)算資源不僅構(gòu)成了人工智能的堅(jiān)實(shí)支點(diǎn),還將成為現(xiàn)實(shí)中我們構(gòu)建通往全新的“智能”之路的能量之源。
作者:金山集團(tuán)兼金山云CEO張宏江博士