對(duì)于很多開發(fā)人員而言,大數(shù)據(jù)應(yīng)用的開發(fā)尚未上手,人工智能又已經(jīng)泛濫,當(dāng)前大數(shù)據(jù)公司也逐漸向人工智能靠攏。是否人工智能將成為應(yīng)用的必要屬性?開發(fā)人員應(yīng)當(dāng)如何透過現(xiàn)象直面技術(shù)本質(zhì)并充實(shí)自身的技能?日前,明略數(shù)據(jù)董事長(zhǎng)吳明輝接受CSDN記者專訪,基于他的教育背景與創(chuàng)業(yè)實(shí)踐解析了大數(shù)據(jù)與人工智能的技術(shù)脈絡(luò),以及明略數(shù)據(jù)面向人工智能技術(shù)的最新布局,包括對(duì)未來研發(fā)重點(diǎn)的思考。何去何從,開發(fā)人員可以從中得到啟發(fā)。

在吳明輝看來,人工智能最核心的是需要有大量的數(shù)據(jù)支持,不管是機(jī)器學(xué)習(xí)訓(xùn)練還是其他算法優(yōu)化。最近獲得的2億元人民幣B輪融資的明略數(shù)據(jù),將在基礎(chǔ)層繼續(xù)專注于數(shù)據(jù)挖掘和存儲(chǔ)/清洗/治理等方向的研發(fā),在業(yè)務(wù)層要求駐場(chǎng)科學(xué)家深入客戶一線,實(shí)現(xiàn)業(yè)務(wù)需要的智能性,把企業(yè)數(shù)據(jù)的價(jià)值真正變現(xiàn)。
吳明輝,明略數(shù)據(jù)董事長(zhǎng)。畢業(yè)于北京大學(xué)數(shù)學(xué)系,取得學(xué)士學(xué)位后又免試保送北大人工智能實(shí)驗(yàn)室,于2007年獲得計(jì)算機(jī)軟件與理論碩士學(xué)位,研究方向?yàn)樯锾卣髯R(shí)別,包括指紋掌紋識(shí)別、靜脈識(shí)別等。在大學(xué)期間開始創(chuàng)辦自己的軟件公司。2006年創(chuàng)辦大數(shù)據(jù)營銷技術(shù)公司秒針系統(tǒng),2014年創(chuàng)辦明略數(shù)據(jù)。
人工智能的核心是數(shù)據(jù)支持今天看來,機(jī)器智能主要來自于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的訓(xùn)練結(jié)果,尤其深度學(xué)習(xí)對(duì)感知智能及自然語言處理的精度提升貢獻(xiàn)巨大,同時(shí)也對(duì)(標(biāo)識(shí))數(shù)據(jù)極為渴求。為解決一些缺乏數(shù)據(jù)的領(lǐng)域而生的遷移學(xué)習(xí)方法,前提也是存在一個(gè)相關(guān)領(lǐng)域的能夠提供用于初始訓(xùn)練的數(shù)據(jù)。
人工智能專業(yè)出身的吳明輝很早就相信數(shù)據(jù)基礎(chǔ)的作用,他甚至認(rèn)為沒有數(shù)據(jù)的場(chǎng)景不可能實(shí)現(xiàn)人工智能。所以,以實(shí)現(xiàn)人工智能的應(yīng)用為目標(biāo),他在最初創(chuàng)業(yè)時(shí)卻瞄準(zhǔn)產(chǎn)生和處理高質(zhì)量數(shù)據(jù)。吳明輝表示,明略數(shù)據(jù)專注于數(shù)據(jù)本身的挖掘,在公司成立早期就希望把大數(shù)據(jù)往人工智能方向去應(yīng)用,不管是做大數(shù)據(jù),還是做數(shù)據(jù)本身的挖掘,以及利用挖掘數(shù)據(jù)去做人工智能的訓(xùn)練樣本,因?yàn)榇髷?shù)據(jù)和人工智能之間的關(guān)系非常緊密。
吳明輝在研究生時(shí)的專業(yè)方向是人工智能里比較特殊的行業(yè)生物特征識(shí)別,包括指紋掌紋識(shí)別和靜脈識(shí)別等,同今天火爆的人臉識(shí)別一樣,都屬于圖像處理領(lǐng)域。雖然計(jì)算機(jī)視覺和深度學(xué)習(xí)大熱,明略數(shù)據(jù)沒有改變技術(shù)策略的意思。吳明輝認(rèn)為,數(shù)據(jù)準(zhǔn)備的不足,是當(dāng)前企業(yè)應(yīng)用人工智能/機(jī)器學(xué)習(xí)的主要挑戰(zhàn)。例如無人車也需要大量的試車數(shù)據(jù)不斷地測(cè)試算法。在整個(gè)采訪過程中,他也一直強(qiáng)調(diào),“先要把數(shù)據(jù)處理,數(shù)據(jù)處理不好任何事都無從談起。”他認(rèn)為,當(dāng)前應(yīng)該花更多的時(shí)間從互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)找到合適的數(shù)據(jù)并清洗干凈,用來實(shí)現(xiàn)人工智能。
當(dāng)然,有了數(shù)據(jù),還需要把好的算法應(yīng)用在數(shù)據(jù)上,同時(shí)在業(yè)務(wù)場(chǎng)景上面形成反饋系統(tǒng)——如果沒有一個(gè)很好的應(yīng)用形式,只有原始的數(shù)據(jù),最后不一定能形成自我改進(jìn)的更新?lián)Q代的能力,如AlphaGo在全世界每年公開的有限的9段棋手棋譜之外,還要自我PK無數(shù)輪形成大量的反饋,然后從中尋找輸贏的原因改進(jìn)。
目前人工智能/機(jī)器學(xué)習(xí)算法在工業(yè)界里應(yīng)用比較好的領(lǐng)域,也是用戶量很大,有大量的學(xué)習(xí)樣本和訓(xùn)練數(shù)據(jù),并且具有重復(fù)性,在應(yīng)用的過程中能夠給出算法的評(píng)價(jià),能形成閉環(huán),不斷地改進(jìn)優(yōu)化。例如搜索排序算法、電子商務(wù)推薦算法,有自己數(shù)據(jù)的閉環(huán);如科大訊飛的語音識(shí)別,也是由科大訊飛語音輸入法收集識(shí)別錯(cuò)誤的數(shù)據(jù),形成一個(gè)閉環(huán)。
所以,一開始的核心是準(zhǔn)備數(shù)據(jù),后期的核心就是創(chuàng)造應(yīng)用。吳明輝表示,未來的研發(fā)模式一定是協(xié)作的、開源的模式,人工智能算法將不是什么神奇的事。
明略數(shù)據(jù)的研發(fā)路線吳明輝詳細(xì)介紹了明略數(shù)據(jù)的定位、策略和研發(fā)重心。他的目標(biāo)很簡(jiǎn)單,就是首先幫助客戶把數(shù)據(jù)都做好準(zhǔn)備,利用這些數(shù)據(jù)給各行各業(yè)實(shí)現(xiàn)人工智能,當(dāng)然在這個(gè)過程中也要用一些人工智能的算法。
聚焦垂直領(lǐng)域吳明輝表示,目前數(shù)據(jù)挖掘的市場(chǎng)更大,明略數(shù)據(jù)的定位是在各個(gè)不同的企業(yè)里去應(yīng)用,從底層的數(shù)據(jù)存儲(chǔ)/清洗/治理到上層的關(guān)聯(lián)關(guān)系挖掘,以及后面的機(jī)器學(xué)習(xí),都要聚焦在幾個(gè)垂直的領(lǐng)域,全套的服務(wù),既有大數(shù)據(jù)又有人工智能——所有想做人工智能的客戶,第一件事情肯定是把數(shù)據(jù)弄好。他解釋說,企業(yè)級(jí)服務(wù)如果不能聚焦在垂直領(lǐng)域,最后就變成一個(gè)純粹的企業(yè)級(jí)軟件,從目前的趨勢(shì)來看,最后的競(jìng)爭(zhēng)對(duì)手就不是市場(chǎng)和企業(yè),而是開源社區(qū),這不是一個(gè)靠譜的商業(yè)模式,至少在中國如此。
明略數(shù)據(jù)聚焦的垂直領(lǐng)域,最重要的方向是公共安全,其他領(lǐng)域還包括金融、稅務(wù),制造業(yè)領(lǐng)域等——明略的目標(biāo)是要在公安領(lǐng)域?qū)崿F(xiàn)最牛的警察,在金融領(lǐng)域?qū)崿F(xiàn)最牛的風(fēng)險(xiǎn)控制師、審貸員,在醫(yī)療領(lǐng)域?qū)崿F(xiàn)最牛的醫(yī)生……吳明輝介紹,在制造業(yè)已經(jīng)有為某大型制造企業(yè)基于設(shè)備數(shù)據(jù)和深度學(xué)習(xí)做故障的檢測(cè)和預(yù)測(cè)的初步探索。吳明輝表示,這雖然是最簡(jiǎn)單的工作,但是最后的目標(biāo)會(huì)非常令人興奮。
以數(shù)據(jù)治理為核心明略數(shù)據(jù)現(xiàn)階段的研發(fā)重心,吳明輝表示還在數(shù)據(jù)治理,其中又比較專注關(guān)聯(lián)數(shù)據(jù)挖掘——目前企業(yè)有各種各樣的散亂的數(shù)據(jù)存在不同的系統(tǒng)里,明略數(shù)據(jù)要把它們聯(lián)系起來,并把那些顯性的和隱性的關(guān)聯(lián)關(guān)系挖掘出來,比如在公安系統(tǒng),把存在不同系統(tǒng)里的酒店數(shù)據(jù)、航班數(shù)據(jù)、通訊數(shù)據(jù)、地圖數(shù)據(jù)等連起來,根據(jù)某幾個(gè)人經(jīng)常一同出行,通過算法推斷出他們是同事或者朋友。吳明輝認(rèn)為,把數(shù)據(jù)治理好并做關(guān)聯(lián)關(guān)系的挖掘,把數(shù)據(jù)真的連接起來,會(huì)對(duì)將來人工智能的實(shí)現(xiàn)有巨大的幫助。
吳明輝也舉例介紹了具體的人工智能技術(shù)在這個(gè)過程中的應(yīng)用。比如人工智能里面很重要的自動(dòng)分類,在處理公安局的數(shù)據(jù)時(shí),需要對(duì)案件筆錄文檔做分類、聚類各種分析。所以目前的工作雖然還沒有到真正的把最終的智能展現(xiàn)出來,但是也在向著人工智能的目標(biāo)前進(jìn)。
明略數(shù)據(jù)B輪融資之后,研發(fā)方向仍然專注這些領(lǐng)域,當(dāng)然還有一部分用于吸納更多優(yōu)秀的研發(fā)工程師作為前端的駐場(chǎng)科學(xué)家,深入到客戶一線去了解客戶業(yè)務(wù)流程和實(shí)際需求,然后才能把數(shù)據(jù)的價(jià)值在客戶那真正的變現(xiàn)。
明略數(shù)據(jù)技術(shù)框架明略數(shù)據(jù)整個(gè)底層的核心開發(fā)是基于開源的,采用Apache Hadoop、Apache Spark、Apache Kylin等開源的項(xiàng)目,同時(shí)也在這些開源項(xiàng)目上在做積極的貢獻(xiàn)。但是應(yīng)用層面,在行業(yè)里面的所有解決方案都不考慮開源,不過將來也會(huì)對(duì)合作伙伴做一定程度的開放,因?yàn)槠髽I(yè)級(jí)的市場(chǎng)服務(wù)太大。吳明輝認(rèn)為,產(chǎn)品的價(jià)值價(jià)格是跟獨(dú)特性掛鉤的,真正有價(jià)值的部分一定是花大量的時(shí)間精力做了很多很重要的工作,才有可能賺到很多錢。明略數(shù)據(jù)的研發(fā)策略和商業(yè)策略會(huì)完全一致。
談到明略數(shù)據(jù)技術(shù)的優(yōu)勢(shì),吳明輝表示,包括最核心的幾款產(chǎn)品:
MDP,一個(gè)非常適合做海量數(shù)據(jù)的數(shù)據(jù)挖掘的Hadoop發(fā)行版,明略數(shù)據(jù)投入了很多的力量去做安全的模塊,比如高可用,安全的權(quán)限管理等。
DataInsight,一個(gè)分布式的數(shù)據(jù)挖掘系統(tǒng)(可以理解為一個(gè)分布式的SAS或者SPSS),明略數(shù)據(jù)自己也是這個(gè)產(chǎn)品的用戶。
拳頭產(chǎn)品SCOPA,做關(guān)聯(lián)關(guān)系挖掘,包括上面的可視化,在公安領(lǐng)域里面有非常好的應(yīng)用,明略數(shù)據(jù)投入一半的研發(fā)人員在SCOPA上。
明略數(shù)據(jù)三大核心產(chǎn)品MDP、SCOPA、DataInsight,實(shí)現(xiàn)從數(shù)據(jù)到智慧的轉(zhuǎn)換
研發(fā)挑戰(zhàn)分析對(duì)于未來的技術(shù)研發(fā)挑戰(zhàn),吳明輝認(rèn)為主要在如下兩個(gè)方面:
整個(gè)IT市場(chǎng)和數(shù)據(jù)市場(chǎng)特別嚴(yán)重的碎片化/多樣化,不同的客戶數(shù)據(jù)的這個(gè)規(guī)范接口完全不一樣,需要會(huì)花很多精力。
反饋系統(tǒng)的場(chǎng)景,本質(zhì)上是研發(fā)和客戶的業(yè)務(wù)如何深入結(jié)合的挑戰(zhàn)——客戶肯定不懂技術(shù),需要把研發(fā)同學(xué)培養(yǎng)得懂業(yè)務(wù)。
他不認(rèn)為云廠商的人工智能API會(huì)和明略數(shù)據(jù)形成競(jìng)爭(zhēng)關(guān)系,因?yàn)槊髀詳?shù)據(jù)是在做真正的業(yè)務(wù)級(jí)的應(yīng)用,云廠商可以提供自動(dòng)分類算法服務(wù),或者類似Hadoop as a Service這樣的東西。但是對(duì)明略數(shù)據(jù)來講,真正的應(yīng)用是公安能不能破案。同時(shí),很多領(lǐng)域目前對(duì)公有云也很難接受,因?yàn)檎嬲婕暗絿?jì)民生的數(shù)據(jù)需要非常謹(jǐn)慎地處理。
研發(fā)團(tuán)隊(duì)管理明略數(shù)據(jù)公司是近三百人,其中研發(fā)團(tuán)隊(duì)占70%以上,而且他們并非普通工程師,其中很多人來自全球知名高校的,有豐富的工作經(jīng)驗(yàn),同時(shí)又擁有很強(qiáng)的數(shù)學(xué)基本功的一群人。吳明輝表示,不管是處理數(shù)據(jù),還是未來做人工智能,都是需要有數(shù)學(xué)功底的,明略數(shù)據(jù)在這方面要求很深,這樣的文化也很容易形成群聚效應(yīng)。
對(duì)于團(tuán)隊(duì)的協(xié)作,吳明輝強(qiáng)調(diào),底層的技術(shù)架構(gòu)要盡量統(tǒng)一,因?yàn)榧夹g(shù)架構(gòu)決定的是軟件運(yùn)行的兼容性,但是上面具體的算法,需要去尊重每個(gè)人自己的創(chuàng)造力,選擇最優(yōu)的辦法,就是用結(jié)果說話,比如金融征信的算法,最后誰的準(zhǔn)確率、查詢率高,就先拿過來用。同時(shí),明略數(shù)據(jù)內(nèi)部團(tuán)隊(duì)的管理模式采用技術(shù)合伙人制,小團(tuán)隊(duì)作戰(zhàn),每個(gè)團(tuán)隊(duì)領(lǐng)導(dǎo)都叫技術(shù)合伙人,他們之間都是平級(jí)的。

研發(fā)出身的吳明輝,盡管對(duì)寫代碼很有熱情,但他目前更多關(guān)注的是產(chǎn)品而不是代碼。他表示:
技術(shù)研發(fā)的管理者更要去看團(tuán)隊(duì)的建設(shè),因?yàn)楫?dāng)研發(fā)團(tuán)隊(duì)大到一定規(guī)模時(shí),研發(fā)Leader和底層的研發(fā)工程師水平就決定了最后的代碼質(zhì)量,如果能確保他們的水平,就不用擔(dān)心代碼了。
做企業(yè)級(jí)的服務(wù),不能光有一堆技術(shù)天才,把產(chǎn)品做出來,還需要讓客戶接受和應(yīng)用,同時(shí)把他們的所有的需求都進(jìn)一步地迭代到你的系統(tǒng)里面。
開發(fā)者的啟示曾獲過許多國際的算法大獎(jiǎng)的吳明輝,介紹了他對(duì)一個(gè)好的人工智能算法的理解:
從學(xué)術(shù)論文和比賽來看,好算法要求形式、理論的優(yōu)美,但是效果也沒辦法驗(yàn)證,因?yàn)槊總€(gè)人的實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)結(jié)構(gòu)不一樣。
在企業(yè)里,需要低成本、務(wù)實(shí)地解決問題,算法工程師通常不關(guān)心數(shù)學(xué)公式是不是優(yōu)美,也不關(guān)心算法是否高大上,就追求準(zhǔn)確率和性能,以及二者的平衡,比如在手機(jī)端和云端運(yùn)行的圖像處理算法,就是不一樣的處理方式,云端可以用幾千萬的數(shù)據(jù)進(jìn)行深度學(xué)習(xí)訓(xùn)練。
對(duì)于人工智能技術(shù)對(duì)開發(fā)者的影響,吳明輝表示,非人工智能專業(yè)的開發(fā)者,不需要所有人學(xué)習(xí)人工智能算法,因?yàn)檫@些算法今天有很多開源的開發(fā)包,知道怎么去用就可以,背后的原理、數(shù)據(jù)公式的推導(dǎo)、具體的實(shí)現(xiàn)沒必要懂。