近日,《最強(qiáng)大腦》第四季落下帷幕,憑借在人臉識別和圖像檢索方面的出色表現(xiàn),百度人工智能機(jī)器人小度榮獲“腦王” 稱號。4月11日,百度以此為主題在北京舉辦了“第五屆百度技術(shù)開放日”的活動。百度研究院院長、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程實(shí)驗室主任林元慶做了“最強(qiáng)大腦背后的技術(shù)”主題演講,詳細(xì)解釋了小度在“腦王”對決中的臺前幕后,涉及圖像檢索、聲紋識別、人臉識別等方向。

隨后林元慶還介紹了百度將在人工智能方面著重發(fā)力的方向及下一步的計劃,總結(jié)如下:
將圖像識別技術(shù)做到極致
完善聲紋識別技術(shù)
視頻的分析:像素級別的圖像分割
醫(yī)療圖像分析
開放深度學(xué)習(xí)平臺
產(chǎn)學(xué)研融合共建七大平臺
林元慶提到:
從去年開始,Robin(李彥宏)一直在講,作為目前最重要的戰(zhàn)略,百度的下一幕是人工智能?,F(xiàn)在百度在人工智能方面的投入在持續(xù)的增加,過去兩年每年都投入了超過100億,我們希望做好這個方面。
以下是林元慶的演講實(shí)錄:
今天就從最強(qiáng)大腦說起吧,也會給大家展示一些百度的其他技術(shù),隨后劉煬團(tuán)隊說的更系統(tǒng)、更全面一些,就是跟開發(fā)者生態(tài)有關(guān)的,百度有哪些技術(shù)在往外面開放的。
最強(qiáng)大腦背后的技術(shù)
讓我們先來回顧一下與最強(qiáng)大腦的合作歷程:之前節(jié)目組找過一些國內(nèi)的公司,已經(jīng)得到非常多的驗證,后來聽說百度也在做人臉識別才找過來。我就問節(jié)目組為什么不先找我們?他們表示以前根本就不知道百度也做人臉識別,這一度令我非常驚訝。
不過對于百度來說,這樣的合作也是一個契機(jī)。一方面希望我們的技術(shù)能夠讓大家都知道,一方面參加《最強(qiáng)大腦》的初衷是希望我們的技術(shù)跟最強(qiáng)的人類去比,看看百度大腦到底在什么樣的水平上。我們是抱著輸贏不是那么重要的心態(tài)去比賽的。我們內(nèi)部開玩笑說,如果輸了的話,我們回去還得繼續(xù)做研發(fā),如果贏了的話,我們還得回去做研發(fā),只是希望我們真正把技術(shù)到極限,能夠更好的服務(wù)到人類。
在節(jié)目中我們做過的幾個任務(wù),這里簡要的回顧一下。
第一個是圖像檢索的技術(shù)。左邊的圖像是從右邊30張照片的一張當(dāng)中截取的一小塊,需要找出到底是哪張圖上的。就像以圖搜圖差不多,因為以圖搜圖的圖像質(zhì)量相對來說還是不錯的,另外它是整張圖片去搜,而最強(qiáng)大腦節(jié)目組希望看看現(xiàn)在我們的技術(shù)極限到底在哪,就將照片做了老化、破損處理,所以這就比現(xiàn)在百度的以圖搜圖在技術(shù)實(shí)現(xiàn)上還要難。
這背后我們也是使用了深度學(xué)習(xí)的方法,它能夠很好的處理模糊、噪聲、甚至是不同的圖像角度。現(xiàn)在我們能夠索引百億級別的照片,可以在1s之內(nèi)返回結(jié)果。這個技術(shù)也就幾家有自主知識產(chǎn)權(quán)的搜索引擎在大規(guī)模的做。
剛才提到的是最新研發(fā)的技術(shù),應(yīng)該是接下來幾個月吧,我們會用到新的引擎里面,到時現(xiàn)有的服務(wù)會有一個非常大的升級。
第二個是聲紋識別。它和語音識別不太一樣。語音識別是要識別出說了什么,而聲紋識別是要識別出誰在說話,說話的內(nèi)容不同會對聲紋識別準(zhǔn)確性有非常大的干擾。咱們?nèi)祟悓β曇舻脑肼暡皇呛苊舾校雎曇籼幚韺I(yè)的人都知道,聲音是信噪比非常差的,因此聲紋識別其實(shí)是很有挑戰(zhàn)性的。
現(xiàn)在百度非常重視基于AI的交互,比如現(xiàn)在我們有鼠標(biāo)鍵盤,手機(jī)上的觸摸屏等交互方式,我們更希望下一代是基于語音圖像或者AI非常自然的交互,特別是語音的,你們?nèi)绻嘘P(guān)注百度,也知道百度投入非常大的力量,在做Duer OS,我們內(nèi)部把它叫OS,因為像這些基于語音質(zhì)量交互的情況,語音已經(jīng)是一個存在的信號,如果我們能利用那個信號的話,能夠識別說話的人是誰,這是非常有用的。因此在這塊我們后續(xù)也在繼續(xù)加大投入,技術(shù)上已經(jīng)取得了一些突破,最后我們希望把聲紋做的跟人臉識別那樣高的精度。
第三個是人臉識別。在最強(qiáng)大腦節(jié)目中一個是跨年齡的人臉識別,一個是跨代的人臉識別。人臉識別是由檢測和識別兩個技術(shù)組成。檢測是給出一張照片我們能檢測出人在哪里,同時還能找出像鼻子眼睛嘴巴這樣的關(guān)鍵點(diǎn)在哪里。這個我們可以很自信的說沒有人能做的比我們更好。
很多時候我們所說的識別精度都是針對測試集說的,2015年年底的時候,我們搞了一個比較大的數(shù)據(jù)集,把一些相對來說簡單一些的圖片去掉,用了我們當(dāng)時所能的達(dá)到最好的算法,在這個測試集上僅能做到92%的準(zhǔn)確率。后來在2016年的百度云計算大會前,我們對它的數(shù)據(jù)和算法都進(jìn)行了很大的迭代,錯誤率從8%降低到了2.3%,那已經(jīng)是非常大的提高了?,F(xiàn)在的錯誤率已經(jīng)低于1%了。
百度在 AI 領(lǐng)域的布局
百度現(xiàn)在在很多人工智能領(lǐng)域同時在發(fā)力,百度人工智能的核心就是百度大腦,它有四大類的應(yīng)用:
語音
圖像
自然語言處理
用戶畫像
下面這張圖可以更加形象的說明百度在人工智能上的布局,中間這層人工智能基礎(chǔ)技術(shù)就類似于上面說到的百度大腦,它們都是基于下面機(jī)器學(xué)習(xí)的平臺做的研發(fā)。

在人工智能的研發(fā)上,有一個從數(shù)據(jù)-->技術(shù)-->產(chǎn)品-->用戶-->數(shù)據(jù)的閉環(huán),如果閉環(huán)產(chǎn)生的話,技術(shù)就能夠發(fā)展的非??臁,F(xiàn)在百度在人工智能方面,哪些做哪些不做,就是看能否產(chǎn)生很強(qiáng)的閉環(huán)。
在通用圖像技術(shù)方面,大家所熟知的ImageNet是1000個類150萬張照片,而我們曾經(jīng)做過的一個庫就已經(jīng)有4萬類7000萬張照片,目前我們正在做的有11萬類,我們希望將圖像識別真正做到極致。
同時我們要建深度學(xué)習(xí)、聽覺、生物特征識別、視覺感知、新型人機(jī)交互、知識產(chǎn)權(quán)、標(biāo)準(zhǔn)化服務(wù)等七大平臺。這七大平臺百度都要建,其中聽覺和生物特征識別是和清華大學(xué)共建,視覺感知和新型人機(jī)交互是和北航共建的,知識產(chǎn)權(quán)和標(biāo)準(zhǔn)化服務(wù)和電信研究院共建。這些建設(shè)完成后都會向外部開放。
深度學(xué)習(xí)平臺方面,現(xiàn)在PaddlePaddle已經(jīng)開源了,但是還不夠。第一步,我們要做一些針對PaddlePaddle的教程,下一步,國家工程實(shí)驗室在建設(shè)一些機(jī)房,屆時我們將開放一些機(jī)器,用戶只需要一個賬號,就可以使用這些計算資源。
下面的一些應(yīng)用是百度已經(jīng)比較成熟的技術(shù),我們做好后也將對外部開放,當(dāng)然現(xiàn)在已經(jīng)開放了很多了,包括圖像、語音、自然語言處理等。
現(xiàn)在百度還有一個正在進(jìn)行的項目就是視頻的分析,主要分為兩個方向。一個是語義理解,就像現(xiàn)在非?;鸬亩桃曨l,我們需要理解視頻里面到底發(fā)生了什么。另一個方向是low level 的環(huán)境理解,即根據(jù)視頻我們能夠精確的估計出攝像頭在環(huán)境中的坐標(biāo)和朝向。這是三維重建非常重要的一步,我們希望結(jié)合深度學(xué)習(xí),使其達(dá)到像素級別的圖像分割。
比如自動駕駛的場景,視頻中的房子、車、人、路面、天空等區(qū)域我們希望以像素為單位將其識別出來,這個現(xiàn)在百度正在做,我們希望能夠達(dá)到99%以上的精度。這是非常難的一個方向,但是如果能夠攻克的話,對很多應(yīng)用的影響都會是非常大的,特別是無人駕駛、AR。現(xiàn)在百度在這方面正在籌建一個很大的團(tuán)隊,致力于解決這方面的問題。
還有一個是醫(yī)療圖像分析的項目,百度正在花很大的力氣去做,我們也希望將其做成一個很大的方向。
AI是個新的電能,希望AI能夠像電一樣,影響各個行業(yè),實(shí)現(xiàn)各個行業(yè)的升級。
從去年開始,Robin(李彥宏)一直在講,作為目前最重要的戰(zhàn)略,百度的下一幕是人工智能?,F(xiàn)在百度在人工智能方面的投入在持續(xù)的增加,目前百度科研與營收比為15%,這是非常高的,過去兩年每年都投入了超過100億,我們真的希望做好這個方面。