国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

萬字實錄格靈深瞳趙勇:計算機視覺在安防、交通、機器人、無人車等領(lǐng)

   日期:2016-05-04     來源:微信-將門創(chuàng)業(yè)    作者:LH     評論:0    
標(biāo)簽:
 
  計算機視覺是跟圖像處理有關(guān)的,主要有以下四個模塊:
 
  第一個是Imaging,成像的過程;
 
  第二個是Detection,也就是檢測的過程,可以關(guān)注發(fā)現(xiàn)到有趣的物體;
 
  第三個是Tracking,如果你要關(guān)注這個物體的狀態(tài)、運動、行為、交互,就需要做很好的跟蹤;
 
  第四個是Recognition,對于同一類的物體,進(jìn)一步去發(fā)現(xiàn)每一個個體的實例。比如說同樣是人臉檢測,檢測過后我想知道這張臉是誰的臉,這就是Recognition。
 
  這些東西都是計算機視覺做的技術(shù)模塊,基于這些技術(shù)模塊,背后就是真正的應(yīng)用。
 
  萬字實錄格靈深瞳趙勇:計算機視覺在安防、交通、機器人、無人車等領(lǐng)域的應(yīng)用
 
  過去的計算機視覺
 
  我是從2003年開始念博士的,之前本科和碩士都是在復(fù)旦大學(xué)學(xué)習(xí)半導(dǎo)體。剛?cè)ッ绹鴷r,也是在做半導(dǎo)體的工作,后來才轉(zhuǎn)行進(jìn)入計算機視覺領(lǐng)域。在2003年,其實半導(dǎo)體技術(shù)已經(jīng)非常成熟了,而且有趣的事情都發(fā)生在工業(yè)界,而不是學(xué)術(shù)界。所以那個時候我就萌生了轉(zhuǎn)行的想法,并且很幸運地選擇了計算機視覺這個方向。
 
  當(dāng)時轉(zhuǎn)學(xué)到布朗大學(xué)去做計算機視覺,我是完全沒有任何背景的,我的導(dǎo)師招我是因為我有比較好的硬件實現(xiàn)能力。正好他當(dāng)時對運算攝影學(xué)(computational photography)很感興趣,這里面會涉及到很多硬件設(shè)計,所以他招了我做他的博士研究生。
 
  我想先給大家介紹一下13年前計算機視覺的現(xiàn)狀。當(dāng)時在美國每年計算機視覺產(chǎn)品的市場大概有六千億美元。但在生活中卻看不到任何計算機視覺的產(chǎn)品。這主要是因為計算機視覺在當(dāng)時非常昂貴,主要應(yīng)用在軍事、醫(yī)療和工業(yè)這三個領(lǐng)域。
 
  1. 軍事領(lǐng)域
 
  在軍事領(lǐng)域,大多數(shù)先進(jìn)的武器都是有計算機視覺在里面的,比如說導(dǎo)彈。導(dǎo)彈怎么樣去尋找目標(biāo),怎么樣去做一個路徑規(guī)劃。我給大家舉一個例子,美國歷史上最成功的一個巡航導(dǎo)彈就是戰(zhàn)斧導(dǎo)彈。這個導(dǎo)彈的特點就是它幾乎是貼地飛行或者貼海飛行,它的飛行高度很低。我們知道當(dāng)它高度低的時候,那些基于地對空Line of Sight (LoS)工作的雷達(dá),就沒有辦法工作了,那這樣的話,它就可以逃避大多數(shù)的雷達(dá),能夠安全地到達(dá)它的作戰(zhàn)區(qū)域。
 
 
  戰(zhàn)斧導(dǎo)彈可以在10米以下貼海飛行、可以在25米左右用非??斓乃俣荣N地飛行。這個過程中,它要應(yīng)付凹曲的地形,有的時候還可能會有障礙物,但是它飛到目的地附近的時候,它要做一個眼鏡蛇式的抬頭,然后這個時候它再低頭俯視它的目標(biāo)在哪里,(這個目標(biāo)要么是提前在衛(wèi)星地圖里標(biāo)定好的,要么是戰(zhàn)場附近的地面作戰(zhàn)人員現(xiàn)場用激光標(biāo)注的),確定好目標(biāo)后,然后再打出去。人類歷史上可以實施外科手術(shù)式的遠(yuǎn)程打擊就是依賴這種技術(shù)。在這個導(dǎo)彈上廣泛地使用了很多很多計算機視覺的技術(shù),比如高度控制、視覺定位、目標(biāo)尋定。
 
  2. 醫(yī)療領(lǐng)域
 
  醫(yī)療領(lǐng)域就更加是如此了。今天我們?nèi)メt(yī)院里面做一個檢查,醫(yī)生用的大部分的診斷工具是跟圖像有關(guān)的,包含X光、超聲波、CT、核磁共振等設(shè)備。即使是做一個化學(xué)檢測,比如驗血,有些時候也要把樣本放在顯微鏡下去成像。當(dāng)然這是一個廣義的圖像概念,它的圖像包含了電磁波無線電的整個波段,從例如伽馬波段這種很高的頻率一直到頻率很低的波段(比如毫米波)都有,甚至有一些更低頻的超聲波(非電磁波)其實也可以算在廣義視覺里面。
 
 
  我們的古人講究用望聞問切來診斷,但是這些手段是非常單一和落后的。今天在醫(yī)學(xué)領(lǐng)域中的很多問題,如果有很好的醫(yī)療設(shè)備能夠把本質(zhì)反映出來的話,診斷就可以很精確了。這個如此大的領(lǐng)域目前主要有三家公司,簡稱“GPS”——GE(通用電氣)、Philips(飛利浦)和Siemens(西門子)。
 
  3. 工業(yè)視覺
 
  工業(yè)視覺指的是在工廠里的流水線上做的各種跟檢測和組裝有關(guān)的視覺系統(tǒng)。比如說一個可口可樂公司的汽水瓶的封裝工廠,它在每個瓶子里面裝上汽水的時候,要把一個瓶蓋放上去,這個時候它就需要檢測到有沒有瓶蓋裝的不好,有漏氣或者是瑕疵,這種技術(shù)其實是在工業(yè)界非常非常廣泛的使用。
 
  在13年前計算機視覺的應(yīng)用就已經(jīng)很廣泛了,那么在過去這13年里面到底發(fā)生了什么變化呢?在回答這個問題之前,我想先總結(jié)一下在13年前計算機視覺的特點。它們的工作環(huán)境:
 
  要么比較簡單,比如說工業(yè)視覺,它是在一個嚴(yán)格控制光照條件的環(huán)境里進(jìn)行的,它的任務(wù)其實是比較簡單的;
 
  要么就是這個任務(wù)不一定簡單,但是它對自主化的要求并不高。比如說在醫(yī)療領(lǐng)域用的計算機視覺,在那個時候更重要的目標(biāo)是成像,或者說做數(shù)據(jù)的增強(image quality enhancement )。那么它的作用還是讓醫(yī)生看的更清楚,但是最終的決定是由醫(yī)生來做的。在軍事領(lǐng)域也是一樣的,很多計算機視覺在軍事領(lǐng)域應(yīng)用,一旦到了做決定的階段,還是會把決定權(quán)交給人去做,即使是戰(zhàn)斧導(dǎo)彈這么先進(jìn)的武器,它在最后的階段眼鏡蛇在瞄準(zhǔn)的時候,也是需要一個操作員在背后確定這個目標(biāo)到底要不要打。
 
  所以13年前的計算機視覺應(yīng)用要么環(huán)境簡單,或者它只是做增強,并不做最后的判斷。所以這些算法當(dāng)時并不復(fù)雜,但是有一個特點就是這些產(chǎn)品都非常非常地昂貴。這其實是符合科學(xué)發(fā)展的客觀規(guī)律的。任何一種新技術(shù),它在成熟的過程中,總是從簡單到復(fù)雜,從昂貴到廉價。所以它的應(yīng)用領(lǐng)域也是從軍事、醫(yī)療、工業(yè),再慢慢地到消費行業(yè)。
 
  當(dāng)今的計算機視覺
 
  那么13年后有什么新變化呢?我覺得主要體現(xiàn)在兩個方面:
 
  計算機視覺越來越多的進(jìn)入一些非專業(yè)的領(lǐng)域,跟消費者更息息相關(guān)的領(lǐng)域。它們開始解決一些現(xiàn)實的問題,這些問題會更復(fù)雜,因為他們不是在一個supervised的環(huán)境下,尤其像汽車、機器人,這些領(lǐng)域它其實并不在工廠里面,也不是在室內(nèi),它面臨的是真實的世界,很復(fù)雜的光學(xué)環(huán)境。
 
  設(shè)備的自主能力越來越高了,很多時候這個設(shè)備就自己做了大量的決定,基于它們對視覺感知的判斷就可以做基本的決定。
 
  所以今天的產(chǎn)業(yè)環(huán)境跟過去是不一樣的,尤其是創(chuàng)業(yè)公司在今天進(jìn)入計算機視覺或者人工智能領(lǐng)域的時候,基本上都要面向一些新興的行業(yè)。
 
  我個人認(rèn)為在這個時代計算機視覺最主要的應(yīng)用領(lǐng)域,如果按照它的產(chǎn)業(yè)規(guī)模和離現(xiàn)實的關(guān)系綜合來考量的話,我會對四個領(lǐng)域特別關(guān)注——安全、汽車、機器人、智能醫(yī)療。除了這四個領(lǐng)域以外還是有很多其他的應(yīng)用機會,比如說娛樂、動作捕捉、VR、廣告,甚至我曾經(jīng)做過一些考古相關(guān)的計算機視覺項目。
 
  1. 計算機視覺的相關(guān)技術(shù)
 
  1) 成像與運算攝影學(xué)
 
  現(xiàn)在來討論一下成像的過程,很多人覺得成像非常簡單,不就是一個攝像頭么,有一些參數(shù)可以調(diào)節(jié),如曝光時間、白平衡、色彩均衡等。但事實上如果我們這么想的話,就失去了好好理解成像的機會。
 
  當(dāng)我們想到圖像的時候,我們應(yīng)該從一個廣義的角度來理解它。其實電磁波是上帝賜給我們這個世界非常重要的禮物,它可以幫助我們超越物理的距離去感知周圍的環(huán)境。但是電磁波頻率的范圍是非常廣的,比如說快的X光、伽馬射線,還有一些宇宙射線,低頻的話可以到毫米波。比如從400到650納米是可見光的波段,但是從紫外線、可見光、近紅外、紅外線、thermal甚至一直到毫米波的波段,這里面都有很多很豐富的資源。在不同的波段上,它們的行為也是非常不一樣的。但是我們今天想到計算機視覺只能想到從400納米到650納米這個波段,那么這樣講的話就太狹隘了。
 
  今天給大家介紹一個叫Computational Photography(運算攝影學(xué))的概念。它的意思就是說我們可以使用各種各樣的電磁波手段,以及各種各樣的算法、多種傳感器的融合,通過有趣的算法和運算的組合,能夠產(chǎn)生新的感知數(shù)據(jù)。在這個領(lǐng)域里面存在一些人,他們不甘于接受傳統(tǒng)的RGB傳感器給我們提供的數(shù)據(jù),發(fā)明了各種各樣的新型相機,生成的有些圖像是我們?nèi)说难劬蛘邆鹘y(tǒng)照相機看不到的,比如說深度攝像頭。我們都知道深度攝像頭可以給我們返回非常珍貴的深度信息,有了深度信息我們就可以更精準(zhǔn)地把握一個環(huán)境的三維結(jié)構(gòu),它可以使得檢測、跟蹤、識別的很多任務(wù),變得更加可靠、簡單、方便。有很多方法能夠獲得深度,比如大家常了解的通過多個視角的畫面能夠算出來的,還有結(jié)構(gòu)光,這里面涉及到一個projector(投影儀)。其實projector的光學(xué)模型和Camera完全是相反,它是一對duality,它們的很多行為都是可以互補的。還有一些激光雷達(dá)的方法,據(jù)我所知道的depth sensing的方法大概有20多種,今天在產(chǎn)業(yè)上進(jìn)入成熟的大概只有三四種。
 
  應(yīng)用場景1:光場相機
 
  光場相機簡單的說就是這種相機可以完整地捕捉我們眼睛瞳孔前成像的平面上所有的光學(xué)行為,它是一個四維的場。如果我們可以把光場捕捉下來,就可以事后在其他的地方重現(xiàn)完整的光學(xué)環(huán)境,使得我們的顯示、捕捉、識別可以做得更好。一個最典型的光場display就是現(xiàn)在炒的非?;鸬腗agic Leap想要做的事情。
 
 

 
  應(yīng)用場景2:Femto Photography相機
 
  接下來想介紹一種叫做Femto Photography的相機。Femto指的是通過傳感器和算法的組合,可以使得成像的速度達(dá)到光本身頻率的程度,它是一個時間和頻率度量的名詞,基本上是10的負(fù)15次方這個水準(zhǔn)。Femto Photography使我們觀測的緯度和速度能夠提到光本身的程度。比如說我們知道光是有運動行為的,它從A到B其實是一個連續(xù)的過程,我們是否有一種相機本身可以去觀測光自己的運動呢?這聽上去像是一個偽命題,因為我們的相機也是通過光的感知來實現(xiàn)的。既然我們依賴了光,我們怎么可能去觀測比我們依賴的基本的光還要更快的東西呢?
 
  有個實驗就捕捉了一束閃光燈,從它發(fā)出來到它穿過一個可樂瓶這個過程中的畫面。這里用了一個很有趣的光學(xué)跟算法的組合重現(xiàn)這個畫面,它幫助我們更好的理解了光學(xué)行為。在工業(yè)界中其實這里面有很多有趣的應(yīng)用,另外一個Femto Photography的例子就是如何通過折線能夠看到一個場景。比如說繞過一個墻角,看到墻角背后的一些事情,它也是利用了一些Femto Photography的技術(shù)。
 
  
 
  2) 定位的傳感技術(shù)
 
  定位的傳感技術(shù)使用了一些光學(xué)的傳感器,使得你可以清晰地、精確地得到自己在三維空間中的定位,這個事情是非常重要的。比如說在VR的領(lǐng)域,如果能夠很精確地、速度很快地定位到頭盔的位置,那么當(dāng)我們在一個房間或者空間中移動的時候,我們就可以更有效地去更新這個畫面的視角,使得VR的體驗更加真實。但怎么樣把這樣的事情做好,其實今天世界上最成功的技術(shù)就利用了一種古老的運算攝影學(xué)的原理。
 
  從今天來看我最喜歡的VR定位技術(shù),就是一個叫Valve的公司,做的Lighthouse的技術(shù)。這個技術(shù)授權(quán)給了HTC,使得HTC今天虛擬現(xiàn)實的頭盔體驗做的是最好的。它的原理其實就是利用了一個類似于空間編碼的技術(shù),使用一個轉(zhuǎn)動的激光投影儀,把空間編碼發(fā)到空中去,然后用一個Photo Sensor來接收這個信號,把里面的空間編碼解讀出來,這樣就可以精確地知道自己的位置。
 
  接下來給大家介紹一種非常有趣的成像技術(shù),這種技術(shù)是用來觀測空氣的流動,我們知道大多數(shù)空氣是透明的,當(dāng)它們流動的時候,它們并沒有影響光線的變化,我們無法看到空氣的流動,但是有一種運算攝影學(xué)的技術(shù)可以幫你清晰地觀測到空氣的流動,這個技術(shù)的名字叫Schlieren Optics。
 
  大家可能會問這樣的技術(shù)有什么用,當(dāng)時我在實驗室接觸到Schlieren Optics時,做了一些很好玩的事,比如測量打一個噴嚏到底可以打多遠(yuǎn),我們后來發(fā)現(xiàn)一個噴嚏有時候可以達(dá)到兩三米遠(yuǎn)。這就給我們一個警示,以后打噴嚏的時候要離人遠(yuǎn)一點,把嘴巴擋住。但一些更重要的作用在于工業(yè)界可以用這種技術(shù)去分析空氣動力學(xué)。
 
 
  我們可能曾經(jīng)在電視上看到過這樣的廣告,一個跑車公司在展示他們的產(chǎn)品時,會做一個風(fēng)洞實驗:把這個車放在風(fēng)洞里面,然后吹很大的風(fēng)。這個時候有一個人把一些粉末或者碎紙片撒在氣流里面,觀測這些小紙片怎么在汽車的表面翻騰。然后根據(jù)粉末或碎紙片的運動狀態(tài)來判斷車的表面空氣動力學(xué)設(shè)計是否足夠好。但這種方法真的是非常非常的低效和非常地原始。今天其實有一些飛機設(shè)計公司,已經(jīng)開始用Schlieren Optics這種原理來觀測他們的空氣動力學(xué)。不需要任何的外在物質(zhì),只需要這么一種光學(xué)設(shè)備就可以看到空氣本身在飛機表面移動的情況。甚至現(xiàn)在美國的一些武器公司,在檢測自己設(shè)計的子彈,或者一些其他飛行導(dǎo)彈的沖擊波效果時,就是用這種Schlieren Optics來做的。
 
  2. 當(dāng)今計算機視覺的應(yīng)用
 
  今天我其實并不想花很多時間去討論具體的算法,計算機視覺這個領(lǐng)域本身就是非常廣袤的,而且在很多領(lǐng)域有很大的深度,所以不可能在這么短的時間給大家一個有效的概括。我想重點討論一下應(yīng)用方面。格靈深瞳本身對安全、汽車、機器人等領(lǐng)域比較感興趣,現(xiàn)在我們在前三個領(lǐng)域都有一些產(chǎn)品或者是研究的項目在。下面,我將分別地介紹一下我們對這些領(lǐng)域的觀點和感受。
 
  1) 安全
 
  我說的安全特指的視頻監(jiān)控。其實安防領(lǐng)域它已經(jīng)存在了很久,從商業(yè)攝像頭存在到現(xiàn)在已經(jīng)有三四十年的歷史,它其實在八十年代就進(jìn)入到了安防領(lǐng)域,只不過那個時候是一個奢侈品,現(xiàn)在變成了一個日常必需品了,而且價格也不高。
 
  整個安防體系總體來說就四個模塊:攝像頭、傳輸網(wǎng)絡(luò)、存儲器、顯示器。你可以感覺到它其實是一個視頻系統(tǒng),而不是一個視覺系統(tǒng)。視頻的意思是它最終是給人看的,而視覺是說它是一個視覺信號,可以被計算機理解。
 
  對應(yīng)到我們今天的視頻監(jiān)控產(chǎn)業(yè)來說,你會在攝像頭、傳輸網(wǎng)絡(luò)、存儲器、顯示器這些環(huán)節(jié)都找到非常大的市場。去年,中國的安防市場總共有4500億人民幣,其實是一個比智能手機還要大的產(chǎn)業(yè)。但這里面智能分析是一個非常小的模塊,最重要的原因就是算法不夠成熟,以及我們整個安防領(lǐng)域的基礎(chǔ)設(shè)施不成熟。
 
  今天我們安防的主要產(chǎn)品形態(tài)并沒有給智能理解留下一個很好的空間,比如說我們做計算機視覺首先需要接觸到數(shù)據(jù),但是今天的安防數(shù)據(jù)大多數(shù)都存儲在一個錄像機里面,它們可以是DVR(Digital Video Recorder)或NVR(Network Video Recorder),甚至有些地方還在廣泛地使用Analog Video Recorder。那么像這樣的形態(tài),它的整個體系就不太方便讓一個計算設(shè)備把它的數(shù)據(jù)挖出來,然后去處理。我們非常希望在未來能有一個更友好的基礎(chǔ)設(shè)施出現(xiàn):所有的攝像頭都連接到一個云上去,在云上我們可以把計算機視覺的算法加載在上面,接觸所有的數(shù)據(jù)并且分析它們。
 
  在安防領(lǐng)域最關(guān)注的三個物體是車、人、臉。如果我們可以把這三個問題研究的很清楚,基本上安防的問題就可以解決了。還有一些延伸的問題,比如說re-ID(重新識別)。因為我們今天的攝像頭數(shù)量非常巨大,在一些大城市有幾百萬個攝像頭。當(dāng)一個物體從一個相機轉(zhuǎn)移到另外一個相機的時候,如果你想分析到它廣義的軌跡,必須把一個人在不同攝像機拍攝的圖像中,重新識別出來。接下來如果你想了解這個個體的行為,就必須得了解他具體的姿態(tài)、動作。其實還有一種行為叫做變化檢測,也是非常重要的。
 
  然而,在所有這些事情的基礎(chǔ)上,還有一個非常重要的問題需要解決,就是怎么樣可以在監(jiān)控的應(yīng)用里面,把一個事物看得非常非常地清楚。我們曾經(jīng)有一個公安的客戶,他們拿著一段視頻來給我們看,這個視頻顯示在一個建筑物的門口有一個人走出來,然后就朝著遠(yuǎn)離相機的方向離去了。在這個畫面里面,這個人的高度大概不到10個pixel(像素),就是一點點,你宏觀上可以判斷出那有一個人,但是至于他長什么樣子完全看不清楚。警方來找我們的目的就是說他們非常確定這個人是一個很重要的犯罪嫌疑人,但是他們想知道他長什么樣子,他們唯一的線索就是這個非常模糊的視頻。他們希望我們能夠采用技術(shù)的手段,把這個視頻增強,幫助他們更好的理解這個嫌疑人。
 
  我們看完這個數(shù)據(jù)之后,其實是沒有辦法幫助他的。如果數(shù)據(jù)在捕捉的時候就喪失了,后期是沒有任何辦法把它捏造回來的。要想根本地解決這個問題,就要發(fā)明出更好的相機,能夠在大廣角的情況下,仍然可以看到很遠(yuǎn)的距離。也就是說它的有效分辨率必須非常非常地高,很不幸的是,今天我們市面上所有的相機都遠(yuǎn)遠(yuǎn)的不合格。
 
  想象一下,如果我們有一個高清攝像頭,今天標(biāo)準(zhǔn)高清攝像頭的分辨率是1920×1080的像素,這個分辨率的視頻其實已經(jīng)非常非常清晰了,數(shù)據(jù)量也很大。但是如果放在一個監(jiān)控視角,比如說放在一個相對的廣角(70-80度)下,在這個視覺下,離相機4米遠(yuǎn)之外,一個人的臉只能夠在一個100×100像素的范圍里面成像。這個大概是我們今天做人臉識別最低的要求了,比這個更小的人臉,我們做人臉識別的效率就會大大地降低。這才4米遠(yuǎn)而已,如果這個人站在10米遠(yuǎn)、20米遠(yuǎn),甚至是100米遠(yuǎn)之外的話,我們幾乎不可能看清這個人臉。
 
  給大家再舉一兩個例子。下面這張照片顯示的就是2013年波士頓馬拉松暴恐案上的兩個罪犯,左上角的監(jiān)控畫面里就是這兩個嫌疑人。你們可以看到這兩個人其實離相機的位置很近,如果你們觀測這個地面的方磚,每一塊方磚的尺度大概是1.2米-1.5米。第一個嫌疑人離相機不過也就是2米的距離,后面這個嫌疑人離相機大概也不超過五六米的距離。在這么近的距離下,他們的面部完全沒有達(dá)到一個清晰可辨的程度。后來警方?jīng)]有辦法,就把這張照片公布出來,希望民眾提供線索,大家在右上方和左下方看到的就是民眾提供的照片。
 
 
  下面這兩張照片就是我們做的一個小小的實驗。在這個實驗中,我們使用了佳能的單反相機,這算是市面上質(zhì)量非常好的相機。我們把它的分辨率調(diào)節(jié)到高清的程度,也就是1920×1080,然后請我們的幾位同事,站在離相機10米遠(yuǎn)和30米遠(yuǎn)的地方分別拍了一張照片。我們把這些照片里面人臉的部分拷貝出來,在這個側(cè)面形成了一個影像,你們可以看到其實這個人離相機10米遠(yuǎn)的時候,它的面部在相機里面只能留下36×36的像素,在30米遠(yuǎn)的地方只剩下12×12的像素,這些像素是完全不足以我們對人像進(jìn)行一個比較好的理解跟識別。
 
 
  所以,我們期望未來可以發(fā)明一個相機,幫助我們更好地解決這類的問題,從信息的源頭就把問題解決掉。
 
  2) 汽車
 
  下面我給大家介紹一下自動駕駛汽車相關(guān)的計算機視覺技術(shù)。今天在市面上存在著很多和智能汽車有關(guān)的視覺公司,但是這些公司基本分為兩類:
 
  第一種是ADAS (Advanced Driver Assistant System)技術(shù),就是先進(jìn)駕駛輔助系統(tǒng)。ADAS的主要功能就是給司機在行駛過程中提供一些和安全有關(guān)的提醒,最主要的作用就是駕駛輔助。它是一個輔助功能,它并不參與駕駛,也不對駕駛負(fù)任何責(zé)任。
 
  第二種是Automatic Driving自主駕駛技術(shù),自主駕駛技術(shù)又分為三種形態(tài):
 
  輔助駕駛(有的時候是人開、有的時候是機器人開)
 
  自動駕駛
 
  無人駕駛
 
  自動駕駛和無人駕駛的差別就是汽車?yán)锩娴降子袥]有人類司機,如果完全沒有的話,它就是無人駕駛。在應(yīng)用層面上,無人駕駛可以進(jìn)行分享交通的服務(wù),也就是說這個車有的時候可以為你服務(wù),有的時候可以為他服務(wù)。
 
  今天在中國有很多很多的ADAS公司,大多數(shù)都是一些計算機視覺公司,自動駕駛公司其實是非常非常少的,大多數(shù)也都是一些汽車電子行業(yè)有造車能力的公司。以我的理解,嚴(yán)格定義來說,今天我聽到的中國做自動駕駛的公司應(yīng)該只有百度、馭勢科技(格靈深瞳分離出來的新公司),還有就是清華大學(xué)的智行者。
 
  我們今天介紹的重點在自動駕駛。在自動駕駛層面上視覺感知的意義是什么?
 
  第一件事情是參與到防碰撞的過程。也就是說它能夠檢測出所有可能被碰撞的物體,然后給這個汽車一個安全的決策依據(jù)。很幸運的是今天在市場上有一些特別適合做防碰撞的傳感器,比如說激光雷達(dá)、毫米波雷達(dá),它們都做得非常好。這里面有一個很重要的原因,這些傳感器它的工作原理基本上基于物理檢測,它們把電磁波發(fā)出去,然后根據(jù)回波來判斷這個障礙物的存在。
 
  在馭勢科技,我們主要是使用一種深度傳感器,能夠把所有物體的點云恢復(fù)出來,然后我們把有可能跟汽車碰撞的那部分點云呈現(xiàn)給決策系統(tǒng)。也就是說我們并不去判斷這個物體是什么,而是把存在感交給決策系統(tǒng),事實上什么都不能碰,這就是我對于防碰撞的理解。所以我們的方案是以物理傳感器為主,以計算機視覺為輔,讓他們形成一種相互獨立的互補系統(tǒng)。
 
  第二件事情是Traffic Understanding,即理解交通里面有哪些要素。這里面包括道路本身的要素,比如說旁邊的路標(biāo),它會告訴你這里該怎么開,有的時候是單行線、限速、交通燈以及其他的一些原因。我個人覺得用計算機視覺去檢測所有的靜態(tài)交通單元并不是特別好,雖然今天我們檢測交通標(biāo)志以及交通燈的準(zhǔn)確度越來越高了,但是我仍然覺得像這些信息完全可以通過無線傳輸?shù)姆绞絺鹘o車?yán)锩妗?/div>
 
  未來,在自動駕駛汽車這個領(lǐng)域?qū)霈F(xiàn)一個新的方向叫做“v2i”(vehicle to infrastructure),也就是說未來的汽車會和基礎(chǔ)設(shè)施進(jìn)行通話,在地圖信息里面會包含所有的路標(biāo)。每一個路燈未來都會通過很有效的通訊方式,把他們的狀態(tài)傳遞給汽車。那么這樣一來汽車只要有效地檢測行人、車輛(汽車、三輪車、自行車)就可以了,而這個任務(wù)其實用今天的深度學(xué)習(xí)來解決已經(jīng)效果比較顯著了。
 
 
  既然我們防碰撞已經(jīng)有了其他的方法,我們?yōu)槭裁匆獧z測這些物體的種類呢?其實這就是跟我們駕駛的決策息息相關(guān)的。比如說在一個十字路口,你的汽車要左轉(zhuǎn),那么按照交通規(guī)則你必須讓有路權(quán)的車,比如說對面需要直行的車輛。如果激光雷達(dá)和毫米波雷達(dá),它們沒有能力去做識別,它只能告訴你,周圍的地形怎么樣,哪個地方有一個物體,但是它不能告訴你這個物體是什么。當(dāng)這個物體是一輛汽車,或者這個物體是一塊水泥墩的時候,你的駕駛決策是完全不一樣的。
 
  再比如你開車要路過一個斑馬線的時候,即使這個斑馬線沒有任何物體阻擋,但是如果斑馬線的旁邊站著一個路人,他試圖去過斑馬線的話,按照很多國家的交通規(guī)則,我們是應(yīng)該讓行人先走的,這個時候就涉及到必須識別出這個物體是一個行人。
 
  第三件事情是定位。定位非常重要,因為當(dāng)你要自主駕駛的話,前提條件就是知道你自己在哪,應(yīng)該開到哪個方向去。但是這個定位的要求精度又很高,你必須很詳細(xì)地知道你在什么位置,今天在行業(yè)內(nèi)大家普遍對于定位的期待是10厘米左右,但是怎么樣獲得10厘米精度的定位結(jié)果呢?比較成熟的方法有這么幾種:
 
  第一種是通過高精度的激光雷達(dá)來定位。它的基本思路是首先有一個地圖車,把街景全部掃描一遍,得到這個地區(qū)的三維點云,然后經(jīng)過一定處理后方便來做匹配。下一次當(dāng)這個汽車開到這個位置的時候,它用激光雷達(dá)掃描出來一個新的三維點云,然后通過GPS大概得到自己在一個粗略的方位,這個方位基本上是在100米精度之內(nèi)的。然后把新的點云信息跟數(shù)據(jù)庫里面的點云進(jìn)行一個對比,這個匹配的結(jié)果就是定位。這個精度可以做到比較高,但是這里面有幾個顯著的問題:
 
  a. 用來做定位的激光雷達(dá)今天還非常非常昂貴,在中國買一個這樣的雷達(dá)今天的成本是10萬美元;
 
  b. 它的數(shù)據(jù)量非常大,它的地圖存儲很大,很不方便使用。你可以想象有一天一輛汽車裝載著全中國所有道路的三維點云嗎?我覺得這事想想就挺可怕的。另外,這種場景匹配的過程過多的依賴于整個場景的信息,有些信息是不穩(wěn)定的。比如說,路旁邊的樹木它在夏天的時候很茂盛,在冬天的時候都枯萎了。包括你在掃地圖的時候可能旁邊有一輛車停著,你下次來的時候這輛車又不在了,這些變化的因素都會給激光視覺定位帶來潛在的噪音。
 
  第二種方式就是使用所謂的差分GPS,也叫GPS RTK。它是一種通過天空的定位衛(wèi)星,以及地面的定位基站共同輔助的方式來提高定位精度的一種技術(shù)。這種技術(shù)在條件合適的情況下精度非常高,甚至可以達(dá)到幾毫米,但是這種技術(shù)非常非常昂貴。在今天的中國想要購買一套差分GPS的天線成本也是幾十萬,而且這種技術(shù)本身也有缺陷。比如說在隧道里、橋底下、城市的核心區(qū)域、被大樓包圍的區(qū)域,GPS RTK的信號仍然很不理想。百度公司在去年12月份展出的自動駕駛視頻里面就采用了這種技術(shù)。但他們當(dāng)時為了做這個展示,也需要臨時鋪設(shè)一些GPS RTK的天線和基站,這種行為其實不具備可商業(yè)化的條件。
 
  問題就來了,無論你使用激光雷達(dá),還是使用GPS RTK,往往還要配合一顆精度非常高的慣導(dǎo),叫Inertial Sensor(INS),這個INS精度高的時候也是貴的不得了,便宜的也要二三十萬,我聽說有一些創(chuàng)業(yè)公司希望能夠把這種傳感器的成本大大降低,比如說降低5倍,那也要好幾萬,所以我覺得這些方法都不具備可商業(yè)化的可能性。
 
  所以計算機視覺在這個時候的重要性就體現(xiàn)出來了。大家思考一個問題,是不是有一天我們可以用計算機視覺就能夠完成精度很高的全局定位?如果這件事情可以做到的話,我覺得它的意義非常大,遠(yuǎn)遠(yuǎn)比做防碰撞要重要的多。
 
  今天我們在機器人視覺里面做定位的視覺技術(shù),比如說visual slam、visual odometry這些技術(shù),在一個小的范圍內(nèi)用的還不錯。但是當(dāng)我們在世界范圍使用的時候,比如說我們想象一下如何運用visual slam的技術(shù),使其在全中國所有的道路適用。我覺得我們過去的算法都是不可靠的,今天格靈深瞳也在研發(fā)相關(guān)的技術(shù),我們希望我們未來可以實現(xiàn)這個目標(biāo),我個人認(rèn)為這是我們對無人駕駛技術(shù)最大的貢獻(xiàn)。
 
  3) 機器人
 
  最后我們就移步到機器人的話題,其實自動駕駛汽車本身就是一種機器人。這里的機器人特別指的是服務(wù)型機器人,那種在家庭、辦公室、餐廳、酒店等真實世界里面跟更多大眾打交道的移動機器人。在這種機器人里面核心的視覺問題其實跟汽車也差不多,它也包括防碰撞、定位技術(shù),因為只有定位以后你才可以去做導(dǎo)航,但是更重要的是它必須有很好的交互能力。因為機器人要跟人打交道,要服務(wù)于人,所以它必須能夠觀察人、引導(dǎo)人、跟隨人、了解人,并且識別出每一個人的個體,弄清楚誰是你應(yīng)該服務(wù)的對像,誰是主人。
 
 
  理想的機器人需要具備很強的視覺能力,它能夠在空間中對這個環(huán)境做非常好的分析和定位,它能夠很靈活地移動,它能夠跟人甚至跟寵物在一起交互、玩耍,它能夠識別出姿態(tài)、手勢、面部等等信息,當(dāng)然它還有語音識別的能力。我們非常期待未來服務(wù)機器人能夠越來越聰明,因為今天我看到的大多數(shù)服務(wù)機器人仍然非常地笨拙。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行