寒氣沒有傳到每個人,至少寒氣已經(jīng)傳到每個行業(yè)。自動駕駛作為汽車智能化的核心技術(shù),一邊是燒錢的探索前進,一邊是生存的產(chǎn)品量產(chǎn)。無論是向左還是向右,對于自動駕駛行業(yè)來說都是挑戰(zhàn)與機遇并存。

自動駕駛的發(fā)展并不是偶然,而是社會發(fā)展的必經(jīng)歷程,雖然歷史不會重現(xiàn),但是歷史發(fā)展的規(guī)律卻總是驚人的相似。從1956年達特茅斯提出人工智能概念以后到21世紀初開展探索的自動駕駛技術(shù),時至今日無論是人工智能技術(shù)還是汽車形態(tài)都發(fā)生了翻天覆地的變化?;ヂ?lián)網(wǎng)行業(yè)也好汽車行業(yè)也罷,數(shù)據(jù)、算法、算力成為驅(qū)動智能時代產(chǎn)業(yè)前進的新動力,不斷增加的數(shù)據(jù)、不斷優(yōu)化的算法加上不斷進化的半導(dǎo)體算力,應(yīng)用而生的超級數(shù)據(jù)中心、算法大模型和算力暴力,似乎在一個無限的空間中,存在一個基于硅基的智能會超越基于碳基智能的預(yù)測函數(shù)。遺憾的是,這個預(yù)測函數(shù)是發(fā)散而不收斂的。
當(dāng)大家解決一個問題后,必定會引發(fā)出一個新的問題,在數(shù)據(jù)、算力和算法的推動下,智能化取得了一定的成果,方便快捷的外賣派送,汽車的主動安全性能的提升、熄燈工廠的建立解放勞動力等等,每一點的進步需要付出的代價實質(zhì)上也是數(shù)據(jù)處理的代價。有個比較有意思的問題,數(shù)據(jù)能否能代表真實的事物?如果不能,那么如何讓機器認知物理世界?如果機器不能認識人類物理世界,那么機器的世界如何建立?

縱觀人工智能的發(fā)展歷程,興起于符號邏輯推理,興盛于統(tǒng)計與機器學(xué)習(xí)到如今的深度學(xué)習(xí),究其根本人工智能研究的不外乎是物理世界的特征數(shù)據(jù)提取和虛擬世界的模型訓(xùn)練,也就是說并不是所有的數(shù)據(jù)都能用,并不是所有的數(shù)據(jù)都存在。掩藏在數(shù)據(jù)、算法、算力背后的是人工智技術(shù)發(fā)展的內(nèi)在變化。深度學(xué)習(xí)作為人工智能現(xiàn)階段的新浪潮,其技術(shù)及背后蘊藏的思維方式已成為人工智能技術(shù)從業(yè)者、項目管理者、戰(zhàn)略規(guī)劃決策者必備的基礎(chǔ)能力和認知方式。深度學(xué)習(xí)作為第三輪人工智能興起和繁榮的引擎,無論從AI技術(shù)發(fā)展還是產(chǎn)業(yè)應(yīng)用來看都處于核心位置,而自動駕駛,尤其是感知識別部分將成為深度學(xué)習(xí)的一個應(yīng)用平臺,起到承上(上層應(yīng)用)啟下(底層芯片)的腰部連接作用。
自動駕駛的研究和自然語言處理有相似的歷程,從最開始的知識規(guī)則驅(qū)動到數(shù)據(jù)驅(qū)動,本質(zhì)上是人類對客觀世界的認知的變化。數(shù)據(jù)驅(qū)動的研發(fā)模式即為在方法論確定的情況下,系統(tǒng)的性能優(yōu)化依靠可用數(shù)據(jù)的量來實現(xiàn),也就是系統(tǒng)的優(yōu)劣勢和數(shù)據(jù)的規(guī)模強相關(guān)。這個數(shù)據(jù)規(guī)模不僅僅是數(shù)據(jù)的本身,更重要的是數(shù)據(jù)的處理能力,尤其是在地緣政治緊張,法律監(jiān)管措施的異同以及文化背景差異的情況下,數(shù)據(jù)能力既是數(shù)據(jù)處理技術(shù)硬能力也是企業(yè)軟實力的體現(xiàn)。當(dāng)前,不管是工業(yè)界的自動駕駛算法還是互聯(lián)網(wǎng)界的推薦、搜索、語音識別算法全都聚焦在提升數(shù)據(jù)的質(zhì)量與模型參數(shù)規(guī)模,本質(zhì)上來講還是深挖現(xiàn)有技術(shù)路徑發(fā)展?jié)摿Γㄟ^大規(guī)模預(yù)訓(xùn)練模型、自主生成數(shù)據(jù)、依托知識圖譜常識關(guān)系、利用多源數(shù)據(jù)等方式彌補深度學(xué)習(xí)在通用泛化性、小數(shù)據(jù)、可解釋性、自主學(xué)習(xí)能力等方面局限性,不斷提升解決問題的水平和深度。
算法模型的優(yōu)化依賴數(shù)據(jù),數(shù)據(jù)在算法模型中凸顯價值,兩者之間既是相互關(guān)系又是相互獨立,這就很容易出現(xiàn)幾個問題。
第一個是數(shù)據(jù)規(guī)模問題,規(guī)模的大小只是一個相對的概念,數(shù)據(jù)量的需求是不收斂的,軟件算法的開發(fā)成本轉(zhuǎn)移到數(shù)據(jù)處理的成本,隨著量的增加,數(shù)據(jù)的傳輸、存儲、冷熱處理成本會不斷增加,表面上看半導(dǎo)體的工藝技術(shù)在提升,處理數(shù)據(jù)的能力在增強,軟件算法的效率和成本呈現(xiàn)反比的趨勢,但是數(shù)據(jù)的成本反而在增加;
第二個是數(shù)據(jù)的合規(guī)問題。曾經(jīng)有一位互聯(lián)網(wǎng)的大佬說“中國人更容易接受自己的面孔、聲音、及購物選擇被記錄和數(shù)字化,更愿意用個人的信息來換取便利”。不知道這位大佬是從哪一個角度得出此結(jié)論,但是可以看出數(shù)據(jù)合規(guī)與每個人息息相關(guān)并且數(shù)據(jù)與產(chǎn)品之間存在強關(guān)聯(lián)性。關(guān)于自動駕駛的權(quán)責(zé)問題、道德倫理問題,算法不可解釋性等一系列的挑戰(zhàn),其實都可以看成是數(shù)據(jù)合規(guī)問題。數(shù)據(jù)合規(guī)是在法律法規(guī)與產(chǎn)品便利之間的平衡關(guān)系,是確保產(chǎn)品公平性的一種措施,所以這個過程的必定是一個動態(tài)過程,數(shù)據(jù)不止,合規(guī)不息;
第三個問題,數(shù)據(jù)漩渦問題?,F(xiàn)在的企業(yè)家家戶戶都在或多或少,千方百計地采集數(shù)據(jù)。自動駕駛公司一般是雙管齊下,一邊實際的物理場景數(shù)據(jù),一邊進行虛擬仿真數(shù)據(jù)積累,背后最開心的莫過于云服務(wù)商和半導(dǎo)體商。雖然行內(nèi)都在倡議數(shù)據(jù)的互聯(lián)互通,實際上老死不相往來,畢竟誰都不想把資源池的蛋糕分享給別人;
第四個問題,基準數(shù)據(jù)的缺失。產(chǎn)業(yè)界一般都是在不停地采集物理世界的數(shù)據(jù),用于模型的訓(xùn)練。自動駕駛行業(yè)不停的進行測試和仿真積累數(shù)據(jù)里程,面臨共同的問題是基準數(shù)據(jù)集的缺少,這也導(dǎo)致新模型的效果提升會是單方面的,出現(xiàn)既是裁判又是球員的現(xiàn)象,一旦部署到產(chǎn)品端就會不斷出現(xiàn)問題。在高級自動駕駛尚未普及的階段,零星發(fā)生的事故與其說軟件算法的問題,不如說是訓(xùn)練數(shù)據(jù)出現(xiàn)了問題。
針對這種情況,行業(yè)內(nèi)又利用了一個新技術(shù)叫遠程升級,以此來優(yōu)化軟件算法實現(xiàn)數(shù)據(jù)的商業(yè)閉環(huán)。但是,這種方式真的對消費者公平友好嗎?這無形中讓消費者陷入一種不確定的盲盒狀態(tài)。
達爾文的生物進化論告訴我們物競天擇,適者生存。世界教育我們?nèi)ミm應(yīng)社會,并沒有教我們?nèi)ジ脑焐鐣?。從半?dǎo)體行業(yè)的發(fā)展趨勢看,在20世紀40年代誕生,起初芯片公司都具有設(shè)計、制造、封裝和測試,隨著芯片產(chǎn)業(yè)的發(fā)展速度提升,芯片公司開始逐漸分化,向?qū)6目v深發(fā)展,從而也形成行業(yè)的上下游產(chǎn)業(yè)鏈。目前算法模型的體積呈現(xiàn)指數(shù)級增長,以達摩院的M6大模型為例,模型參數(shù)量達到10萬億。單臺服務(wù)器,以英偉達V100為例,單卡顯存32GB,算力125Tera FLOPS,難以滿足千億級參數(shù)模型的訓(xùn)練需求,模型的體積增長反過來對數(shù)據(jù)的讀寫、存儲、訓(xùn)練等方面存在巨大壓力。自動駕駛行業(yè),雖然產(chǎn)業(yè)鏈呈環(huán)狀,未來伴隨著產(chǎn)品的成熟度提高,大概率也會成為鏈狀形成穩(wěn)定的產(chǎn)業(yè)鏈,畢竟人類的大腦更加擅長于串行處理信息。移動和互聯(lián)網(wǎng)的結(jié)合賦予智能汽車不一樣的屬性,同時也是數(shù)據(jù)和模型的集散和應(yīng)用中心。因此,面向高級自動駕駛的數(shù)據(jù)和模型會出現(xiàn)分離的狀態(tài),企業(yè)向縱深發(fā)展成為專而精的平臺。數(shù)據(jù)處理公司專業(yè)針對數(shù)據(jù)的問題,Data As Service,模型訓(xùn)練公司專攻模型和工具套件的開發(fā),Model As Service,當(dāng)業(yè)務(wù)發(fā)展到一定的規(guī)模,規(guī)模就是最大的技術(shù)壁壘。有人會說,小孩子才做選擇,大人一般數(shù)據(jù)和模型全都要。全都要的模式在產(chǎn)業(yè)發(fā)展前期尚可,在產(chǎn)業(yè)進入成熟期后分化的趨勢會成為主流,如果不調(diào)整策略準確定位會陷入顧此失彼的境地,一直處于打補丁的狀態(tài),產(chǎn)品的競爭無從談起。
從互聯(lián)網(wǎng)行業(yè)來看,數(shù)據(jù)和模型的分離趨趨勢已經(jīng)顯現(xiàn)?;ヂ?lián)網(wǎng)行業(yè)對于個人隱私數(shù)據(jù)的敏感性,從算法層面和數(shù)據(jù)層面不斷的進化,小數(shù)據(jù)訓(xùn)練,聯(lián)邦學(xué)習(xí)、隱私計算等等方法正在走向行業(yè)的前臺。相比于互聯(lián)網(wǎng)以個人數(shù)據(jù)為主,自動駕駛現(xiàn)階段的數(shù)據(jù)以B端為主,比如場景、道路、地域等等,兩者之間的在監(jiān)管和安全方面有較大的區(qū)別。未來隨著智能化的等級提升,汽車智能化和用戶體驗的提升一定會依賴個人數(shù)據(jù),多數(shù)據(jù)源的融合將奠定智能社會的發(fā)展。