2016 年,人工智能在美好理想和殘酷現(xiàn)實的夾縫中野蠻生長。
無論是平臺還是產(chǎn)品,其核心競爭力在這兩方面:
巨大的市場需求
足夠的差異化和獨特性,不可復(fù)制性
滿足這兩點,你的產(chǎn)品和解決方案或服務(wù)才擁有核心競爭力。
當(dāng)從業(yè)者們認為,“技術(shù)為王”是人工智能時代的關(guān)鍵時,接踵而來的價格戰(zhàn)、商務(wù)戰(zhàn)、公關(guān)戰(zhàn),讓技術(shù)似乎不再是唯一的信仰。當(dāng)從業(yè)者們認為,手握學(xué)術(shù)大牛、刷爆各種榜單就能所向披靡時,“AI 產(chǎn)品經(jīng)理比科學(xué)家重要”、“刷榜是沒意義的”等反駁性觀點也越來越被業(yè)內(nèi)認可。當(dāng)從業(yè)者們認為,招一大批名校博士就可與巨頭比劃時,虛高的薪水和拿不出手的產(chǎn)品讓企業(yè)不得不開始考慮性價比的問題。然而,人工智能真的能像預(yù)期的那樣,未來五年走進家庭,給人們的生活帶來“驚艷”的變化嗎?
人工智能看似一塊巨大而香甜的蛋糕,似乎每個人都能從中看到未來數(shù)量龐大的客戶呈幾何式增長的前景,然而,現(xiàn)狀是歐美、日本這些在工業(yè)機器人領(lǐng)域做到登峰造極狀態(tài)的國家,在人工智能領(lǐng)域,并不能制造出可以替代人類的機器人。甚至,他們的人形機器人,或者服務(wù)機器人,只是停留在一個“人的初級概念”。
人類的需求不是特定的,也許有人會需要真人一樣的、有情感依賴的機器人陪伴在身邊,如果是單身的話,想象空間就很大了。這樣的機器人在5~8年之內(nèi)商業(yè)化是有可能的。未來人形機器人在運動控制和人工智能上將接近人。
過去推動人工智能的核心要素可以概括為大數(shù)據(jù)、大計算、大平臺:其在互聯(lián)網(wǎng)和云端做人工智能的技術(shù)與服務(wù)。如果朝更遠的方向看,我們會發(fā)現(xiàn)除了從云端部署人工智能,其實很多場景下急需在設(shè)備端部署人工智能,使這些設(shè)備具備環(huán)境感知、人機交互、決策控制的能力。
亞馬遜認為未來的人機交互的發(fā)展,消費中心一定是人形機器人。人形機器人最關(guān)鍵的技術(shù)是視覺輸出。我們每天所獲取的信息超過70%、80%都是從眼睛來的,所以首先是要進行圖像處理,如何將獲取的圖像變得更加清晰??辞宄?,就是機器識別,作為家庭服務(wù)機器人,首先要認識家里每一個成員,這樣才能對他們建立用戶畫像,然后把家庭成員的信息歸總起來。要想完成穩(wěn)定的圖像處理和機器視覺,離不開兩個非常關(guān)鍵的基礎(chǔ)方面的研究,即深度學(xué)習(xí)和多視角學(xué)習(xí)。

比如全球首臺具有人類感情的機器人Pepper,標(biāo)志著人類在機器人人工智能方面的一次偉大飛躍。在作出它認為合適的反應(yīng)之前,Pepper能夠識別人的面部表情、嗓音腔調(diào)和身形。在日本東京Omoto sando高級購物區(qū),Pepper在手機商店里做一些市場調(diào)查的工作。

又比如JIBO機器人,它不僅外型又萌又可愛,同時帶有“面部識別”功能,能夠識別主人,與我們進行交流。從本質(zhì)上來說,Jibo算是一款社交型機器人,它能根據(jù)使用者的需求做出反應(yīng)。在它的“頭部”,有一個大大的圓形屏幕,用于顯示信息或展示心情。Jibo內(nèi)置兩個高分辨率的相機,可以識別、追蹤人臉,撲捉鏡頭,發(fā)起即時視頻通話;另外內(nèi)置的360度環(huán)繞揚聲器和語音處理機制,可以在房間的任何位置與其他成員交談。比如當(dāng)Jibo為孩子們講故事時,不像以往的傳統(tǒng)工具單純冰冷的單項輸出,而是可以識別孩子的情緒,通過聲音、動作、屏幕顯示的“眼神”,與孩子互動。
機器人在家里到處走,要進行實時場景的解析,如何精確地實現(xiàn)室內(nèi)導(dǎo)航,要有很多基礎(chǔ)技術(shù)的支持。理解了環(huán)境,下面很重要的事情就是認知人、理解人的行為,這是運動的人臉識別系統(tǒng)。人是有情感的,你可以很友善,也可以很憤怒。這對于機器人來說就需要理解人的表情。理解了人的情緒、人的行為,下面就要知道如何檢測和識別物體。
人形機器人最終面向家庭的商業(yè)化還是要降低成本,而最大的問題就是要估計人的姿態(tài),如果給機器人裝很多攝像頭和傳感器必定會提高成本,如何利用單幕攝像機來獲取想要的數(shù)據(jù)就是需要研究的問題。
此外,還有一個關(guān)鍵問題是模型壓縮。人形機器人運動過程當(dāng)中有很多計算的開銷、電能的開銷,再加上人工智能的開銷,就導(dǎo)致它要有一個很大的電池,這在很多場景中是很難克服的,因此要把大的模型變成小的模型。
未來5年內(nèi)或迎來突破
在基本功能達到之后,就可以不斷迭代,真正產(chǎn)生一個符合需求的產(chǎn)品。在兩到三年之內(nèi),機器人“抓取”的功能一定能到位。
以“抓取”這個功能為例,家里各式各樣的瓶子很多,酒杯、礦泉水瓶、暖水瓶等等,可能在機器人看來都是一樣的,但如何精準(zhǔn)地把這些物體識別出來,就是需要人工智能技術(shù)和運動控制技術(shù)相互配合的場景。
比如美國宇航局噴氣推進實驗室參賽的Robo Simian猿形機器人。它有四條腿,有7組鏡頭,可以行走在不平的路面上,譬如樓梯或者山上,成為全方位搜索和救援機器人。

Robo Simian的多關(guān)節(jié)腿上有三根靈巧的手指,讓它可以像猿類來個蘭花指,或蕩個秋千,在去年的演示中,它還做了個引體向上。
真正的人形機器人是有四肢、大腦及軀干的機器人,只是它的外形不見得是第一步就完成的。先完成整體軀干的部分,可以運動了,有了AI的概念了,然后再做更加真人化的皮膚、材料、各種傳感器,這時候觸感、溫度各方面才會有進步。
比如新版本ASIMO的每只手都擁有13個自由運動軸,憑借這一點,它已經(jīng)能夠成為一個合格的手語表演者。除了可以完成各種復(fù)雜的行走功能與人類肢體動作外,還具備了人工智能AI,可以預(yù)先設(shè)定動作,還能依據(jù)人類的聲音、手勢等指令,來從事相應(yīng)動作。

“未來5年結(jié)合驅(qū)動技術(shù)、控制技術(shù),以及人工智能的發(fā)展,一定會迎來人形機器人在家庭應(yīng)用中新的突破點,也會迎來產(chǎn)業(yè)應(yīng)用的突破。”
最近大家在說中國 AI 的人才、技術(shù)儲備、研究、創(chuàng)新都有優(yōu)勢,這個觀點我不太認同。實際上,國內(nèi)學(xué)生在已經(jīng)討論出解決辦法的情況下去做拿競賽、刷分,這方面我們很擅長。但真正做出 Alpah Go 這樣的創(chuàng)新,咱們還差些火候,而且國內(nèi)也缺乏孵化這種創(chuàng)新的土壤。今年深度學(xué)習(xí)原創(chuàng)性的基礎(chǔ)研究在大步向前發(fā)展,然而我?guī)缀鯖]看到哪些進步是國內(nèi)產(chǎn)生的。
至于為何要做嵌入式人工智能?過去推動人工智能的核心要素可以概括為大數(shù)據(jù)、大計算、大平臺:其在互聯(lián)網(wǎng)和云端做人工智能的技術(shù)與服務(wù)。如果朝更遠的方向看,我們會發(fā)現(xiàn)除了從云端部署人工智能,其實很多場景下急需在設(shè)備端部署人工智能,使這些設(shè)備具備環(huán)境感知、人機交互、決策控制的能力。
商務(wù)和銷售確實非常重要,因為只有把技術(shù)和具體應(yīng)用場景拉近才能產(chǎn)生價值落地。技術(shù)研發(fā)也一定要有差異化,這種差異化如果只是做研究,只是去 Follow 開源平臺等這些大家都在討論的事情,這是很主流的做法,如果你一定要關(guān)注主流算法,潛臺詞就是你已經(jīng)放棄了差異化。因此你一定要深入特定的問題,深入解決那個場景下的各種限制條件,去針對性地提出特殊的方法解決實際需求,這是讓你更有差異化的途徑。