我們總會對陌生的事物產(chǎn)生抵觸心理。
其實也不無道理,比如菜鳥網(wǎng)絡在天津的倉庫利用計算機視覺技術(shù),代替了原來250名倉庫管理人員。峰會論壇利用機器翻譯代替了人工同傳、速記等崗位。
所以有不少人擔心未來自己會不會丟飯碗,不過人們過分擔憂,我們會受到國外科幻電影的影響,認為機器人無所不能,甚至他們一定會毀滅人類。其實在現(xiàn)實中,能做到像電影中的高科技還是有一定很長的路要走,另外,有恐懼說明我們對人工智能還不完全了解。

筆者將圍繞計算機視覺和語音語意理解方面簡要介紹當前的技術(shù)發(fā)展狀況和可能遇到的問題。
何為人工智能?
在一個酒吧里,男孩發(fā)現(xiàn)不遠處有一個美女,于是他準備上前搭訕,很幸運他加上了女孩的微信,成為好友后他們不斷的聊天、約會,他們談起了戀愛。這個過程,一個男孩被女孩吸引,他首先感受到了女孩的美,于是大腦產(chǎn)生思考的過程,再做出搭訕的行為,執(zhí)行了大腦的反應,對于機器來說也是類似的,機器在訓練后,也可以做到,簡單總結(jié)一下這個循環(huán)便是便是“感知-認知-決策-執(zhí)行-學習-感知”這樣一個閉環(huán)。讓機器依據(jù)這個閉環(huán)并且做一切符合社會核心價值觀的行為,這樣的機器或者系統(tǒng)就叫人工智能。
所以這樣看,人工智能是一個很大的概念,這包含多種領(lǐng)域:計算機視覺、自然語言理解與交流、認知和推理、機器人學、博弈與理論、機器學習。
因為我們?nèi)嗽谡J知這個世界靠的最主要的還是眼睛,所以今天說計算機視覺會多一些。
計算機視覺能做什么?對我們有什么影響?
就目前來看它已經(jīng)滲透到我們生活的方方面面,常見的比如公司日常刷臉打卡、手機刷臉解鎖、支付。如果說2015年的時候我采訪的公司還在談概念,但在今年,可以看到有很多項目有具體落地。
說到計算機視覺,我們現(xiàn)在日常能看到的應用比如膚質(zhì)檢測、手勢識別、證件識別、銀行卡識別、文字識別、人臉對比、情緒識別、顏值評分,大一點方面在公共應用上比如監(jiān)控旅游景點人數(shù)、監(jiān)測交通擁堵情況等等,所以計算機視覺可以滲透到安防、生活娛樂、金融、農(nóng)業(yè)、教育等多種行業(yè)。
以上的例子比較寬泛,以具體的零售為例,看看計算機視覺技術(shù)如何賦能零售。
以前我們逛街進到實體店,絕大部分的營業(yè)員不了解潛在顧客的喜好,只能強推。現(xiàn)在,消費者經(jīng)過商店,商店門口如果擺放攝相機,通過機器捕獲人臉,店員第一時間知道你是不是商場VIP會員,判斷你的性別和年紀,通過機器學習若干與你相似年齡女孩的喜好數(shù)據(jù),會分析推斷你可能會喜歡產(chǎn)品。如果你看到屏幕的時候,機器會從頭到腳自動推薦該店適合你的商品。目前,科學家正在研究如何讓機器讀懂人的情緒,希望顧客進門后服務員通過人臉識別,或者表情識別可以知道你對哪件商品滿意,讓店員提供細致入微的服務。反過來對于商家,通過攝像頭匯總消費者大數(shù)據(jù)比如性別,年輕分布,流動性、停留時間、消費者看了什么樣的商品,通過大數(shù)據(jù)的分析告訴他們這個店的物品怎么樣擺放最優(yōu)的,商品如何擺放銷售量最高,讓商家更好做決策。但是也有保守者認為這種做法多此一舉,或者擔心自己泄露了隱私。
說白了,大數(shù)據(jù)起到了巨大作用。在線上我們國內(nèi)有引以為豪的阿里、京東、小米這樣的公司,但在線下目前來看7-11便利店利用大數(shù)據(jù)是做的最好的。他們?nèi)绾嗡鸭瘮?shù)據(jù)呢?原來,每個用戶在完成購物后,電腦上有專門的按鍵提供給店員,讓其來選擇消費者的性別和年齡等信息,7-11會有專門的數(shù)據(jù)分析人員,用數(shù)據(jù)去輔助運營做商品或者店鋪的優(yōu)化。
其它領(lǐng)域,比如汽車,研究人員現(xiàn)在也在試圖讓汽車了解自己的駕駛員,比如他們喜愛的音樂、習慣的座椅角度等等。
存在的問題
不過,技術(shù)雖然發(fā)展特別快但是對于商業(yè)落地需要磨合調(diào)試的,目前還有一些值得探討的邊界問題,比如算法是否具有可行性,因為機器接受人的指令目前還沒有推理的能力,所以機器參與的工作仍需要人去做決策,另外作為人工智能至關(guān)重要的就是數(shù)據(jù)量,小型創(chuàng)業(yè)公司可能雖然有技術(shù),但是可能遇到缺少數(shù)據(jù)的問題影響產(chǎn)品的準確性。還有就是行業(yè)的邊界,比如在醫(yī)療領(lǐng)域,計算機視覺是否真的是有助于醫(yī)生在影像分析上有絕對的幫助,因為對于醫(yī)院來說最本質(zhì)的需求是影響分析的準確性,要減少或避免誤診,而不是快速每天完成成百上千的病人的影像分析。另外在滲透到各行業(yè)中時,也要考慮到場景問題,是一錘子買賣還是可以復用?行業(yè)門檻有多高?落實后技術(shù)的可持續(xù)有多久?這都是值得討論的。
騰訊翻譯君在博鰲出糗是技術(shù)不行嗎?
再來說說自然語言理解和語意,在剛剛過去的兩會,科大訊飛劉慶峰在部長通道向媒體展示了他們的翻譯機產(chǎn)品,同樣在博鰲亞洲論壇,騰訊也很有勇氣的展示他們的同傳翻譯君,但尷尬的是把“one belt one road”(一帶一路)翻譯成“一個腰帶和一條路”。搜狗在兩會后也發(fā)布自己的翻譯硬件產(chǎn)品,對于語音類研究很早以前就有,只不過在兩千年初技術(shù)停滯了有長達十年,現(xiàn)在的翻譯技術(shù)有巨大突破歸根到底是得益于深度學習,機器能能抓取句子的意思了,深度學習技術(shù)大大促進了翻譯功能的進步。
為什么說騰訊有勇氣,主要是看自然語言理解領(lǐng)域什么最難,這肯定是“語意理解”,他們敢放在公開場合使用,其實對于技術(shù)團隊來說是一次很大的檢驗。語意理解背后需要很多知識,包括嘗試和具體的物理世界的知識,數(shù)字知識等等才能讓語言變的更豐富有足夠的意義,要想突破這個技術(shù)需要對知識和其他常識聯(lián)系起來做理解分析,其背后邏輯關(guān)系也很強,所以這不僅僅是國內(nèi)的互聯(lián)網(wǎng)公司遇到的技術(shù)問題,國外的研究院也在做提升準確性的努力。無論任何人工智能的產(chǎn)品,數(shù)據(jù)是最關(guān)鍵的要素,相比較多家產(chǎn)品,購物決策可以看背后的公司,一家公司如果有大量數(shù)據(jù)積累,比如他是做搜索、做翻譯等,再做翻譯產(chǎn)品準確度會有優(yōu)勢。不過這里還有一點要注意,各家的用語測試的數(shù)據(jù)庫大小還都不一樣,筆者期待著翻譯類產(chǎn)品能直接用手機就行了,不用單獨買一款硬件,不過目前對于手機來說,收聲是最關(guān)鍵的,對聲音質(zhì)量有要求,還要考慮對話者所處環(huán)境,是否有雜音等,有公司試圖做一款插入手機的小硬件,但后來考慮市場空間等因素后來放棄了。
語音在產(chǎn)業(yè)的融合也有很多領(lǐng)域可以看到,比如人機對話服務機器人,前不久獵豹移動發(fā)布了若干機器人,有適合辦公的也有適用于家庭的,還有小米的智能音響,雖然現(xiàn)在看這些產(chǎn)品并不是剛需,也許是為了搶占入口。對于服務型企業(yè)來說客服是一個非常重要的環(huán)節(jié),無論售前售后,曾經(jīng)與新零售公司的人討論過如何讓機器更了解潛在用戶,這個問題目前有的公司做售前機器人,他們想通過售前與用戶的對話來不斷了解用戶需求,從而推薦產(chǎn)品并配合今后的營銷工作,但用戶有沒有耐心與機器人交流,在售后上用戶往往是帶有情緒的如果售后客服機器人機械式的處理會加深用戶的不滿,所以現(xiàn)在各大企業(yè)紛紛建立AI實驗室,有一部分任務就是讓機器人更好的理解人,從語氣、視覺觀測到到人的情緒。