復旦大學計算機科學技術(shù)學院機器人智能實驗室主任張文強在《大數(shù)據(jù)時代的機器人智能技術(shù)》的演講中,闡述了從互聯(lián)網(wǎng)思維來看服務機器人的技術(shù)在哪里。


互聯(lián)網(wǎng)至今發(fā)展了30年了,國家開展這項工作也有前30年后30年,前30年是解決溫飽問題,做吃的、做汽車的,做房地產(chǎn)發(fā)財了。但是后30年這些方面我們有可能關(guān)注在旅游、養(yǎng)老、養(yǎng)生,還有子女教育問題。中間一塊是機器人相關(guān)的。另外就是文化產(chǎn)業(yè),包括首富為什么來PK,不是無緣無故的。
我認為,互聯(lián)網(wǎng)企業(yè)比傳統(tǒng)企業(yè)做服務機器人要更好。
第一是移動終端,尤其是手機。蘋果手機他是把手機通信功能做了延伸,而且我們現(xiàn)在智能功能絕對不是騰訊,絕對是在媒體和社交。同樣這個道理,將來機器人要做一些顛覆性的應用,一定會發(fā)掘一批新的應用來給我們老百姓使用。

另外從技術(shù)上來講,云計算這個層面除了解決計算能力和資源,在解決容量方面也提供了非常好的手段。對于服務機器人來說,智能講的比較多,掃地機器人市場是很大,但是仔細想一想每個家里用掃地機器人一年用幾次,這不是必須要用的功能。如果是手機,你一天不用手機的話不舒服。是不是真正滿足了老百姓的需求,這一點我們一定要做好發(fā)掘。
另一個層面,對于服務機器人來說,經(jīng)常提到學習能力,智能加上內(nèi)容怎么來交互?自然交互非常難,目前為止還沒有一款機器人做到了自己交互,也許某些方面達到了,但是整體還不一定達到這個要求。

機器人是一個移動終端,把它作為一個工具來看,人是一個主體,機器人是一個載體。反正都要用到互聯(lián)網(wǎng)這個東西,機器人作為中間載體,它會不會取代一些東西?包括線下的比如說快遞小哥?還是無人駕駛汽車?這里面有很多文章可以做。
視覺這一塊如何讓機器人做相關(guān)智能?
第一、怎么來跟人進行交互,或者說你如何來識人?
第二、如何識別環(huán)境里面的物體。
第三、移動的時候,如何來識別場景。
先看看識別物體,在類腦殼方面我們在上海是排第一的。從人的視覺系統(tǒng),從神經(jīng)生物方面已經(jīng)驗證了,提到了兩個,一個是腹部流,一個是背部流。從這兩個東西受到了啟發(fā),如何來識別這個物體,這個物體在哪一個位置,這些方面可以來做一些工作。提出了一個網(wǎng)絡(luò)模型,和現(xiàn)在非常熱的生物學習不一樣,是非常淺層的學習方法。
前幾年我們做了一些工作,當時做了驗證,其中一種驗證是在復雜背景下,單個物體和多個物體如何來訓練模型。訓練完了以后來做測試。研究了這么多種思路,做了這么一款模型。
后面提到機器人必須來識別場景,除了傳統(tǒng)的方式還有別的很多方法,我們這兩年用深入和強化學習來做,但是實際應用還會用到非常傳統(tǒng)的識別信息來做定位。也要考慮到人來識別這個場景的時候是如何識別的,絕對是做了一些標記和訓練的。
如果說強化學習來識別這個場景,不用來構(gòu)建地圖,讓機器人在這個場景里面做訓練和學習,他是不是能夠記得這個點?是可以的。
服務機器人今天上午專門也提到在工業(yè)領(lǐng)域里面,谷歌也在做一些抓起的動作,他訓練的時候不是用傳統(tǒng)的方法,這一塊我們也在做,谷歌無非是提前把這個信息發(fā)出來的。
機器人到千家萬戶,他做精確的場景和整體不是一塊,而是一些局部的信息。這種局部的信息如何來交叉做訓練和學習?這里面是有一些方法可以做的,把場景的東西和整個肢體動作來做。美國人開始不跟我們玩了,我們中國人開始拿第一了,他們開始警惕了。從這個層面上來說,深入學習這個方法的確有可取的地方。這是基于視覺來識別人做了衰老檢測,因為實際應用里面有。
基于語音,人的聲音是很重要的一塊,一塊是語音合成,一塊是語音識別,最后一塊是語言理解。在后面那一塊是我們學校非常擅長做的,是連續(xù)音和短時音,我們來做也非常成熟。后面就開始把DNA網(wǎng)絡(luò)模型放進來了,先做中文語法,這里面包括分詞,相關(guān)的語法分析也好,具體細節(jié)不提。
基于視覺和語音結(jié)合起來,提高他的識別率,和語音結(jié)合起來可以更好的解答出來,這方面我們做了更好的嘗試。
對話管理是很重要的一塊,比如說打車軟件,這里面有相關(guān)細節(jié)應用了一些知識。
到第三代就開始到了2010年、上海世博會要做一個開幕機器人,開幕機器人主要功能是做一些迎賓,針對不同的客戶如何來做迎賓工作。
還有賣給小孩子的產(chǎn)品,賣給小孩子的時候是不是要更好???比如說做小孩教育,哪個企業(yè)是引領(lǐng)呢?這個方面的內(nèi)容怎么來切合老百姓的需求,我們也做了一些嘗試,肯定有一些交叉領(lǐng)域。交叉領(lǐng)域里面所提到的一些功能可以到移動終端來做的話,可以培養(yǎng)老百姓的需求,這是我們這兩年進行的嘗試。
我們嘗試的是醫(yī)學,尤其是中醫(yī),比較經(jīng)典的東西也可以結(jié)合起來,和中醫(yī)結(jié)合是怎么考慮的?每個中醫(yī)院里面都有這個東西,但是移動終端給整個生活造成影響,如果有這個增值服務的移動終端來提供服務,那是不是更好?在這一塊把互聯(lián)網(wǎng)和醫(yī)療結(jié)合起來,而且是有市場的。
如何和中醫(yī)結(jié)合做的一些工作,來進行診斷的時候需要做量化的工作,西醫(yī)比中醫(yī)做的好,有CT、有磁共振和相關(guān)的預測視頻,中醫(yī)怎么來進行量化。比如說我們要進行舌診的話,做的一些工作進行量化。最后提供出來的信息我們覺得是有療效的。像慢性腎衰的患者,他體現(xiàn)出來的具有價值的特征到底在哪里?這個是在西醫(yī)里面做的比較好的,怎么來驗證他的癥狀,相關(guān)細節(jié)不展開了。
還有一塊我們也覺得比較重要,這相當于標注了一個樣本,面診也好、舌診也好,取得了這個樣本醫(yī)生已經(jīng)做了標注,這個樣本對我們來說非常重要,上海大學是國內(nèi)做的最好的,北京那邊做的好的有3萬例標準好的樣本,上海這邊有5萬例樣本。
說在前面所作的自診也好,或者是相關(guān)的健康管理,最終都是要給老百姓來做反饋的。反饋他的養(yǎng)生、起居情況,增值服務是在哪一塊?這個產(chǎn)品可以得到盈利的點。
后面是整個實驗室所做的工作。針對舌診和面診,有規(guī)則、有經(jīng)驗,他越大,最后計算機,或者人工智能他出現(xiàn)的準確率越高,經(jīng)過了大量驗證。通過深挖面診里的具體傳統(tǒng)方法,對這個特征進行提取。
醫(yī)生來看的時候,他總是看你這個人有沒有神、無神,也可以做一些量化。下面是舌診,怎么樣來進行量化,舌頭可能有舌苔、舌紋,甚至有時還包括了齒印。
問診我們也有講究,也做了一些代表性的工作:一類是鏡子,智能鏡。第二類是對講機器人,這種人機交互手段比前面提到的移動終端要好,跟老百姓尤其是中老年人進行交互的時候會少費力一點。在產(chǎn)業(yè)界可以推動做一些相關(guān)的工作。