11月6日下午,第七屆中國國際機(jī)器人高峰論壇工業(yè)機(jī)器人主題論壇上,廣州靈聚信息科技有限公司CEO張勝以《讓機(jī)器人像手機(jī)那樣人人能用》為題為我們分享了關(guān)于當(dāng)前人機(jī)交互方面的現(xiàn)狀及發(fā)展趨勢。(以下文字根據(jù)現(xiàn)場速記整理,僅供參考)

靈聚洛江是做自然語言交互的。關(guān)于好萊塢機(jī)器人,靈聚科技在兩年前也曾有過探討。很多電影拍攝有時(shí)候必須用到一些實(shí)際的道具,而不是完全依靠CG,比如涉及到會出現(xiàn)機(jī)器人的拍攝場景中,可以先制作出一款機(jī)器人,進(jìn)行角色扮演,后期再進(jìn)行角色加工,這是完全可行的。
實(shí)際上兩年前自然語言的技術(shù)還不是特別成熟,現(xiàn)在相對來說已經(jīng)成熟很多。自然語言技術(shù)是人工智能技術(shù)當(dāng)中的微小領(lǐng)域,然而只要跟人打交道的產(chǎn)品最終都離不開自然語言交互技術(shù)。因?yàn)檎Z言是人類傳遞、傳承知識的重要工具和載體,同樣機(jī)器人想要能夠理解人的意圖,掌握人類的知識,進(jìn)行具體的分析和判斷,掌握語言這門技能是繞不開的。
張勝首先為大家介紹了關(guān)于人機(jī)交互的革命歷史。以前所有的人機(jī)交互手段沒有一家是處于核心地位的,比如最早做按鈕的公司,做鍵盤、鼠標(biāo)的公司,沒有一家公司最后成為了一個(gè)行業(yè)的核心區(qū)位領(lǐng)導(dǎo)者。
實(shí)際上到現(xiàn)在為止可能也有人認(rèn)為NLP就是語音交互,但其實(shí)語音交互是有兩個(gè)不同的階段的。一個(gè)是語音命令階段,另一個(gè)就是現(xiàn)在所處的自然語言交互階段。
語音技術(shù)并不等同于語義技術(shù)。語音命令只需要發(fā)出一個(gè)指令就可以了,但如果你和你的AI說“屋子有點(diǎn)黑”,暗示著應(yīng)該幫忙開一下燈,這就進(jìn)入了自然語言交互階段。
自然語言理解是非??焖俚碾A段,自然語言交互階段很快將會過渡到認(rèn)知計(jì)算階段。這個(gè)階段將會整合包括機(jī)器視覺,更加豐富的傳感器等多模態(tài)交互。在輸入越來越多的情況下,就需要機(jī)器本身能擁有足夠的知識和算法數(shù)學(xué)模型來進(jìn)行分析判斷。在這樣的一個(gè)大方向上,聚靈科技現(xiàn)在正在做一些相關(guān)的研究。相信自然語言交互階段是能夠擺脫前幾個(gè)人機(jī)交互的尷尬狀態(tài)的。
語言本身是傳承人類知識的重要手段和工具,它與以往的三個(gè)階段都不一樣,以往的三個(gè)階段實(shí)際上是響應(yīng)人的自然動作,而自然語言交互階段是在響應(yīng)人的意圖。
NLP在當(dāng)前的應(yīng)用領(lǐng)域來講遇到的問題概括成兩個(gè)詞,一個(gè)就是“剛需”,一個(gè)是“通用”的問題。
靈聚一直在堅(jiān)持做通用的自然語言交互技術(shù),外界對此會有兩種評論,一種是騙子,另外一種就是瘋子。為什么會有這倆種評論?因?yàn)樽鐾ㄓ梅浅ky,所以現(xiàn)在很多人都改做了垂直場景。靈聚科技一直在這方面考慮如何去落地真技術(shù)。其實(shí)現(xiàn)在自然語言交互技術(shù)非常麻煩的一點(diǎn)是人說了任何一句話,你能不能知道他的意圖是?這是其一。
其二,根據(jù)上下文來才到它的意圖是什么。在這個(gè)方面,需要做很多的處理工作。限于神經(jīng)網(wǎng)絡(luò)的局限性,神經(jīng)網(wǎng)絡(luò)技術(shù)解決不了這個(gè)問題,因?yàn)檎Z言本身是非連續(xù)性的,非連續(xù)性的語言沒辦法被神經(jīng)網(wǎng)絡(luò)循環(huán)、收斂和計(jì)算,所以會很快遇到瓶頸。
比如說現(xiàn)在做QA,微軟可以和人聊很長時(shí)間嗎?張勝先生隨后又舉例了關(guān)于最近很火的索菲亞視頻,張勝先生認(rèn)為那并不是真實(shí)的交互,而是通過人工編輯的,視頻中的主持人也承認(rèn)了這一點(diǎn)。
在這樣一個(gè)現(xiàn)實(shí)情況下,雖然現(xiàn)在的技術(shù)取得了相當(dāng)?shù)陌l(fā)展,依然有很多的問題有待解決,剛需應(yīng)該被列在首位。剛需跟通用本身是有一個(gè)矛盾點(diǎn)的,剛需往往是某一個(gè)具體的應(yīng)用需求。
張勝隨后又談到了機(jī)器人格斗。機(jī)器人格斗在細(xì)分領(lǐng)域里面解決了一些需求的問題,而且把它成為了一種剛需。作為自然語言交互問題也要解決剛需的問題。整個(gè)市場分析包含有倆方面,一個(gè)是商用的服務(wù)機(jī)器人,另一個(gè)就是針對兒童的早教機(jī)器人。
如何實(shí)現(xiàn)技術(shù)的通用化?靈聚科技通過自身近5年的積累和思考,分析并實(shí)施了以下四點(diǎn)技術(shù)。
第一就是技術(shù)本身能不能為用戶創(chuàng)造價(jià)值,這個(gè)用戶不單純指最終用戶,而是指方方面面的用戶。
另外就是標(biāo)準(zhǔn)化,關(guān)于技術(shù)本身能不能做出一些標(biāo)準(zhǔn)的接口,和服務(wù)的標(biāo)準(zhǔn)化。定制似乎成了現(xiàn)在商用機(jī)器人在落地的時(shí)候的必須,把定制的東西基于我們標(biāo)準(zhǔn)化的平臺,通過提供工具變成工具化,然后讓這種定制化變成了用戶自主的行為,而不再是作為研發(fā)商來進(jìn)行的行為。可視化就是讓工具變得不但讓懂代碼的人用,連不懂代碼的人也可以用。
如何讓大家都用得起來?像手機(jī)一樣成為人人可以上手的應(yīng)用?買智能手機(jī)不會給人附加一本很厚的說明書,上手就可以用,靈聚科技希望機(jī)器人也是開箱就用,而不是首先要讀一個(gè)幾百頁的說明書。針對開發(fā)靈聚科技為客戶提供了開發(fā)者平臺,原代碼和豐富的自定義能力,包括輸出的Json也是可以自定義的,還有QA的自定義。因?yàn)檎麄€(gè)客服機(jī)器人系統(tǒng)基于QA,QA本身的技術(shù)突破就能夠在商用機(jī)器人領(lǐng)域解決很多問題。
同時(shí)聚靈科技還提供銷售渠道。對于一個(gè)產(chǎn)品的開發(fā)者而言,不需要考慮太多, NLP是怎么實(shí)現(xiàn)的,都不需要考慮,只需要考慮好不好用,能不能滿足自己的需求,怎么利用已有的技術(shù)和豐富的想象力開發(fā)產(chǎn)品,把產(chǎn)品規(guī)劃到極致。對于普通用戶來說,就是通過終端服務(wù)平臺提供可視化的工具,包括提供通過自然語言的方式來編程工具。
用戶的自我調(diào)校只會改他自己本身的設(shè)備,能夠讓他隨心所欲的用起來,把機(jī)器人調(diào)校成他自己的玩具,調(diào)校成他自己的一個(gè)東西。通過QAW平臺可以調(diào)整更加復(fù)雜的工作,從幾歲到幾十歲的人,包括專業(yè)水平人的都可以適用。
對于行業(yè)開發(fā)者,靈聚科技提供核心技術(shù)和利益共享模式,比如客服機(jī)器人引擎。靈聚科技甚至給客服機(jī)器人系統(tǒng)公司提供引擎,概括來說如何讓大家用起來,其實(shí)就是提供一個(gè)讓用戶覺得有價(jià)值的事情,然后讓他能夠輕松的用起來,達(dá)到自己的目的。尤其是在眼前技術(shù)并不成熟的時(shí)候,更加要在細(xì)節(jié)上做足功夫,這是張勝先生所提出的一個(gè)理念?,F(xiàn)在靈聚的官網(wǎng)上可以下載到安卓APP的原代碼,靈聚科技已經(jīng)做好了對智能導(dǎo)航、智能計(jì)賬包括提醒記事,對接引擎幾十種場景的支持。如果有人要開發(fā)一個(gè)智能導(dǎo)航的場景,代碼都已經(jīng)寫好了,而客服只需要寫一個(gè)UI就可以出來了,這就是靈聚科技提供給客戶的便捷,同時(shí)這個(gè)產(chǎn)品上市了之后終端用戶依然可以隨時(shí)用語音的方式來進(jìn)行設(shè)備的調(diào)校,這些功能是已經(jīng)內(nèi)置好的。
國內(nèi)很多知名的公司陸陸續(xù)續(xù)已經(jīng)使用或者正在對接靈聚的技術(shù),靈聚科技也想通過這樣的方式能夠給大家提供更便捷的服務(wù),讓大家快速的接入靈聚的接口。靈聚科技的接口是按類來分的,幾十種場景是一個(gè)接口,對應(yīng)起來非??欤医涌谶€在不斷標(biāo)準(zhǔn)化和統(tǒng)一化。
通過這樣一個(gè)已經(jīng)逐漸完善的管理平臺,還可以讓機(jī)器人進(jìn)行視頻講解,刻意自行定義到了時(shí)間軸講什么詞,機(jī)器人在講話的時(shí)候,會自動由靈聚科技的人工大腦配動作,不需要設(shè)計(jì)者去設(shè)計(jì)動作,如果動作不滿意還可以通過動作按鈕來編輯該動作。
再比如說講PPT,每一頁上傳PPT文件之后選擇哪一頁是機(jī)器講還是人自己講,標(biāo)題是什么,演講內(nèi)容是什么,都是可以進(jìn)行編輯的。另外機(jī)器人在演講過程中可以隨時(shí)被打斷,被打斷之后人插完話可以讓機(jī)器人繼續(xù)演講。
最后張勝向大家介紹了聚靈科技新一代的客服機(jī)器人引擎。自然語言交互系統(tǒng)在早期被人叫做機(jī)器人問答系統(tǒng),可見機(jī)器人就是一問一答的模式,聚靈科技現(xiàn)在在4個(gè)方面做了一些工作,最主要的基于Deep Learning的數(shù)據(jù)方面的最大問題就是不夠精確,聚靈科技把兩個(gè)結(jié)構(gòu)放在一起,做了更加精準(zhǔn)的拓展,新的技術(shù)拓展已經(jīng)不可見,變得抽象化。另外,上下文不需要手動編輯,是系統(tǒng)自動支持的,這一點(diǎn)也很關(guān)鍵,有很多銀行客服機(jī)器人系統(tǒng)在使用的時(shí)候上下文也是需要手動編入的。
包括多輪交互,一個(gè)是半編輯模式,一個(gè)是全人工編輯的模式,這是不可能全自動的,還需要編輯。關(guān)于多行業(yè)通用靈聚科技花了很多精力來研究如何制作一個(gè)適用于各行業(yè)的客服機(jī)器人,如何實(shí)現(xiàn)機(jī)器人的標(biāo)準(zhǔn)化、可視化、工具化。聚靈科技將會提供用戶上傳WORD文件或者EXCEL文件讓用戶在這些文件當(dāng)中學(xué)習(xí)新的知識,應(yīng)用在對應(yīng)的公司或者行業(yè),然而完全沒有人工是不可能的,現(xiàn)有的技術(shù)沒有人工干預(yù)的學(xué)習(xí)是根本做不到的。
聚靈科技的客服機(jī)器人引擎會通過開發(fā)平臺為客戶提供服務(wù),另外也會為相關(guān)的客服機(jī)器人公司提供引擎的支持。不同的產(chǎn)品輸出的功能是不太一樣的,靈聚智能所展現(xiàn)的能力跟微信各有不同,但共同的意愿是希望通過盡可能的給開發(fā)者提供最簡單的使用和接入的方案,給用戶提供最佳的局部體驗(yàn)來提升聚靈科技的產(chǎn)品最終被用戶認(rèn)可的認(rèn)可度。