編者按:Ariel Fuxman是谷歌研究科學家,他于2006年從多倫多大學獲得計算機科學博士學位。他2015年加入谷歌,之前的8年時間在微軟擔任高級研究員。本文中他介紹了谷歌在I/O大會上新推出的智能聊天應用Allo,到底有怎樣神奇的智能回復功能,以及這些功能是如何通過圖像識別技術實現(xiàn)。
谷歌今天發(fā)布了智能聊天應用Allo。從開發(fā)Allo的第一天起,我們就想打造一個真正特殊的產(chǎn)品,通過機器智能的力量,讓聊天變得更加簡單、更加高效、更有表達力。Allo的一些特殊功能Photo Reply。我們利用了機器學習來理解分享的圖片到底有什么內(nèi)容,從而給用戶提出豐富的自然語言回復建議,用戶只要簡單點擊就能發(fā)送,省去了打字的麻煩。這讓用戶使用手機小鍵盤的時候,也可以非常方便地讓聊天對話比較有料。
舉個栗子,當你的朋友升級成為父母,難免會非常激動地給你發(fā)來(你并不感興趣的)小娃照片。

圖片來自Google Research Blog。
此時Allo就給你提供了幾個快捷回復的建議:
選項一:哇啊啊??!
選項二:好可愛!
選項三:可愛的寶寶!
?。ㄟ@完全是對曬娃無感的我,一向慣用的敷衍方式。)隨手一點,再也不擔心友誼的小船說翻就翻。
幕后功臣Photo Reply
今年冬天的時候,谷歌產(chǎn)品經(jīng)理Patrick McGregor和Ryan Cassidy給了我們一個挑戰(zhàn):敢不敢做一個簡化媒體分享的聊天軟件,并且同時讓用戶玩得開心、獲得很好的谷歌體驗。我與Vivek Ramavajjala、Sergey Nazarov和Sujith Ravi等幾位同事一起,接受挑戰(zhàn),開始打造Photo Reply。
我們利用了由機器感知團隊開發(fā)的谷歌圖像識別技術,來將圖像和語義個體聯(lián)系起來——人、動物、汽車等等。然后,我們應用了一個機器學習模型,將識別出來的語義個體與自然語言回復聯(lián)系起來。我們的系統(tǒng)為幾千個個體類型生成了回復,這些類型是從谷歌知識圖表的一個分類學子集中取出,并且有可能在不同的粒度等級上。舉個例子,當你收到一張小狗的照片時,系統(tǒng)可能會監(jiān)測出這條狗實際上是一條拉布拉多犬,并建議你回復“超愛拉布拉多!”或者當有人給你發(fā)了一張意大利面的照片,系統(tǒng)會監(jiān)測出意面的類型,然后說:“意大利扁面超好吃!”甚至不一定是關注細類,可以上升到美食文化的層面,回復說:“我超愛意大利美食!”

面對上圖中的意大利面,系統(tǒng)建議回復:“意大利扁面超好吃!”“我超愛意大利美食!”圖片來源Google Research Blog。

面對玫瑰的圖片,系統(tǒng)建議回復:“好漂亮!”“好愛玫瑰!” 圖片來源Google Research Blog。
我們發(fā)現(xiàn)系統(tǒng)有一項功能特別有用,就是它不僅能針對具體的物體建議回復,還能針對抽象的概念。它可以針對事件(生日聚會、婚禮等等)、自然風景(日出、遠山等等)、娛樂活動(登山、露營等等)以及更多的類別來建議回復。另外,系統(tǒng)還可以基于與圖片內(nèi)容有關的情緒,來進行回復建議,例如“開心”。下面的兩個例子,是針對抽象概念的回復:

針對畢業(yè)典禮的圖片,系統(tǒng)建議回復:“恭喜!”“你成功了!”圖片來源Google Research Blog。

針對跳傘活動的圖片,系統(tǒng)建議回復:“太刺激了!”“膽子太大了!”圖片來源Google Research Blog。
學習個體-回復之間的聯(lián)系
Photo Reply在運行的時候可以識別分享照片中的語義個體,觸發(fā)針對性的回復。這項模型將語義個體與自然語言回復聯(lián)系起來,而模型是通過Expander離線學會的,Expander是谷歌一項基于圖片的大規(guī)模半監(jiān)督學習平臺。我們打造了一個很大的圖表,節(jié)點對應圖片、語義個體以及文本回應。圖像的邊界指明了圖片中的語義個體何時被識別、針對一張圖片的具體回復何時確定以及照片之間的視覺相似點。有一些節(jié)點被“標記”了,我們通過在圖表中傳播標記信息,來學會未標記節(jié)點之間的關聯(lián)。
為了說得明白一點,我們可以看看下面這張圖表。這里有兩張表:紅色標記對應“好吃”回復,藍色標記對應“美味”回復。“意粉”和“扁面”這兩個節(jié)點沒有標記,但是因為他們與紅藍兩種標記都很近,算法可以學會這兩個節(jié)點應該與“好吃”和“美味”回復聯(lián)系起來。注意,通過這種方式,我們將“扁面”語義個體與“好吃”回復聯(lián)系了起來,即便是圖表中的所有扁面圖片都沒有直接與該回復有聯(lián)系。Expander可以以超大的數(shù)量來進行此類學習,搞定包含幾十億個節(jié)點、幾千億個邊界的圖表。

圖表例子。圖片來自Google Research Blog。
Photo Reply是多模式學習的一個很棒的例子,在這種學習模式中,計算機視覺和自然語言處理結合起來,從而創(chuàng)造出一種非常好的用戶體驗。今年夏天晚些時候,Allo就會正式上線安卓和IOS平臺。到時候記得用Allo發(fā)發(fā)照片,看看谷歌的人工智能到底會如何回復呢?