在我寫這篇博文時,你是處于劣勢的,因為你看不到我的表情或者肢體語言,聽不到傳達意義的聲音的變化,你只看到了我的文字。
因為太多的交流是非語言性的,這就很容易理解為什么人與計算機交互會有障礙。我們經歷了從打孔卡到鍵盤的發(fā)展,隨著諸如Siri等APP的興起,我們可以進行語音輸入,但是僅僅通過語言,機器還是不能理解我們。
這就是為什么最近機器情緒識別的發(fā)展會如火如荼的原因。由于照相機技術和計算機視覺算法的發(fā)展,計算機通過面部表情、眼動方式、肢體語言、說話方式甚至抬頭等理解我們的能力顯著提高。
想象一下:一位虛擬心理醫(yī)生在臨床診斷時可以通過分析患者的面部表情來確診抑郁癥,甚至可以隨著病情的變化來量化情緒變化。銷售人員能更好地分析客戶對其產品和廣告的反應,老師們能知道課程計劃是否適用于全體學生,智能手機如果感覺到我們不安或困惑,會改變方式并提出建議。
換句話說,冷靜的設備會通過我們的面部表情來得知我們的情緒。
計算機視覺研究者已經致力于這項研究幾十年了。在這幾十年中發(fā)生了哪些改變?照相機技術是一個改變。為了理解面部表情,通常需要對表情的微妙變化進行檢測,比如臉頰肌肉、嘴部的變化以及挑眉。然而,直到最近,在許多網絡相機中人臉看起來還是像一大團粉紅色的物質。但是現(xiàn)在即使最原始的智能手機都具有高質量的照相機,能捕捉到諸多顯示面部情緒和意圖的面部動作。
另一個變化是常規(guī)可用計算能力與內存的提高,從而可以運行更加復雜的情緒感知算法。由于有大量訓練面部表情算法的視頻數(shù)據(jù)庫可用,計算機視覺算法變得越來越正確、有效,還能實時工作。
卡耐基梅隆大學機器人研究所的Fernando De la Torre發(fā)明了特別強大的面部識別軟件,被稱作 IntraFace。他的團隊采用機器學習的方法來教IntraFace如何以一種適用于大多數(shù)面孔的方式來識別和追蹤面部表情。然后他們創(chuàng)建了個性化算法能夠讓軟件對個人進行情感表達分析。不僅準確,而且高效,該軟件甚至能在手機上運行。
De la Torre和匹茲堡大學心理學家Jeffrey Cohn已經在臨床檢測抑郁癥上獲得了令人鼓舞的結果。在自然環(huán)境下檢測抑郁癥要求能夠捕捉微妙的面部表情,這就是他們正在做的事。
當然,這并不是萬無一失的。演員可能會成功地偽造情感表達。但是,由于真假情緒在表達時間上的不一致,因此關注時間的算法不會輕易上當。此外,面部表情是嵌入到其他非語言行為中的。Cohn和其同事發(fā)現(xiàn)嚴重抑郁癥和輕微抑郁癥之間在聲音的時間上有細微的差別。
另一位成員,語言技術研究所的Louis-Philipe Morency使用多模式機器學習來評估病人的非語言行為來幫助醫(yī)生更好地評估抑郁癥和焦慮。他設想這項技術不僅能幫助診斷疾病,還能在某種程度上量化情感反應,可以幫助醫(yī)生追蹤精神疾病,就像血液檢測和X射線能夠幫助醫(yī)生監(jiān)測身體疾病一樣。
如果機器能理解我們的情緒,我們與機器的交互就會變得更加豐富??突仿〈髮W的Justine Cassell研究虛擬同伴在教育行業(yè)的應用,她發(fā)現(xiàn)當虛擬同伴能對學生們的情緒狀態(tài)做出適當反應,甚至在某些場合嘲笑他們時,學生們會更積極地參與也會學得更多。
不難想象企業(yè)中會如何使用此功能。廣告者、營銷人員以及電影制片人能得到客戶群體更細節(jié)的信息??紤]到我們都無法擺脫公司電話的自動回復系統(tǒng),那么想象一下,如果我們最終失去耐心或要掛斷電話的時候,系統(tǒng)能感覺到并作出反應會是一種怎樣的體驗。
我們已經研究該功能很長一段時間了,我們正處于重大突破的前期。我預計2016年將是機器情緒識別的分水嶺,而且情緒會成為我們與機器交互的強有力的新通道。