人在生活中的感知是多元的,包括視覺、聽覺、觸覺、味覺、嗅覺等等。任何感知能力的缺失都有可能造成智力或能力的異常。
基于此,多模態(tài)機器學習(MultimodalMachineLearning)為機器提供多模態(tài)數(shù)據(jù)處理能力。例如,看圖說話,看電影翻譯。多模態(tài)學習的長遠目標是使機器充分感知環(huán)境,如感知人的情感、言辭、表情,更智能地和環(huán)境進行交互。

目前,學術上比較成熟的是視覺和語義之間的多模態(tài)學習。如對一張圖片生成文字描述,或者針對一張圖片的內容回答相應的文字問題。視覺信息通常用CNN處理,文本信息通暢使用RNN處理。多維度數(shù)據(jù)對齊的方式有attention機制,例如,看圖說話里名詞對應圖里面哪個物體。并且,在很多傳統(tǒng)機器學習任務上,多模態(tài)學習優(yōu)于單模態(tài)機器學習,例如,輔助視覺信息的文本翻譯效果優(yōu)于僅使用文本信息。


