IT之家3月1日消息,阿里巴巴研究團(tuán)隊(duì)近日發(fā)布了一款名為“EMO(Emote Portrait Alive)”的AI框架,該框架號(hào)稱可以用于“對(duì)口型”,只需要輸入人物照片及音頻,模型就能夠讓照片中的人物開口說出相關(guān)音頻,支持中英韓等語言。

▲圖源研究人員發(fā)布的DEMO片段
據(jù)悉,EMO基于英偉達(dá)的Audio2Video擴(kuò)散模型打造,號(hào)稱使用了超過250小時(shí)的專業(yè)視頻進(jìn)行訓(xùn)練,從而得到了相關(guān)AI框架。
IT之家注意到,研究團(tuán)隊(duì)分享了幾段由EMO框架生成的DEMO演示片段,并在ArXiv上發(fā)布了模型的工作原理,感興趣的小伙伴也可以訪問GitHub查看項(xiàng)目。

▲圖源研究人員發(fā)布的DEMO片段
據(jù)介紹,該框架工作過程分為兩個(gè)主要階段,研究人員首先利用參考網(wǎng)絡(luò)(ReferenceNet)從參考圖像和動(dòng)作幀中提取特征,之后利用預(yù)訓(xùn)練的音頻編碼器處理聲音并嵌入,再結(jié)合多幀噪聲和面部區(qū)域掩碼來生成視頻,該框架還融合了兩種注意機(jī)制和時(shí)間模塊,以確保視頻中角色身份的一致性和動(dòng)作的自然流暢。
研究人員援引一系列實(shí)驗(yàn)結(jié)果,聲稱EMO不僅能夠產(chǎn)生令人信服的說話視頻,還能生成各種風(fēng)格的歌唱視頻,號(hào)稱“顯著優(yōu)于目前的DreamTalk、Wav2Lip、SadTalker等競(jìng)品”。