熱搜： irobot 佳士科技工業(yè)機(jī)器人機(jī)器人機(jī)器人產(chǎn)業(yè)聯(lián)盟 ABB 機(jī)械手發(fā)那科機(jī)器人展覽碼垛機(jī)器人

可讓照片人物“開口說話”，阿里巴巴研究團(tuán)隊(duì)推出 AI 框架“EMO”

日期：2024-03-04 來源：IT之家評(píng)論：0

　　IT之家3月1日消息，阿里巴巴研究團(tuán)隊(duì)近日發(fā)布了一款名為“EMO（Emote Portrait Alive）”的AI框架，該框架號(hào)稱可以用于“對(duì)口型”，只需要輸入人物照片及音頻，模型就能夠讓照片中的人物開口說出相關(guān)音頻，支持中英韓等語言。

　　據(jù)悉，EMO基于英偉達(dá)的Audio2Video擴(kuò)散模型打造，號(hào)稱使用了超過250小時(shí)的專業(yè)視頻進(jìn)行訓(xùn)練，從而得到了相關(guān)AI框架。

　　IT之家注意到，研究團(tuán)隊(duì)分享了幾段由EMO框架生成的DEMO演示片段，并在ArXiv上發(fā)布了模型的工作原理，感興趣的小伙伴也可以訪問GitHub查看項(xiàng)目。

▲圖源研究人員發(fā)布的DEMO片段

　　據(jù)介紹，該框架工作過程分為兩個(gè)主要階段，研究人員首先利用參考網(wǎng)絡(luò)（ReferenceNet）從參考圖像和動(dòng)作幀中提取特征，之后利用預(yù)訓(xùn)練的音頻編碼器處理聲音并嵌入，再結(jié)合多幀噪聲和面部區(qū)域掩碼來生成視頻，該框架還融合了兩種注意機(jī)制和時(shí)間模塊，以確保視頻中角色身份的一致性和動(dòng)作的自然流暢。

　　研究人員援引一系列實(shí)驗(yàn)結(jié)果，聲稱EMO不僅能夠產(chǎn)生令人信服的說話視頻，還能生成各種風(fēng)格的歌唱視頻，號(hào)稱“顯著優(yōu)于目前的DreamTalk、Wav2Lip、SadTalker等競(jìng)品”。

聲明：凡資訊來源注明為其他媒體來源的信息，均為轉(zhuǎn)載自其他媒體，并不代表本網(wǎng)站贊同其觀點(diǎn)，也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問或質(zhì)疑，請(qǐng)立即與中國(guó)機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系，本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話：021-39553798-8007

更多>相關(guān)資訊

0 條相關(guān)評(píng)論

推薦圖文

加州大學(xué)科學(xué)家發(fā)明了	深圳又一制造業(yè)總部基
水下機(jī)器人在漁業(yè)中的	哈工程水下機(jī)器人再奪
里程碑！荊州市首臺(tái)機(jī)	超維科技精彩亮相電力

推薦資訊

點(diǎn)擊排行

?

• AI 網(wǎng)絡(luò)蠕蟲被曝光：能不斷繁殖，發(fā)送垃圾郵件	• 報(bào)告稱“AI 威脅工作論”被夸大：因部署維護(hù)成
• 英偉達(dá) CEO 黃仁勛：通用人工智能預(yù)計(jì)最快五年	• 某視頻號(hào)偽造劉德華聲音，官方提醒避免落入 AI
• AI 替代人工編輯首戰(zhàn)失敗，維基百科不再視 CNET	• 美國(guó) FDA 稱馬斯克旗下 Neuralink 動(dòng)物實(shí)驗(yàn)存在
• 倫理學(xué)視域下的人工智能發(fā)展	• 針對(duì) OpenAI CEO 阿爾特曼被罷免事件的調(diào)查已接
• Adobe 推出 AI 音樂生成工具，可根據(jù)文本生成音	• 2023 年度“中國(guó)科學(xué)十大進(jìn)展”發(fā)布：AI 大模型

恰佩克獎(jiǎng)	機(jī)器人高峰論壇	機(jī)氣林	ITES深圳工業(yè)展	機(jī)器人研究院	庫卡機(jī)器人	中國(guó)傳動(dòng)網(wǎng)
索比光伏網(wǎng)	數(shù)控機(jī)床市場(chǎng)網(wǎng)	國(guó)家標(biāo)準(zhǔn)化委員會(huì)

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

可讓照片人物“開口說話”，阿里巴巴研究團(tuán)隊(duì)推出 AI 框架“EMO”

可讓照片人物“開口說話”，阿里巴巴研究團(tuán)隊(duì)推出 AI 框架“EMO”