国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: irobot  佳士科技  工業(yè)機(jī)器人  機(jī)器人  機(jī)器人產(chǎn)業(yè)聯(lián)盟  ABB  機(jī)械手  發(fā)那科  機(jī)器人展覽  碼垛機(jī)器人 

可讓照片人物“開口說話”,阿里巴巴研究團(tuán)隊(duì)推出 AI 框架“EMO”

   日期:2024-03-04     來源:IT之家     評(píng)論:0    
標(biāo)簽: AI 科技 創(chuàng)新
   IT之家3月1日消息,阿里巴巴研究團(tuán)隊(duì)近日發(fā)布了一款名為“EMO(Emote Portrait Alive)”的AI框架,該框架號(hào)稱可以用于“對(duì)口型”,只需要輸入人物照片及音頻,模型就能夠讓照片中的人物開口說出相關(guān)音頻,支持中英韓等語言。
 
  據(jù)悉,EMO基于英偉達(dá)的Audio2Video擴(kuò)散模型打造,號(hào)稱使用了超過250小時(shí)的專業(yè)視頻進(jìn)行訓(xùn)練,從而得到了相關(guān)AI框架。
 
  IT之家注意到,研究團(tuán)隊(duì)分享了幾段由EMO框架生成的DEMO演示片段,并在ArXiv上發(fā)布了模型的工作原理,感興趣的小伙伴也可以訪問GitHub查看項(xiàng)目。

5f9b662e-1633-4196-b099-de4316713fea
▲圖源研究人員發(fā)布的DEMO片段
 
  據(jù)介紹,該框架工作過程分為兩個(gè)主要階段,研究人員首先利用參考網(wǎng)絡(luò)(ReferenceNet)從參考圖像和動(dòng)作幀中提取特征,之后利用預(yù)訓(xùn)練的音頻編碼器處理聲音并嵌入,再結(jié)合多幀噪聲和面部區(qū)域掩碼來生成視頻,該框架還融合了兩種注意機(jī)制和時(shí)間模塊,以確保視頻中角色身份的一致性和動(dòng)作的自然流暢。
 
  研究人員援引一系列實(shí)驗(yàn)結(jié)果,聲稱EMO不僅能夠產(chǎn)生令人信服的說話視頻,還能生成各種風(fēng)格的歌唱視頻,號(hào)稱“顯著優(yōu)于目前的DreamTalk、Wav2Lip、SadTalker等競(jìng)品”。
 
 
聲明:凡資訊來源注明為其他媒體來源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問或質(zhì)疑,請(qǐng)立即與中國(guó)機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行
?