IT之家1月29日消息,谷歌研究院日前推出了一款名為Lumiere的“文生視頻”擴(kuò)散模型,主打采用自家最新開發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu),號稱能夠一次生成“完整、真實、動作連貫”的視頻。

▲圖源谷歌官方新聞稿(下同)

▲圖源谷歌官方新聞稿(下同)
谷歌表示,業(yè)界絕大多數(shù)“文生視頻”模型無法生成時間長、質(zhì)量佳、動作連貫逼真的內(nèi)容,這是因為此類模型通常“分段生成視頻”,首先產(chǎn)生幾張關(guān)鍵幀,接著用“時間超級分辨率(Temporal Super-Resolution)”技術(shù),生成關(guān)鍵幀之間的視頻文件,這種方法雖然能夠節(jié)省RAM,但難以生成“連貫逼真”的視頻。
谷歌提到,他們的新模型Lumiere相對于業(yè)界模型最大的不同是采用了全新“Space-Time U-Net”基礎(chǔ)架構(gòu),該架構(gòu)能夠在空間和時間上同時“降采樣(Downsample)”信號,從而在“更緊湊的時空中進(jìn)行更多運算”,令Lumiere生成持續(xù)時間更長、動作更連貫的視頻。
IT之家注意到,Lumiere一次可以生成80幀視頻(16FPS下5秒視頻/24FPS下約3.34秒視頻),雖然這一數(shù)據(jù)看起來很短,不過研究人員提到,5秒視頻長度實際上“已經(jīng)超過大多數(shù)媒體作品中的平均鏡頭時長”。
除了應(yīng)用“Space-Time U-Net”基礎(chǔ)架構(gòu)外,谷歌還介紹了Lumiere的基礎(chǔ)特性,該AI建立在一個經(jīng)過預(yù)先訓(xùn)練的“文生圖”模型基礎(chǔ)上,研究人員首先讓基礎(chǔ)模型生成視頻分幀的基本像素草稿,接著通過空間超分辨率(SSR)模型,逐步提升分幀分辨率及細(xì)節(jié),并利用“Multidiffusion”通用生成框架提升模型穩(wěn)定性,從而保證了最終輸出的視頻一致性和連續(xù)性。