得益于NVIDIAResearch新的AI模型,越來越多的公司和創(chuàng)作者創(chuàng)建的大型虛擬世界可以更輕松地填充一系列多種多樣的3D建筑、車輛、人物等內(nèi)容。
NVIDIAGET3D僅使用2D圖像進(jìn)行訓(xùn)練,可生成具有高保真紋理和復(fù)雜幾何細(xì)節(jié)的三維圖形。這些3D對象的創(chuàng)建格式與熱門圖形軟件應(yīng)用所用的格式相同,允許用戶立即將其形體導(dǎo)入3D渲染器和游戲引擎,以便進(jìn)行后續(xù)編輯。
其所生成的對象可用于建筑、戶外空間或整個城市的3D表現(xiàn),為游戲、機(jī)器人開發(fā)、建筑和社交媒體等行業(yè)量身打造。

GET3D可以根據(jù)受訓(xùn)練時使用的數(shù)據(jù)生成幾乎無限量的三維圖形。就像一位藝術(shù)家將一塊粘土制成精細(xì)的雕塑一樣,該模型會將數(shù)字轉(zhuǎn)換為復(fù)雜的三維圖形。
例如,借助2D汽車圖像的訓(xùn)練數(shù)據(jù)集,它創(chuàng)建了轎車、卡車、賽車和面包車等系列集。當(dāng)在動物圖像上訓(xùn)練后,它會生成狐貍、犀牛、馬和熊等生物。如果輸入椅子時,模型會生成各種旋轉(zhuǎn)椅、餐椅和舒適的躺椅。
NVIDIAAI研究副總裁SanjaFidler負(fù)責(zé)領(lǐng)導(dǎo)創(chuàng)建此工具的多倫多AI實(shí)驗(yàn)室,她表示:“GET3D讓我們離普及AI驅(qū)動的3D內(nèi)容創(chuàng)作更近了一步。它能夠即時生成紋理化的三維圖形,這可能會為開發(fā)者帶來顛覆性的變化,有助于他們迅速填充包含各種有趣對象的虛擬世界。”
在11月26日至12月4日于新奧爾良(以及在線)舉辦的NeurIPSAI大會上,NVIDIA有20多篇論文、專題研討會,GET3D就是其中之一。
打造虛擬世界需要多種AI類型
現(xiàn)實(shí)世界充滿了多樣性:街道上的建筑各有特點(diǎn),各有不同的車輛則在其間呼嘯而過,川流不息的人群更是異彩紛呈。為反映這一情景的3D虛擬世界進(jìn)行手動建模非常耗時,因此難以填入詳細(xì)的數(shù)字環(huán)境。
以前的3D生成式AI模型,雖然比人工方法更快,但在所能生成的細(xì)節(jié)水平上也被限制了。即使是最近的反向渲染方法也只能根據(jù)從多個角度拍攝的2D圖像生成3D物體,這就需要開發(fā)者一次構(gòu)建一個三維圖形。
相反,在單個NVIDIAGPU上運(yùn)行推理時,GET3D每秒可生成大約20個形體,就像處理2D圖像的生成式對抗網(wǎng)絡(luò)一樣,只是生成的是3D對象。作為學(xué)習(xí)來源的訓(xùn)練數(shù)據(jù)集更大、更多樣化,輸出也會更多樣化,并且更詳細(xì)。
NVIDIA研究人員使用合成數(shù)據(jù)訓(xùn)練GET3D,數(shù)據(jù)中包含使用不同攝像頭角度拍攝的三維圖形2D圖像。該團(tuán)隊(duì)僅用了兩天時間,就使用NVIDIAA100TensorCoreGPU,對模型進(jìn)行了100萬張圖像的訓(xùn)練。
讓創(chuàng)作者能夠修改形狀、紋理、材質(zhì)
GET3D的名稱源于其能夠生成顯式紋理3D(GenerateExplicitTextured3D)網(wǎng)格,這意味著它會以三角形網(wǎng)格的形式創(chuàng)建形體并使用紋理材質(zhì)覆蓋,就像papier-mché模型一樣。這使得用戶能夠輕松地將對象導(dǎo)入游戲引擎、3D建模軟件和電影渲染器,并進(jìn)行編輯。
在創(chuàng)作者將GET3D生成的形體導(dǎo)出到圖形應(yīng)用后,當(dāng)這些物體移動或旋轉(zhuǎn)時,就能使用逼真的照明效果。通過整合NVIDIAResearch提供的另一種AI工具StyleGAN-NADA,開發(fā)者可以使用文本提示將特定風(fēng)格添加到圖像中,例如將渲染出的汽車調(diào)整為被燒毀的汽車或出租車,或?qū)⑵胀ǚ课菰O(shè)置成鬼屋。
研究人員指出,未來版本的GET3D可以使用攝像頭姿態(tài)預(yù)估技術(shù),讓開發(fā)者能夠使用真實(shí)世界的數(shù)據(jù)(而不是合成數(shù)據(jù)集)來訓(xùn)練模型。還可以對其進(jìn)行改進(jìn)以支持通用生成,這意味著開發(fā)者可以一次性訓(xùn)練用于各種三維圖形的GET3D,而不必每一次在一個對象類別上進(jìn)行訓(xùn)練。