數(shù)據(jù)增強(qiáng)技術(shù)使AI模型能夠基于大都會(huì)藝術(shù)博物館的一個(gè)小型數(shù)據(jù)集來(lái)模仿藝術(shù)作品,并在醫(yī)療健康等領(lǐng)域開(kāi)創(chuàng)全新的潛在應(yīng)用。

NVIDIA Research的最新AI模型可謂生成式對(duì)抗網(wǎng)絡(luò)(GAN)領(lǐng)域的“神童”。相較于典型的GAN,它只需要基于極少量的學(xué)習(xí)材料,就能學(xué)習(xí)諸如模仿著名畫(huà)家和重建癌癥組織圖像這樣復(fù)雜的技能。
通過(guò)將一種突破性的神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)應(yīng)用于常用的NVIDIA StyleGAN2模型,NVIDIA的研究人員基于大都會(huì)藝術(shù)博物館中不到1,500張圖像重新設(shè)計(jì)了藝術(shù)作品。他們使用NVIDIA DGX系統(tǒng)加速訓(xùn)練,從歷史人物肖像中汲取靈感,創(chuàng)作出了全新的AI藝術(shù)作品。
這種稱(chēng)為自適應(yīng)鑒別器增強(qiáng)(ADA)的技術(shù)能在將訓(xùn)練圖像的數(shù)量縮減10-20倍的情況下,仍保持不錯(cuò)的效果。未來(lái),該技術(shù)將會(huì)為醫(yī)療健康領(lǐng)域帶來(lái)重大影響,例如,可通過(guò)創(chuàng)建癌癥組織學(xué)圖像來(lái)幫助訓(xùn)練其他AI模型。
NVIDIA圖形研究副總裁David Luebke表示:“這些研究結(jié)果意味著,人們可以使用GAN來(lái)解決大量數(shù)據(jù)過(guò)于耗時(shí)或難以獲取的問(wèn)題。我十分期待藝術(shù)家、醫(yī)學(xué)專(zhuān)家和研究人員能夠?qū)ζ涑浞掷?,?shí)現(xiàn)更多應(yīng)用。”
本周,這一項(xiàng)目的研究論文將在年度神經(jīng)信息處理系統(tǒng)大會(huì)NeurIPS上發(fā)表。在本屆大會(huì)上,NVIDIA Research破紀(jì)錄地有28篇研究論文入選,該論文就是其中之一。
這種新方法是NVIDIA研究人員在GAN領(lǐng)域的一系列創(chuàng)新中的最新成果。這些研究人員開(kāi)發(fā)了基于GAN的突破性模型,包括AI繪畫(huà)應(yīng)用程序GauGAN、游戲引擎模擬器GameGAN和寵物照片轉(zhuǎn)換器GANimal。這些模型在NVIDIA AI Playground均有提供。
數(shù)據(jù)訓(xùn)練的困境
像大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,GAN長(zhǎng)期遵循一個(gè)基本原則:數(shù)據(jù)訓(xùn)練量越多,模型越完善。這是因?yàn)槊總€(gè)GAN都由兩個(gè)配合的網(wǎng)絡(luò)組成——一個(gè)生成合成圖像的生成器,以及一個(gè)根據(jù)訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)逼真圖像的鑒別器。
鑒別器會(huì)指導(dǎo)生成器,提供逐個(gè)像素反饋,以幫助其提升合成圖像的真實(shí)感。但如果可供學(xué)習(xí)的訓(xùn)練數(shù)據(jù)有限,鑒別器就無(wú)法幫助生成器發(fā)揮其全部潛能,就如同新手教練的實(shí)戰(zhàn)經(jīng)驗(yàn)要比經(jīng)驗(yàn)豐富的專(zhuān)家少得多。
要訓(xùn)練高質(zhì)量的GAN,通常需要50,000至100,000個(gè)訓(xùn)練圖像。但在很多情況下,研究人員根本沒(méi)有成千上萬(wàn)的樣本圖像可以利用。
僅使用幾千張圖像進(jìn)行訓(xùn)練,許多GAN就會(huì)難以運(yùn)行,無(wú)法產(chǎn)生逼真的結(jié)果。當(dāng)鑒別器僅能記住訓(xùn)練圖像而無(wú)法向生成器提供有用的反饋時(shí),就會(huì)發(fā)生“過(guò)擬合”的問(wèn)題。
在圖像分類(lèi)任務(wù)中,研究人員會(huì)通過(guò)數(shù)據(jù)增強(qiáng)來(lái)解決過(guò)擬合的問(wèn)題。這項(xiàng)技術(shù)使用現(xiàn)有圖像的副本來(lái)擴(kuò)展較小的數(shù)據(jù)集,這些副本經(jīng)過(guò)旋轉(zhuǎn)、裁剪或翻轉(zhuǎn)等過(guò)程而隨機(jī)扭曲,從而迫使模型更加通用化。
但是,此前將增強(qiáng)技術(shù)應(yīng)用于GAN訓(xùn)練圖像時(shí),生成器學(xué)會(huì)了模仿那些失真的圖像,而非創(chuàng)建可信的合成圖像。
GAN的實(shí)戰(zhàn)演練
NVIDIA Research的ADA技術(shù)能夠自適應(yīng)地應(yīng)用數(shù)據(jù)增強(qiáng),這意味著在訓(xùn)練過(guò)程中的不同點(diǎn)上,可以調(diào)整數(shù)據(jù)增強(qiáng)的數(shù)量,以避免過(guò)擬合。這使諸如StyleGAN2這樣的模型可以使用更少的訓(xùn)練圖像,獲得同樣驚人的效果。
結(jié)果,研究人員可以將GAN應(yīng)用于從前看來(lái)不切實(shí)際的應(yīng)用中。在這些應(yīng)用中,示例往往太少且難以獲得,或收集大型數(shù)據(jù)集的工作太耗費(fèi)時(shí)間。
藝術(shù)家使用了不同版本的StyleGAN來(lái)創(chuàng)作令人驚嘆的展品,并根據(jù)傳奇插畫(huà)家Osamu Tezuka的風(fēng)格創(chuàng)作了新的漫畫(huà)。Adobe甚至采用它來(lái)為Photoshop的全新AI工具“神經(jīng)過(guò)濾器(Neural Filters)”提供支持。
由于入門(mén)所需的訓(xùn)練數(shù)據(jù)較少,因此采用ADA的StyleGAN2可應(yīng)用于珍稀藝術(shù)作品,例如總部位于巴黎的AI藝術(shù)團(tuán)體Obvious在非洲科塔面具上的作品。
另一潛在應(yīng)用是醫(yī)療健康領(lǐng)域,因?yàn)榇蠖鄶?shù)檢查結(jié)果都是正常的,因此罕見(jiàn)疾病的醫(yī)學(xué)圖像可能非常稀少。要想積累大量有用的異常病理切片數(shù)據(jù)集,需要醫(yī)學(xué)專(zhuān)家花費(fèi)大量時(shí)間,辛苦地進(jìn)行標(biāo)記。
通過(guò)GAN,采用ADA創(chuàng)建的合成圖像可以填補(bǔ)這一空白,為另一種AI模型生成訓(xùn)練數(shù)據(jù),從而幫助病理學(xué)家或放射學(xué)家發(fā)現(xiàn)病理圖像或MRI研究中的罕見(jiàn)病情。此外,借助AI生成的數(shù)據(jù),就不存在患者數(shù)據(jù)或隱私方面的擔(dān)憂,更便于醫(yī)療機(jī)構(gòu)共享數(shù)據(jù)集。
NVIDIA Research在NeurIPS上大放異彩
NVIDIA Research成員團(tuán)隊(duì)由全球200多名科學(xué)家組成,致力于AI、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車(chē)、機(jī)器人技術(shù)和圖形學(xué)等領(lǐng)域。在12月6日至12日舉行的年度最大的AI研究會(huì)議NeurIPS上,將重點(diǎn)介紹NVIDIA研究人員撰寫(xiě)的超過(guò)24篇論文。
點(diǎn)擊鏈接,查看NVIDIA 在NeurIPS大會(huì)上發(fā)表的全部論文。
文章主配圖是由StyleGAN2借助ADA生成的,其僅僅基于大都會(huì)藝術(shù)博物館收藏品API的不到1,500張圖像的數(shù)據(jù)集進(jìn)行了訓(xùn)練。