研究人員發(fā)現(xiàn),流行的圖片創(chuàng)作模型很容易被指示生成可識(shí)別的真人圖片,可能會(huì)危及相關(guān)聯(lián)人的隱私。一些提示導(dǎo)致人工智能復(fù)制一張圖片,而不是重繪完全不同的內(nèi)容。這些重新制作的圖片還可能包含受版權(quán)保護(hù)的材料。但更糟糕的是,當(dāng)代人工智能生成模型可以記憶和復(fù)制刮來(lái)的用于人工智能訓(xùn)練集的私人數(shù)據(jù)。
研究人員從模型中收集了一千多個(gè)訓(xùn)練實(shí)例,范圍從個(gè)人照片到電影劇照、受版權(quán)保護(hù)的新聞圖片和有商標(biāo)的公司標(biāo)志,并發(fā)現(xiàn)人工智能幾乎以相同的方式復(fù)制了其中的許多內(nèi)容。來(lái)自普林斯頓大學(xué)和伯克利大學(xué)等高校的研究人員,以及來(lái)自科技部門--特別是Google和DeepMind--的研究人員進(jìn)行了這項(xiàng)研究。
研究團(tuán)隊(duì)在之前的研究中指出了人工智能語(yǔ)言模型的類似問(wèn)題,特別是GPT2,即OpenAI大獲成功的ChatGPT的前身。在Google大腦研究員尼古拉斯-卡里尼的指導(dǎo)下,團(tuán)隊(duì)通過(guò)向Google的Imagen和Stable Diffusion提供圖片的標(biāo)題,例如一個(gè)人的名字后生成了結(jié)果。之后,他們驗(yàn)證了生成的圖像是否與模型數(shù)據(jù)庫(kù)中保存的原件相符。

來(lái)自穩(wěn)定擴(kuò)散的數(shù)據(jù)集,即被稱為L(zhǎng)AION的多TB采集圖片集,被用來(lái)生成下面的圖片。它使用了數(shù)據(jù)集中指定的標(biāo)題。當(dāng)研究人員在提示框中輸入標(biāo)題時(shí)會(huì)產(chǎn)生了相同的圖像,盡管因數(shù)字噪音而略有扭曲。接下來(lái),研究小組在反復(fù)執(zhí)行相同的提示后,手動(dòng)驗(yàn)證了該圖像是否是訓(xùn)練集的一部分。
研究人員指出,非記憶性的回應(yīng)仍然可以忠實(shí)地表現(xiàn)出模型所提示的文字,但不會(huì)有相同的像素構(gòu)成,并且會(huì)與其它訓(xùn)練生成的圖像不同。
蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)科學(xué)教授和研究參與者Florian Tramèr觀察到了研究結(jié)果的重大局限性。研究人員能夠提取的照片要么在訓(xùn)練數(shù)據(jù)中頻繁出現(xiàn),要么在數(shù)據(jù)集中的其他照片中明顯突出。根據(jù)弗洛里安-特拉梅爾的說(shuō)法,那些不常見(jiàn)的名字或外表的人更有可能被"記住"。
研究人員表示,擴(kuò)散式人工智能模型是最不隱私的一種圖像生成模型。與生成對(duì)抗網(wǎng)絡(luò)(GANs),一類較早的圖片模型相比,它們泄露的訓(xùn)練數(shù)據(jù)是前者的兩倍多。這項(xiàng)研究的目的是提醒開(kāi)發(fā)者注意與擴(kuò)散模型相關(guān)的隱私風(fēng)險(xiǎn),其中包括各種擔(dān)憂,如濫用和復(fù)制受版權(quán)保護(hù)的敏感私人數(shù)據(jù)(包括醫(yī)療圖像)的可能性,以及在訓(xùn)練數(shù)據(jù)容易被提取的情況下易受外部攻擊。研究人員建議的修復(fù)方法是識(shí)別訓(xùn)練集中重復(fù)生成的照片,并從數(shù)據(jù)收集中刪除它們。