編者按:2 月 3 日,在 ICLR 2018 大會(huì)期間,谷歌大腦負(fù)責(zé)人 Jeff Dean 日前在推特上轉(zhuǎn)了一篇名字為 Anish Athalye 的推文,推文內(nèi)容如下:防御對(duì)抗樣本仍然是一個(gè)尚未解決的問題,三天前公布的 ICLR 接收論文里,八篇關(guān)于防御論文里已經(jīng)有七篇被我們攻破。這一言論立刻引起了整個(gè)機(jī)器學(xué)習(xí)學(xué)術(shù)圈的關(guān)注。Wired 近日發(fā)布了一篇關(guān)于這一事件后續(xù)的討論文章,雷鋒網(wǎng)進(jìn)行了編譯。

在機(jī)器學(xué)習(xí)強(qiáng)大力量的推動(dòng)下,科技公司正在急于將很多事物與人工智能結(jié)合在一起。但是,激起這種趨勢的深度神經(jīng)網(wǎng)絡(luò)卻有一個(gè)很難解決的弱點(diǎn):對(duì)圖像、文本或音頻進(jìn)行微小的改變就可以欺騙這些系統(tǒng),感知到那些并不存在的事物。
對(duì)依賴于機(jī)器學(xué)習(xí)的產(chǎn)品而言,這可能是一個(gè)大問題,特別是對(duì)諸如自動(dòng)駕駛汽車這種視覺系統(tǒng),研究者們正在努力制定針對(duì)此類攻擊的防御措施,但很有挑戰(zhàn)性。
今年 1 月,一場頂級(jí)機(jī)器學(xué)習(xí)大會(huì)公布了它在 4 月選出的 11 篇新論文,它們提出了應(yīng)對(duì)或檢測這種對(duì)抗性攻擊的方法。但僅三天后,麻省理工學(xué)院學(xué)生 Anish Athalye 就聲稱已經(jīng)“破解”了其中 7 篇新論文,其中包括 Google,亞馬遜和斯坦福等機(jī)構(gòu)。“有創(chuàng)造性思維的攻擊者仍然可以規(guī)避這些防御。”Athalye 說。他與伯克利分校的研究生 David Wagner 和教授 Nicholas Carlini 一起參與了這個(gè)項(xiàng)目的研究。
這個(gè)項(xiàng)目導(dǎo)致一些學(xué)者對(duì)這三人組的研究細(xì)節(jié)進(jìn)行了反復(fù)討論。但關(guān)于項(xiàng)目中提到的一點(diǎn)他們幾乎沒有爭議:目前人們尚不清楚如何保護(hù)基于深度神經(jīng)網(wǎng)絡(luò)的消費(fèi)品和自動(dòng)駕駛產(chǎn)品以免讓“幻覺”給破壞了。“所有這些系統(tǒng)都很脆弱,”意大利卡利亞里大學(xué)的助理教授 Battista Biggio 已經(jīng)研究機(jī)器學(xué)習(xí)的安全問題有十年之久,“機(jī)器學(xué)習(xí)社區(qū)缺乏評(píng)估安全性的方法論。”

人類將很容易識(shí)別 Athalye 創(chuàng)建的上面這張圖,它里面有兩名滑雪者,而谷歌的 Cloud Vision 服務(wù)認(rèn)為它有 91% 的可能性是一只狗。其他的還有如何讓停止標(biāo)志看不見,或者對(duì)人類聽起來沒問題的語音卻讓機(jī)器轉(zhuǎn)錄為“好的谷歌,瀏覽到惡意網(wǎng)站.com”。
到目前為止,此類攻擊還沒有在實(shí)驗(yàn)室以外的地方得到證實(shí)。但伯克利的博士后研究員 Bo Li 說,現(xiàn)在他們?nèi)匀恍枰J(rèn)真對(duì)待。自動(dòng)駕駛汽車的視覺系統(tǒng),能夠購物的語音助理以及過濾網(wǎng)上不雅內(nèi)容的機(jī)器學(xué)習(xí)系統(tǒng)都需要值得信賴。 “這是非常危險(xiǎn)的。”Li 說,她去年的研究——在停車標(biāo)志上貼上貼紙——表明可以使機(jī)器學(xué)習(xí)軟件識(shí)別不到它們。
Athalye 及其合作者共同撰寫的論文中就有 Li 作為共同作者。她和伯克利的其他人介紹了一種分析對(duì)抗攻擊的方法,并表明它可以用來檢測這些攻擊。 Li 對(duì) Athalye 的關(guān)于防護(hù)還有諸多漏洞的項(xiàng)目表示,這種反饋有助于研究人員取得進(jìn)步。 “他們的攻擊表明我們需要考慮一些問題”她說。
在 Athalye 所分析論文在內(nèi)的斯坦福大學(xué)的研究者 Yang Song 拒絕對(duì)此發(fā)表評(píng)論,他的論文正在接受另一個(gè)重要會(huì)議的審查??▋?nèi)基梅隆大學(xué)教授兼包括亞馬遜研究員在內(nèi)的另一篇論文共同作者 Zachary Lipton 表示,他沒有仔細(xì)檢查分析結(jié)果,但認(rèn)為所有現(xiàn)有的防御措施都可以避開是合理的。Google 拒絕對(duì)自己的論文進(jìn)行評(píng)論,該公司的一位發(fā)言人強(qiáng)調(diào) Google 致力于對(duì)抗攻擊的研究,并表示計(jì)劃更新公司的 Cloud Vision 服務(wù),以抵御這些攻擊。
為了對(duì)攻擊建立更強(qiáng)大的防御機(jī)制,機(jī)器學(xué)習(xí)研究人員可能要更加苛刻。 Athalye 和 Biggio 表示,該領(lǐng)域應(yīng)該采用安全研究的做法,他們認(rèn)為這種做法能更嚴(yán)格的測試新防御技術(shù)。 “在機(jī)器學(xué)習(xí)領(lǐng)域,人們傾向于相互信任,”Biggio 說,“而安全研究的心態(tài)正好相反,你必須始終懷疑可能會(huì)發(fā)生不好的事情發(fā)生。”
上個(gè)月,AI 和國家安全研究人員的一份重要報(bào)告也提出了類似的建議,它建議那些從事機(jī)器學(xué)習(xí)的人應(yīng)更多地考慮他們正在創(chuàng)造的技術(shù)會(huì)被濫用或利用。
對(duì)于某些 AI 系統(tǒng)來說,防范對(duì)抗性攻擊可能比其他方面要做的要更為容易。Biggio 說,受過訓(xùn)練的檢測惡意軟件的學(xué)習(xí)系統(tǒng)應(yīng)該更容易實(shí)現(xiàn)強(qiáng)魯棒性,因?yàn)閻阂廛浖枪δ苄缘?,限制了它的多樣性?Biggio 稱,保護(hù)計(jì)算機(jī)視覺系統(tǒng)要困難得多,因?yàn)樽匀唤缱兓喽耍瑘D像中包含了很多像素。
解決這個(gè)問題(這可能會(huì)挑戰(zhàn)自動(dòng)駕駛汽車的設(shè)計(jì)者)可能需要對(duì)機(jī)器學(xué)習(xí)技術(shù)進(jìn)行更徹底的反思。 “我想說的根本問題是,深度神經(jīng)網(wǎng)絡(luò)與人腦大不相同。”Li 說。
人類并不對(duì)來自感官的欺騙完全免疫。我們可能被看到的錯(cuò)覺所愚弄,最近來自 Google 的一篇論文創(chuàng)建了奇怪的圖像,這欺騙了軟件和人類,讓他們在不到 1/10 秒內(nèi)看見圖像時(shí)將貓誤認(rèn)為是狗。但是,在解釋照片時(shí),我們不僅要看像素模式,還要考慮圖像不同組成部分之間的關(guān)系,比如人臉特征,Li 說。
Google 最杰出的機(jī)器學(xué)習(xí)研究員 Geoff Hinton 正試圖給機(jī)器提供這種能力,他認(rèn)為這可以讓軟件學(xué)會(huì)從少數(shù)幾張圖片而不是幾千張圖片中識(shí)別物體。Li 認(rèn)為,具有更人性化視角的機(jī)器也不太容易受到“幻覺”影響。她和伯克利的其他研究者已經(jīng)開始與神經(jīng)科學(xué)家和生物學(xué)家展開合作,嘗試從自然界獲得啟發(fā)。