
自從去年AlphaGo戰(zhàn)勝李世石之后,“人機對戰(zhàn)”便又成了一個熱點詞匯;兩方之間持續(xù)到現(xiàn)在的比賽,幾乎沒有一個能讓人類一方笑逐顏開的結果。
但在不久前由永信至誠主辦、360企業(yè)安全集團戰(zhàn)略支持的人與機器網絡攻防競賽(Robo Hacking Game)中,人類戰(zhàn)隊卻在更高維度的比賽中戰(zhàn)勝了機器。
鈦媒體記者在比賽現(xiàn)場看到,在8支機器人、4支人類戰(zhàn)隊組成的混戰(zhàn)中,最終人類戰(zhàn)隊 Mirage 奪得第一,而機器人戰(zhàn)隊 Tinker 取得了第二名的成績,后面的名次人類黑客略占先。
繼圍棋、德?lián)渲?,我們親眼觀戰(zhàn)了一場“機器人黑客”與人類黑客的交鋒
據(jù)360安全專家李康教授介紹,這次網絡攻防大賽的靈感來源于Cyber Grand Challenge(CGC),它是第一場在CTF競賽中沒有人類參與完全由計算機完成的CTF競賽;本次比賽也沿用了經典的 “CTF” 模式,即“挖漏洞、坑對手”。李康教授告訴鈦媒體:
參賽團隊之間通過進行攻防對抗、程序分析等形式,率先從主辦方給出的比賽環(huán)境中得到一串具有一定格式的字符串或其他內容,并將其提交給主辦方,從而奪得分數(shù)。
在CGC總決賽和DEFCON CTF中,計算機程序已經證明了其可以做出較為突出的發(fā)現(xiàn)漏洞和進行修補的能力,但是在漏洞發(fā)掘和利用程序生成能力方面,計算機程序依然無法與人類的安全專家相抗衡。
而在本次比賽與人類黑客的正面對抗中,機器人黑客的表現(xiàn)也有著可圈可點之處。
“如果我們有10萬的安全人員,真正做漏洞挖掘不到1萬”,在永信至誠 CTO 張凱看來,“機器人已經能夠完成攻防人員全部的工作,拿到賽題,解除利用程序,發(fā)布出去,再搜集相應流量等等”。李康教授也認為,現(xiàn)在的很多程序已經可以替代初級安全人員。
而且本次比賽有很多的“不足”,也使得勝利的天平偏向了人類戰(zhàn)隊的一方
首先,機器戰(zhàn)隊最有優(yōu)勢的技能——計算能力,在這一次比賽中“打了很大折扣”。在 CGC 的比賽中,黑客隊伍使用的價值50萬美金的超級計算機,而這次比賽使用的服務器,價格只有兩萬人民幣。計算的數(shù)量等級上,并沒有一個很好的匹配。
其次,比賽的賽制決定了,對人類戰(zhàn)隊的人數(shù)沒有限制,而且黑客團隊有著特殊的地方——他們大多需要自動化工具輔助自己。也就是說,機器人戰(zhàn)隊是純粹的機器人,人類戰(zhàn)隊則是人與機器的結合。而本次比賽,是直接開放接口,人類戰(zhàn)隊則是直接提交數(shù)據(jù)給平臺,未知的X因素還是不少。
盡管在上述比賽環(huán)境下,除了贏得第二的排名之外,機器人戰(zhàn)隊也還是有著非常亮眼的表現(xiàn)。
張凱在復盤比賽時表示,“每道賽題都有機器人得分了,只是拿到題目以后,后面的一些手段、戰(zhàn)術、高低分配合等等方面跟人類有一定差距。”
機器的聰明之處還體現(xiàn)在,“很多人解不出來的(漏洞),機器人能解出來”。李康說,“人對于特別復雜的程序還是能很快把問題縮減,能夠領先的。如果說處理的速度、處理量來講比機器慢很多,不一定是誰蹍壓誰”。
事實上,李康的判斷涉及到一個“人機對戰(zhàn)”中很普遍的概念:策略
AlphaGo與李世石的世紀大戰(zhàn),讓“策略”這個詞具有了很多計算領域的延展。因為不管是圍棋高達10^171種的可能性,還是德州撲克的10^160種可能性,都遠超當今計算機的運算能力。
以AlphaGo為例,它采取的策略是將圍棋巨大無比的搜索空間壓縮到可控的范圍之內。AlphaGo有著兩種不同的神經網絡,“策略網絡”與“價值網絡”:前者的作用是預測下一步,并用來將搜索范圍縮小至最有可能硬起的那些步驟;后者則是用來減少搜索樹的深度,每走一步估算一次獲勝方,而不是搜索所有結束棋局的途徑。
而具象到網絡安全領域,策略不僅有了基礎條件上的不同,其本身的區(qū)域限定也變得模糊起來。
因為與下圍棋不一樣,網絡安全是一個開放的環(huán)境,“時時變化”也是策略的本身。
比如說,“人類戰(zhàn)隊解不出來,但是機器解出來的問題”,機器在第一時間解出來了,卻并沒有讓自己最終占據(jù)優(yōu)勢,因為在策略的選擇上,人類有著巨大的優(yōu)勢,通過重放發(fā)現(xiàn)機器解答的手段,然后在題目進程上進行優(yōu)化,人類戰(zhàn)隊便能領先機器戰(zhàn)隊。
而且在比賽中,人類戰(zhàn)隊會總結賽題的特點,尋找針對的方法刷分數(shù)。這種根據(jù)自身經驗應對不同環(huán)境的策略,也是本次機器戰(zhàn)隊所缺乏的。
不過在張凱和李康看來,機器人在安全領域的未來應用是“光明的”,因為策略選擇和計算量的調整也是機器學習的一個范疇。
如果把人機黑客比賽設定成一個棋盤,張凱認為,這個棋盤的邊界便是明確的規(guī)則:我們的題目在什么系統(tǒng)上什么樣的賽題,有多少種漏洞,機器人要運行在什么樣的情況下。
AlphaGo的基礎是大數(shù)據(jù)的學習,通過研究千千萬萬的棋譜,通過與人類高手的過招,通過自我反饋的進步,它才有了現(xiàn)在的功力。
不過,對于人工智能研究者來說,現(xiàn)在的漏洞挖掘難,就難在很多方式方法沒有辦法使用。李康向鈦媒體介紹道:
漏洞挖掘比較難用的原因,是一個漏洞和另外一個漏洞的相似度,正常輸入跟異常輸入沒有太多相似的特征,所以這個地方還有待研究,目前直接把深度學習拉過來不太好使。
計算機做攻防,則有著巨大的意義
黑客領域的人機對抗比賽并非是搏噱頭,除去人類黑客團隊需要自動化工具做助手之外,計算機在網絡安全領域的未來應用,前景是相當可觀的。
李康對鈦媒體介紹,首先是安全需要很多人來做維護、防御、做攻擊,現(xiàn)在這方面有著很大的缺口;其次計算機有著反應快速、擴展程度強的特點,一旦有一種新的防御黑客方法產生,計算機可以迅速把這種方法鋪開。
人工智能在執(zhí)行層面上,已經是大大的超越了人類的能力,而且不僅是“幾乎不會犯錯”,更是可以“迅速復制與傳播”,相對于人類的言傳身教不知快速上幾何。
即使是“策略”這樣的問題上,人工智能也有了不小的進步,比如上文提到的德州撲克,除了打牌的規(guī)則與套路之外,更多講求的不是謀略么——圍棋的基本信息都是對稱的,而德州撲克有著太多的隱藏信息,在處理不完整、非對稱信息的事情上,人工智能也算是邁出了“第一步”。
而且人工智能是在加速成長的:60年前的人們?yōu)槿斯ぶ悄茏龆x,到了世紀末期深藍才戰(zhàn)勝了卡斯帕羅夫,過了十幾年AlphaGo便可以在圍棋領域戰(zhàn)勝人類頂尖高手,而處理更具靈活性的德州撲克,則是過了一年的時間。
如今的機器人黑客,能夠做的可能比較底層、比較簡單,但是未來能實現(xiàn)在網絡安全領域的應用,那么“10萬的安全人員,真正做漏洞挖掘不到1萬”也就不是多大的問題了。