近日,國際期刊《自然》封面文章報(bào)道了人工智能機(jī)器人以5:0完勝歐洲冠軍的消息。這次與谷歌研究者開發(fā)的名為“阿爾法圍棋”人工智能機(jī)器人對弈的樊麾是法國國家圍棋隊(duì)總教練,已經(jīng)連續(xù)三年贏得歐洲圍棋冠軍稱號(hào)。
研究棋類直觀的思路是列舉所有能贏的方案,這些方案會(huì)形成一個(gè)樹形地圖。人工智能機(jī)器人只要根據(jù)這個(gè)地圖下棋就能永遠(yuǎn)勝利。然而,圍棋一盤大約要下150步,每步有250種可選的方法。要是人工智能機(jī)器人采用這種方式,需要計(jì)算大致10360種情況。
因?yàn)榱信e所有情況的方法不可行,所以研究者們選擇了模仿人類大師的下棋方式。這就是“深度學(xué)習(xí)”,這是目前人工智能領(lǐng)域最熱門的學(xué)科,能完成筆跡識(shí)別、面部識(shí)別、駕駛自動(dòng)汽車、自然語言處理等非常復(fù)雜的任務(wù)。
“阿爾法圍棋”的核心是兩種不同的深度神經(jīng)網(wǎng)絡(luò)——“策略網(wǎng)絡(luò)”和“值網(wǎng)絡(luò)”,它們的任務(wù)在于合作“挑選”出那些比較有前途的棋步,拋棄明顯的差棋,從而將計(jì)算量控制在計(jì)算機(jī)可以完成的范圍內(nèi),本質(zhì)上和人類棋手的方法一樣。
“值網(wǎng)絡(luò)”負(fù)責(zé)減少搜索的深度——人工智能機(jī)器人會(huì)一邊推算一邊判斷局面,局面明顯劣勢的時(shí)候,就直接拋棄某些路線;而“策略網(wǎng)絡(luò)”負(fù)責(zé)減少搜索的寬度——面對眼前的一盤棋,有些棋步是明顯不該走的,比如不該隨便送子給別人吃。
研究者們用許多專業(yè)棋局訓(xùn)練人工智能機(jī)器人,這種方法稱為監(jiān)督學(xué)習(xí)。然后讓人工智能機(jī)器人和自己對弈,這種方法稱為強(qiáng)化學(xué)習(xí)。每次對弈,都能讓人工智能機(jī)器人棋力精進(jìn)。所以“阿爾法圍棋”只要經(jīng)過了足夠的訓(xùn)練,就能擊敗所有的人類選手。
讓人欣喜的是,人工智能深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù)可以用于更廣泛的領(lǐng)域。比如應(yīng)用于精準(zhǔn)治療,人類可以訓(xùn)練機(jī)器人判斷哪些治療方案對某個(gè)特定的人有效。人工智能機(jī)器人會(huì)進(jìn)入人類的生活,其意義或許不亞于人類第一次接觸外星生命。