在預測未來這一點上,計算機正變得越來越擅長。在許多方面里,計算機甚至已經(jīng)超過人類了。例如,亞馬遜能通過計算知道你可能會買什么,視頻網(wǎng)站Netflix知道你接下去會想看什么視頻,氣象學家能通過數(shù)據(jù)分析提前知道十天后的天氣。

《心理測量者》動畫

伯克的研究:年齡和犯罪的相關性

伯克的研究:預測犯罪的正確率結果
現(xiàn)在,有一群科學家正在研究通過機器學習,來計算出誰將有可能在未來進行犯罪。聽上去是不是有點像科幻故事的情節(jié)。科幻動漫迷們一定記得《心理測量者》這部漫畫。

《心理測量者》動畫
《心理測量者》描述的是一個人類內(nèi)心活動均能夠數(shù)值化的科技時代,同樣能被量化的,還有每個人的“犯罪系數(shù)”。人類所有的感情、欲望、社會病態(tài)心理傾向等全部被監(jiān)控攝像頭記錄并管理,每個心理狀態(tài)和個性傾向所衡量的值,通稱PSYCHO-PASS,也就是片名。它被用來判定人們的思想狀態(tài)、個人精神本身。通過計算這些數(shù)值,系統(tǒng)可以自主斷定一個人最理想的工作,感情,心理壓力,甚至犯罪意圖。

人們需要不斷地保證自己的指數(shù)在正常范圍,否則會被系統(tǒng)認為是潛在犯,將會被“矯正”。動漫故事里的情節(jié)對于我們來說,或許不再難以實現(xiàn)。賓夕法尼亞大學(University of Pennsylvania)統(tǒng)計學教授理查德·伯克(Richard Berk)和他的研究團隊就在開發(fā)一種新的算法,希望能預測哪些人會在未來犯罪的風險高。
在此之前,伯克的算法已經(jīng)能幫助監(jiān)獄確定該把哪些犯人關到高度警戒區(qū)。假釋部門用他的工具判斷該對哪類假釋人員采取更嚴格的監(jiān)視手段,警官則用來預測曾因家庭暴力被捕的人是否會再次犯罪。他還編寫過一個算法,可以告訴美國職業(yè)安全與衛(wèi)生管理局(Occupational Safety and Health Administration),哪些工作場所可能違反安全方面的規(guī)定。
機器學習能提前預測犯罪發(fā)生
先來看看伯克的算法是如何做到預測犯罪的。參照之前谷歌旗下人工智能系統(tǒng)“阿爾法狗”。在完成打敗韓國棋手李世石前,谷歌從網(wǎng)絡上喂給“阿爾法狗”上萬的棋局數(shù)據(jù),讓其學習如何以最優(yōu)的策略進行下棋,同時還讓“阿爾法狗”自己進行訓練,提升自己。
伯克的算法與“阿爾法狗”類似。在今年2月份,伯克和賓夕法尼亞大學的心理學家蘇珊·索倫森(Susan Sorenson)共同將研究發(fā)表在了《實證法律研究》的雜志上。他們收集了從2009年到2013年所有發(fā)生家庭暴力的案例,約有10萬件。接著,他們使用了機器學習的方法,將這些數(shù)據(jù)喂給電腦程序,包括年齡、性別、郵編、第一次犯罪的年齡以及一長串先前可能相關的犯罪記錄。比如酒后駕車、虐待動物、涉槍犯罪等。但伯克并沒有將種族這個信息作為輸入信息選項喂給計算機。

伯克的研究:年齡和犯罪的相關性
三分之二的案件信息,由研究人員輸入來“訓練”系統(tǒng),并讓其推測結果,這些人是否會第二次進行家庭暴力犯罪。另外三分之一的數(shù)據(jù),他們則用來測試系統(tǒng)。這部分案件,計算只能知道和提審法官一樣多的信息,然后得出結論,看誰會因為二次犯罪而被捕。
通過機器學習,警方能夠很容易地鎖定哪些人重復犯罪,需要監(jiān)禁哪些二次犯罪風險較高的人。伯克在文章里說,目前,由于涉嫌家庭暴力的罪犯有一半是被釋放的,這給警察和政府對他們的監(jiān)控帶來了很高的成本。他們的研究挑戰(zhàn)就是在釋放的案例中,推測哪些人二次犯罪的風險較低,從而能抽出更多的警力監(jiān)控那些犯罪風險較高的人。與法官的判斷進行對比的結果是:法官判斷有20%的人會再犯,而計算機給出的比例僅為10%。

伯克的研究:預測犯罪的正確率結果
除了家庭暴力的案件研究外,伯克在假釋和緩刑方面的算法已經(jīng)得到美國費城政府的使用。伯克把費城市所有緩刑和假釋的人都劃分到了高犯罪風險、中犯罪風險和低犯罪風險三個檔次里。對于系統(tǒng)認定為低犯罪風險的人,市政府大幅降低了對他們的監(jiān)視強度。
該算法還運用在馬里蘭州和賓夕法尼亞州全州范圍內(nèi)的假釋體系里。據(jù)彭博社拿到的數(shù)據(jù)分析,在2011年和2014年之間,大約有15%的假釋申請人基于風險評分得到了不同的假釋裁決。和以往的假釋人員相比,在此期間獲假釋的人員被再次逮捕的情況大大減少。所以結論是:伯克的軟件幫助州政府做出了更明智的決策。
政府部分的使用,也給伯克帶來了更多的信心?,F(xiàn)在他正在著手建立一個新的系統(tǒng):伯克想基于環(huán)境以及新生兒父母的過往,在一個人出生的時候就預測出他/她是否會在年滿18歲時犯罪。
機器算法能否代替人類做出判決
在伯克的算法出現(xiàn)前,在司法部分利用計算機來處理案件,在美國已有先例。上個世紀90年代,紐約市就曾用數(shù)據(jù)信息來預測哪些地鐵站是犯罪高發(fā)區(qū)?,F(xiàn)在,隨著算法越來越先進和熟練,甚至已經(jīng)開始有商業(yè)公司與政府展開合作。比如,由密歇根一家名為Northpointe公司開發(fā)的系統(tǒng)Compas。根據(jù)該公司的介紹,在被這款軟件認定為高犯罪風險的人里面,大約有70%的人被再次逮捕。
盡管這些系統(tǒng)給政府機構提高效率,但仍受到了許多批評和質(zhì)疑。首先,數(shù)據(jù)安全問題。機器學習需要基于大量的數(shù)據(jù)進行分析和學習。涉及犯罪的數(shù)據(jù)又是高度隱私的數(shù)據(jù),因此很多人擔心數(shù)據(jù)是否會泄露。伯克在接受采訪時曾表示,自己僅使用對公眾開放的數(shù)據(jù),即已經(jīng)被捕的犯罪數(shù)據(jù)。他訓練的系統(tǒng)不會窺視和使用普通人的數(shù)據(jù)。但他的新算法,在嬰兒出生時就判斷是否會在年滿18歲時犯罪可能會受到限制。因為一個人大部分的個人信息都分散在許多機構,要收集這么多的信息,會非常困難。
其次,準確性問題。這也是算法遇到的最大問題,也是被人詬病最多的問題。因為算法都是基于歷史犯罪統(tǒng)計數(shù)據(jù)來預測未來的犯罪行為,因此有可能會把過去的執(zhí)法模式和認為特定人群(幾乎全部是窮人和非白人)有犯罪傾向的想法畫上等號。伯克也承認了系統(tǒng)會有這樣的風險。還有更為直觀的案例。根據(jù)國外新聞網(wǎng)站ProPublica發(fā)布的調(diào)查報告,他們查看了佛羅里達州一家法院在2013年和2014年使用過的Compas風險評分,發(fā)現(xiàn)黑人被標注為高犯罪風險、但后來并沒有犯罪的可能性幾乎是白人的兩倍,同時,當都被評定為低犯罪風險時,白人再次犯罪的情況則比黑人常見得多。
第三,算法是否應該公開。因為涉及商業(yè)利益,Northpoint并沒有將自己的算法公開,這也導致許多人認為這個系統(tǒng)存在貓膩。伯克公開了自己的算法,同時也攻擊了該公司的做法。最后,過度依賴的問題。現(xiàn)在很多政府機構開始依賴算法提供的結果。這也是伯克擔心的問題之一。他在接受彭博社采訪時說,如果系統(tǒng)沒有經(jīng)過科學的認證和測試,那質(zhì)疑就會隨之而來。盡管機器學習能做出決定,但要從目前情況來看,讓系統(tǒng)代替人類做出決定可能還為時過早。