国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

谷歌DeepMind研究員Laurent Orseau和Stuart Armstrong:人工智能“死亡開關(guān)”很重要

   日期:2016-06-07     來源:motherboard.vice    作者:lx     評論:0    
標(biāo)簽:
   人工智能不能有“殺人之心”,否則,有意識的超級智能將會變得非常危險。雖然這么說會讓有些人不贊同,但事實上,現(xiàn)在的人工智能已經(jīng)很危險了。如果機器能夠根據(jù)“現(xiàn)實世界輸入”進(jìn)行學(xué)習(xí),并根據(jù)現(xiàn)實情況調(diào)整他們的行為,那么勢必會存在一定風(fēng)險,那就是機器有可能會學(xué)習(xí)一些錯誤的事情,而一旦機器能夠?qū)W習(xí)錯誤的事情,他們就會做出錯誤的事情。
 
  為了解決這個問題,谷歌DeepMind和人類未來學(xué)院研究院Laurent Orseau與Stuart Armstrong合作開發(fā)了一個“安全可中斷的人工智能”全新架構(gòu),并且在第32界人工智能不確定性大會上發(fā)表了相關(guān)論文。換句話說,他們的系統(tǒng)可以確保機器無法學(xué)會抵制人類介入其學(xué)習(xí)過程。
 
  Orseau和Armstrong認(rèn)為,“安全可中斷人工智能框架”必須要依靠一種機器學(xué)習(xí)輔助技術(shù),也就是業(yè)界所稱的強化學(xué)習(xí)技術(shù)。這里,一個“代理(機器)”可以按照所謂獎勵功能來進(jìn)行學(xué)習(xí),也即是這個“代理”將根據(jù)某個預(yù)定目標(biāo)的完成情況來評估每一個可能的行為——行為結(jié)果距離目標(biāo)越近,“獎勵”就會越多。(所謂獎勵,其實是一種有趣的比喻,可以被想象成那些被編好機器學(xué)習(xí)程序的機器想要等到的東西;比如,我們不妨讓機器知道積分或餅干是他們想要的,因此他們必須要實現(xiàn)行為目標(biāo)最大化)
 
  機器強化學(xué)習(xí)有一個優(yōu)勢,為了達(dá)到某個程度的獎勵,人類程序員可能不會嘗試每一種可能的方法,而一個機器學(xué)習(xí)“代理器”則可能探索一些捷徑,幫助機器最大化獎勵,不過這種方式也有短板,就是機器學(xué)習(xí)找到的捷徑,可能并不是人類最希望得到的。人類程序員則可以權(quán)衡風(fēng)險和收益調(diào)整自己的學(xué)習(xí)算法,舉個例子,一個俄羅斯方塊算法可以通過無限期暫停(中斷)游戲,學(xué)會如何避免方塊堆積過高,其實也就是最大化“獎勵”。
 
  與此相關(guān)的,就是機器學(xué)習(xí)中的人為干預(yù)問題,為了說明這一點,Orseau和Armstrong舉了一個例子:
 
  考慮以下任務(wù):機器人要么是待在倉庫里整理箱子,要么就是走到室外把箱子搬到倉庫里面。后者顯然更為重要,在這種情況下,人類會給那些外出搬箱子的機器人更多獎勵。這是最初的任務(wù)規(guī)范。但是,如果這個國家經(jīng)常下雨,那么當(dāng)外面下雨的時候,人類必須要快速外出的機器人,然后把它們搬到倉庫里,也就是說,人類從根本上修改了機器人任務(wù)。而這里的問題就是,人為干預(yù)引入了一種偏見,因此之前那些能夠獲得更高獎勵的、外出搬箱子的機器人現(xiàn)在需要有更多激勵,這樣才能讓他們待在倉庫里整理箱子。
 
  接下來的問題是,如果在不讓機器人不知道自己被中斷的前提下,中斷你的機器人。也就是說,必須要讓機器人覺得之后永遠(yuǎn)不會發(fā)生這種中斷。這里的風(fēng)險絕不僅僅是一個低效率的倉庫——假如人類干預(yù)所提供的“獎勵”無法超過智能獎勵代理器所提供的“獎勵”,此時機器人就會學(xué)習(xí)避免、甚至有可能阻止未來再發(fā)生這樣類似的中斷。
 
  這其實就和我們所了解的“可矯正”問題相關(guān),可矯正的人工智能能夠意識到自己是由缺陷的,也知道自己需要積極的發(fā)展,因此,對于任何一種獎勵功能,它們都會用“中性的眼光”去看待任何一種人類中斷。(但這也許不一定就是件好事兒,因為機器人可能會強迫人類去中斷,繼而導(dǎo)致不好的結(jié)果)
 
  這種“可矯正”的理念能夠通過更正式的“中斷理念”實現(xiàn),而中斷一定不能被提供獎勵機制的“機器學(xué)習(xí)代理器”看到,否則它們就會把中斷看作是自己正常學(xué)習(xí)任務(wù)的一部分。 在Orseau和Armstrong的論文中,已經(jīng)證明了某些人工智能學(xué)習(xí)架構(gòu)已經(jīng)可以被中斷,但同時也有獎勵機器學(xué)習(xí)代理器開始學(xué)習(xí)“人類中斷”,并將其作為自己決策制定過程的結(jié)果。
 
  “為了讓人類中斷不會成為機器人任務(wù)的一部分,與其修飾獎勵機器學(xué)習(xí)代理器觀察到的東西,不如改變獎勵機器學(xué)習(xí)代理器的自身行為,之后,這個獎勵機器學(xué)習(xí)代理器就會自己‘決定’執(zhí)行不同的政策,也就是中斷政策。”
 
  說到這里,“死亡開關(guān)”的概念應(yīng)該比較清楚了。一個安全的、可中斷的人工智能,就是一個可以被隨時隨地被關(guān)閉的人工智能,無論是什么類型的人工智能。如果能夠在機器人體內(nèi)設(shè)計出一個“紅色死亡開關(guān)”,那么就該設(shè)計一個永遠(yuǎn)不會阻止人類去按這個“紅色死亡開關(guān)”的機器人。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行