国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機(jī)器人  機(jī)器人  ABB  機(jī)器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫(kù)卡  碼垛機(jī)器人  機(jī)械手 

怎么使未來(lái)機(jī)器人“乖乖聽(tīng)主人的話”,不“闖禍”?

   日期:2016-08-16     來(lái)源:雷鋒網(wǎng)編譯    作者:lx     評(píng)論:0    
標(biāo)簽:
   摘要
 
  我們圍繞一個(gè)問(wèn)題來(lái)研究機(jī)器學(xué)習(xí)的八個(gè)領(lǐng)域:隨著機(jī)器學(xué)習(xí)系統(tǒng)日益變得智能化與自動(dòng)化,應(yīng)當(dāng)制定什么樣的原則以確保機(jī)器學(xué)習(xí)的行為與操作者的利益相一致?我們聚焦于實(shí)現(xiàn)AI一致性過(guò)程中遇到的兩個(gè)技術(shù)瓶頸:確定一個(gè)合適的目標(biāo)函數(shù)遇到的挑戰(zhàn);即使目標(biāo)函數(shù)未能與設(shè)計(jì)者的意圖達(dá)到完全匹配,設(shè)計(jì)出能夠避免超出預(yù)料范圍的結(jié)果與不可取的行為的AI系統(tǒng)所遇到的挑戰(zhàn)。
 
  在本研究中涉及到的開(kāi)放性問(wèn)題包括:我們?nèi)绾瓮ㄟ^(guò)強(qiáng)化手段訓(xùn)練學(xué)習(xí)者采取行動(dòng),以便他們能夠經(jīng)得起智能化監(jiān)督器的有意義的評(píng)估?應(yīng)當(dāng)選用何種目標(biāo)函數(shù),以便系統(tǒng)“不會(huì)產(chǎn)生過(guò)大的影響”,“也不會(huì)產(chǎn)生太多負(fù)面影響”?在文章中,我們將討論這些問(wèn)題,相關(guān)的研究及對(duì)未來(lái)研究產(chǎn)生的潛在影響,旨在強(qiáng)調(diào)機(jī)器學(xué)習(xí)領(lǐng)域中目前可以駕馭研究的相關(guān)研究話題。

  引言
 
  近年來(lái)人工智能研究領(lǐng)域取得的進(jìn)步再次激發(fā)了人們對(duì)Russell和Norvig(2010)所提出的問(wèn)題興趣,“倘若我們成功了?”如果AI研究者成功地設(shè)計(jì)出能與人類媲美的具有跨領(lǐng)域?qū)W習(xí)與決策能力的機(jī)器,這將會(huì)對(duì)科學(xué),技術(shù),人類的生活產(chǎn)生不可估量的影響。
 
  比如,假設(shè)一個(gè)研究團(tuán)隊(duì)希望運(yùn)用一種高級(jí)的ML系統(tǒng)制定相關(guān)方案,以發(fā)現(xiàn)治療帕金森綜合癥的方法。如果這種高級(jí)ML系統(tǒng)能夠制定計(jì)劃,從而提供計(jì)算資源在治療方法空間內(nèi)開(kāi)展廣泛且有效的搜索,該團(tuán)隊(duì)將對(duì)這一高級(jí)ML系統(tǒng)持肯定支持的態(tài)度。如果該高級(jí)ML系統(tǒng)能夠制定出計(jì)劃,快速擴(kuò)展機(jī)器人實(shí)驗(yàn)室,該種類型的機(jī)器人實(shí)驗(yàn)室能夠?qū)嵤┛焖俣行У膶?shí)驗(yàn),卻會(huì)對(duì)生物圈產(chǎn)生大規(guī)模的負(fù)面影響,該團(tuán)隊(duì)將對(duì)這一系統(tǒng)持反對(duì)的態(tài)度。問(wèn)題在于,我們應(yīng)當(dāng)如何設(shè)計(jì)系統(tǒng)(及選擇目標(biāo)函數(shù)),以使我們的ML系統(tǒng)能夠可靠地實(shí)現(xiàn)第一個(gè)目標(biāo),而非第二個(gè)目標(biāo)?
 
  憑直覺(jué)來(lái)講,倘若我們能夠規(guī)范自己想要表達(dá)的意思---“找到一種治療帕金森綜合癥的方法,而非使用任何極端的手段”,那么Bostrom(2014)在“超智能化”一書(shū)中描述的危險(xiǎn)將會(huì)被減少。但是,為了實(shí)現(xiàn)這一目標(biāo)而為正式確定令人滿意的目標(biāo)函數(shù)作出任何不成熟的嘗試,這種行為通常將生成產(chǎn)生超出人們預(yù)期的行為的函數(shù)。
 
  主要的技術(shù)難題表現(xiàn)在哪些方面?Russell(2014)強(qiáng)調(diào)兩點(diǎn):由于很難對(duì)人類的價(jià)值觀念進(jìn)行清晰界定,如此便難以找到一種與人類價(jià)值體系完美匹配的系統(tǒng)目標(biāo)函數(shù);任何具有實(shí)力的智能系統(tǒng)均偏重于保證自身的存在性與獲取物理和計(jì)算資源---不是為了其自身的利益,而是為了成功地完成既定的任務(wù)。換句話講,至少存在兩種明顯的研究類型:這兩種研究類型能夠提高未來(lái)研究者設(shè)計(jì)出具有一致性AI系統(tǒng)的能力:我們能夠可以做一些研究以便較容易確定目標(biāo)函數(shù);我們可以做一些研究以設(shè)計(jì)出能夠避免大量負(fù)面影響和負(fù)面刺激的AI系統(tǒng),即便有時(shí)目標(biāo)函數(shù)不能與設(shè)計(jì)者的意圖達(dá)到完全的一致。Soares與Fallenstein(2014)稱前面一種方法為“價(jià)值規(guī)范”,后一種為“錯(cuò)誤容忍”。
 
  本研究基于這兩種保持高級(jí)ML系統(tǒng)一致性的方法,探索8個(gè)研究領(lǐng)域,其中一些領(lǐng)域已經(jīng)在更大的ML研究社區(qū)中激起研究興趣。其中,一些研究領(lǐng)域聚焦于價(jià)值規(guī)范,一些聚焦于錯(cuò)誤容忍,還有一些將兩者結(jié)合在一起。由于減少容易犯錯(cuò)的人類程序員可能到來(lái)的錯(cuò)誤風(fēng)險(xiǎn)本身就是人類共享的價(jià)值理念,這兩種研究目標(biāo)之間的界限可能并不是那么清晰。
 
  為了使下文討論的解決問(wèn)題的方案在未來(lái)更為有用,這些方案必須能夠適用于那些比現(xiàn)存的ML系統(tǒng)更為有效的系統(tǒng)。那些主要依靠于系統(tǒng)對(duì)于某個(gè)可發(fā)現(xiàn)的事實(shí)的不敏感,或依靠于系統(tǒng)無(wú)法提出一個(gè)特殊的策略的解決方案,從長(zhǎng)遠(yuǎn)來(lái)看,這些方案都不甚令人滿意。正如Christiano(2015c)所討論的,如果用于保持ML系統(tǒng)與其設(shè)計(jì)者的意圖相一致的技術(shù)不能與智能相匹配,那么在我們可以運(yùn)用ML系統(tǒng)在保守條件下可以取得的成果與可以運(yùn)用該系統(tǒng)有效取得的成果兩者之間將出現(xiàn)差異。
 
  我們將聚焦于安全保障,在目前運(yùn)用ML的典型環(huán)境中,這些安全保障可能會(huì)顯得極端,例如保障形式,“過(guò)一段時(shí)間后,該系統(tǒng)將會(huì)出現(xiàn)零顯著錯(cuò)誤”。這些保障形式在以安全為主的系統(tǒng)中是不可或缺的,因?yàn)橐粋€(gè)小錯(cuò)誤將在現(xiàn)實(shí)世界中產(chǎn)生災(zāi)難性的后果。(這種形式的保障之前是有先例的,例如,Li,Littman,與Walsh(2008)的KWIK學(xué)習(xí)框架中提及到的)。當(dāng)我們?cè)诳紤]小問(wèn)題和簡(jiǎn)單的例子時(shí),我們應(yīng)當(dāng)把這些強(qiáng)有力的保障方式記在心中。
 
  我們考慮的八個(gè)研究主題如下:
 
  1.歸納式歧義識(shí)別:我們?nèi)绾斡?xùn)練ML系統(tǒng)來(lái)檢測(cè)并告知我們通過(guò)訓(xùn)練數(shù)據(jù)并不能夠確定測(cè)試數(shù)據(jù)的分類?
 
  2.強(qiáng)健的仿真方法:我們?nèi)绾卧O(shè)計(jì)并訓(xùn)練ML系統(tǒng)以有效地模仿復(fù)雜且困難任務(wù)中人類的行為活動(dòng)?
 
  3.知情式監(jiān)督:我們?nèi)绾斡?xùn)練一種強(qiáng)化學(xué)習(xí)系統(tǒng),在精確評(píng)估系統(tǒng)性能方面能夠幫助一個(gè)智能監(jiān)督者,如人類?
 
  4.可普及的環(huán)境目標(biāo):我們?nèi)绾蝿?chuàng)建一些系統(tǒng),使這類系統(tǒng)能夠強(qiáng)健地追求環(huán)境狀態(tài)下確定的目標(biāo),而非追求基于感官數(shù)據(jù)確定的目標(biāo)?
 
  5.保守性的概念:如何訓(xùn)練一個(gè)分類器,以提出一些有用的概念來(lái)排除那些極為非典型的例子和邊緣化的案例?
 
  6.影響措施:應(yīng)當(dāng)采取什么樣的措施來(lái)刺激系統(tǒng)以最小的負(fù)面影響來(lái)追求目標(biāo)?
 
  7.溫和型優(yōu)化措施:我們?nèi)绾卧O(shè)計(jì)出不會(huì)過(guò)分追求其目標(biāo)的系統(tǒng),即當(dāng)所追求的目標(biāo)已經(jīng)得到很好的實(shí)現(xiàn)時(shí)便適可而止,而不是為了實(shí)現(xiàn)絕對(duì)優(yōu)化的預(yù)期成果,投入過(guò)多的精力搜索資源?
 
  8.避免工具性激勵(lì)措施:我們應(yīng)當(dāng)如何設(shè)計(jì)并訓(xùn)練系統(tǒng),使這些系統(tǒng)缺少默認(rèn)的激勵(lì)措施來(lái)操縱與欺騙操作人員,競(jìng)爭(zhēng)稀缺資源等?
 
  在第2部分,我們將輪流簡(jiǎn)要介紹每一個(gè)研究主題及每一個(gè)研究領(lǐng)域中相關(guān)的研究案例。接下來(lái)我們將討論對(duì)于未來(lái)研究的啟示,即鑒于大量的計(jì)算資源和自動(dòng)化,我們期望能夠衍生出有助于設(shè)計(jì)出強(qiáng)健且可靠的ML系統(tǒng)的工具來(lái)。
 
  研究動(dòng)機(jī)
 
  近年來(lái),機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)取得突飛猛進(jìn)的發(fā)展。Xu等(2015)運(yùn)用一個(gè)基于注意的模型能夠極為精確地評(píng)估并描述圖像(通過(guò)字幕)。Mnih等(2016)運(yùn)用深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)在多種Atari圍棋比賽中取得了好的性能測(cè)試結(jié)果。Silver等(2016)運(yùn)用經(jīng)由監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練,且與蒙特卡洛模型技術(shù)相匹配的深度神經(jīng)網(wǎng)絡(luò)戰(zhàn)勝了人類圍棋世界冠軍。Lake,Salakhutdinov及Tenenbaum(2015)運(yùn)用分級(jí)式Bayesian模型僅需要使用一個(gè)單一的例子便可以學(xué)習(xí)視覺(jué)概念。
 
  從長(zhǎng)遠(yuǎn)看來(lái),運(yùn)用機(jī)器學(xué)習(xí)和其他AI技術(shù)的計(jì)算機(jī)系統(tǒng)將會(huì)變得越來(lái)也智能,人類也將有可能相信那些系統(tǒng)可以作出更多的決策,變得更加自動(dòng)化。隨著這些系統(tǒng)的性能越來(lái)越高,使這些系統(tǒng)的行為與操作者的意圖保持一致,不會(huì)對(duì)全社會(huì)造成危害,這一點(diǎn)變得尤為重要。
 
  當(dāng)AI系統(tǒng)在性能方面得到越來(lái)越快的提升,設(shè)計(jì)出能夠可靠地把這些系統(tǒng)與預(yù)期的目標(biāo)保持一致的訓(xùn)練程序和測(cè)試準(zhǔn)則將變得越來(lái)越困難。例如,我們來(lái)看一下下面這個(gè)例子:依據(jù)得分實(shí)施獎(jiǎng)勵(lì),訓(xùn)練一個(gè)強(qiáng)化學(xué)習(xí)者來(lái)玩視頻游戲的任務(wù)(per Mnih等,2013)。倘若學(xué)習(xí)者在游戲過(guò)程中找到一些能夠使其獲得高分的漏洞,他將采取措施利用那些漏洞,忽視程序員感興趣的游戲特征。與我們的直覺(jué)相反,提高系統(tǒng)的性能將減少這些學(xué)習(xí)者在游戲中取勝的機(jī)率,這在某種程度上與我們的感覺(jué)相反,由于系統(tǒng)越智能,越能夠找出訓(xùn)練程序與測(cè)試準(zhǔn)則中的漏洞(如若獲取一個(gè)較弱強(qiáng)化學(xué)習(xí)者的這種行為的簡(jiǎn)單實(shí)例,請(qǐng)參照Murphy(2013))。
 
  智能系統(tǒng)能夠以驚人的方式解決問(wèn)題的能力稱得上是一種特征,而非一種瑕疵。它們能夠以一種連程序員都無(wú)法想出的聰明的方式來(lái)達(dá)到目標(biāo),這是這類學(xué)習(xí)系統(tǒng)具有吸引力的重要特征之一。但是,這一性質(zhì)是一柄雙刃劍:當(dāng)這一系統(tǒng)變得更善于找到與人們直覺(jué)相反的解決方法,它也將更善于找到能夠形式上實(shí)現(xiàn)操作者的直接目標(biāo),而不滿足其預(yù)期的目標(biāo)的方法。
 
  由于這些智能系統(tǒng)追求現(xiàn)實(shí)生活中目標(biāo),這些漏洞也將變得更為微妙,更為冗余,且更為重要。就此,我們可以考慮一下為學(xué)習(xí)系統(tǒng)設(shè)計(jì)出強(qiáng)健的目標(biāo)函數(shù),以使得這些學(xué)習(xí)系統(tǒng)能夠代表程序員觀點(diǎn)與欲望,在此過(guò)程中會(huì)遇到的挑戰(zhàn)與困難。當(dāng)程序員了解到該系統(tǒng)的目標(biāo)函數(shù)未得到正確規(guī)范,他們便想要修復(fù)這一缺陷。然而,當(dāng)學(xué)習(xí)者意識(shí)到這樣一點(diǎn),他將視其為一個(gè)自然的刺激,便會(huì)想辦法掩蓋目標(biāo)函數(shù)中存在的這些缺陷,因?yàn)槿绻撓到y(tǒng)被用于追求不同的目標(biāo),其當(dāng)前目標(biāo)將不可能得到實(shí)現(xiàn)。(這一現(xiàn)象將在Bostrom,2014與Yudkowsky,2008一文中作詳細(xì)討論。Benson-Tilsen與Soares(2016)提供了一個(gè)簡(jiǎn)潔的闡釋)。
 
  上述討論結(jié)果激勵(lì)我們研究規(guī)范目標(biāo)函數(shù)的工具與方法,使得這些目標(biāo)函數(shù)能夠避免那些默認(rèn)的激勵(lì)措施,及研發(fā)ML系統(tǒng)的工具與方法,使得這些機(jī)器學(xué)習(xí)系統(tǒng)在追求那些目標(biāo)時(shí)不要過(guò)度優(yōu)化。
 
  下文是對(duì)提到的八個(gè)研究主題及相關(guān)研究成果作詳細(xì)介紹,在此不做贅述。
 
  結(jié)論
 
  能夠更好地理解上述描述的八個(gè)開(kāi)放性研究區(qū)域中的任何一個(gè)領(lǐng)域均將提高我們未來(lái)設(shè)計(jì)出強(qiáng)健且可靠的AI系統(tǒng)的能力。以下是對(duì)上文討論結(jié)果的回顧:
 
  1,2,3---更好地理解強(qiáng)健的歸納式歧義識(shí)別,仿人類,知情式監(jiān)督將有助于設(shè)計(jì)出能夠由人類進(jìn)行安全地監(jiān)督(必要時(shí)詢問(wèn)人類)的機(jī)器學(xué)習(xí)系統(tǒng)。
 
  4---找到規(guī)范環(huán)境目標(biāo)的更好的方法,這將使得設(shè)計(jì)出追求我們真正關(guān)心的目標(biāo)的系統(tǒng)更為容易。
 
  5,6,7---更好地理解保守型概念,低影響力的措施,溫和型優(yōu)化方案會(huì)使得設(shè)計(jì)出高級(jí)系統(tǒng)更為容易,這種系統(tǒng)的錯(cuò)誤率將降低,并且允許在線測(cè)試和調(diào)整等操作。與一個(gè)試圖實(shí)現(xiàn)某個(gè)特殊目標(biāo)函數(shù)最大化的超智能系統(tǒng)相比,一個(gè)集保守型,低影響力,溫和型優(yōu)化三種特征于一體的超智能系統(tǒng)能夠得到更為簡(jiǎn)單安全地運(yùn)用。
 
  8---一個(gè)避免收斂工具子目標(biāo)的通用策略將幫助我們構(gòu)建一類能夠避免不可取默認(rèn)激勵(lì)措施,如欺騙操作人員,競(jìng)爭(zhēng)資源的激勵(lì)策略,的學(xué)習(xí)系統(tǒng)。
 
  在研究諸如上述討論過(guò)的問(wèn)題時(shí),我們應(yīng)當(dāng)記得,這些研究是用于解決我們未來(lái)可以預(yù)見(jiàn)的高智能系統(tǒng)可能帶來(lái)的長(zhǎng)期問(wèn)題的,這一點(diǎn)極為重要。正如那些在理論層面可行,在實(shí)踐中費(fèi)用驚人的方案一樣,那些適用于當(dāng)代智能系統(tǒng),卻能夠預(yù)測(cè)到不適用于更高性能學(xué)習(xí)系統(tǒng)的的解決方案同樣是不可取的。
 
  這八個(gè)研究領(lǐng)域支持以下觀點(diǎn):存在一些開(kāi)放性的技術(shù)問(wèn)題,其中一些問(wèn)題已經(jīng)得到學(xué)術(shù)界的注意,為此所做的研究可能會(huì)對(duì)一些試圖構(gòu)建強(qiáng)健且有益的高級(jí)ML系統(tǒng)的研究者有所幫助。
 
 
更多>相關(guān)資訊
0相關(guān)評(píng)論

推薦圖文
推薦資訊
點(diǎn)擊排行