国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 發(fā)那科機(jī)器人  工業(yè)  上海  機(jī)器人  ABB機(jī)器人  自動(dòng)化  工業(yè)機(jī)器人  工業(yè)機(jī)器人展  機(jī)器  展會(huì) 

這臺(tái)對(duì)世界好奇的機(jī)器,竟然還玩起了超級(jí)馬里奧?

   日期:2017-09-26     來(lái)源:36氪    作者:dc136     評(píng)論:0    
標(biāo)簽: 機(jī)器人 人工智能
    十年前我們就能讓機(jī)器人完成那些可以被完美建模的任務(wù)了,那些機(jī)器人完美地運(yùn)轉(zhuǎn)在工廠的車(chē)間里,完成一個(gè)特定的操作。但真正的人工智能需要在一個(gè)無(wú)法被建模的情境中,走出去,學(xué)會(huì)獨(dú)自探索需要完成什么任務(wù)。這就是「好奇心」,是通向強(qiáng)人工智能的必經(jīng)之路。
 
  你也許不記得自己第一次玩超級(jí)馬里奧兄弟時(shí)的感受了,但是讓我們?cè)囍叵脒@個(gè) 8-bit 的游戲世界閃亮登場(chǎng):淡藍(lán)色的天空,有紋路的石頭地面,一個(gè)矮胖的、紅色著裝的小人靜靜站在那里。他面朝右邊:你將他朝右推動(dòng)。走幾步之后便會(huì)有一排磚頭在頭頂盤(pán)旋,上面盤(pán)旋著一堆「憤怒的蘑菇」。游戲手柄的另一個(gè)按鍵能夠讓那個(gè)小人兒跳起來(lái),他的四個(gè)像素大的拳頭指向天空。然后呢?或許是把「向右」和「跳躍」動(dòng)作結(jié)合起來(lái)。好了,驚喜不驚喜:他會(huì)用自己的頭部撞擊懸浮在空中的磚塊,磚塊會(huì)像裝了彈簧一樣迅速向上彎曲并且彈回,把小人兒彈向正在靠近的蘑菇的身上,將其迅速壓平。馬里奧輕輕地從被征服的蘑菇身上跳開(kāi)。然后出現(xiàn)一個(gè)帶有問(wèn)號(hào)的棕色的對(duì)話框,似乎在問(wèn),「現(xiàn)在呢?」
 
  對(duì)于 20 世紀(jì) 80 年代長(zhǎng)大的人來(lái)說(shuō),這個(gè)場(chǎng)景特別熟悉,但你可以在 Pulkit Agrawal 的YouTube 頻道上看到更年輕的玩家。加利福尼亞大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)研究員Agrawal 正在研究天生的好奇心如何讓學(xué)習(xí)完成一個(gè)不熟悉的任務(wù)的過(guò)程更有效率——就像你第一次玩超級(jí)馬里奧兄弟一樣。重點(diǎn)是,Agrawal 的視頻中的新手玩家不是人類,甚至是沒(méi)有生命的。它就像馬里奧一樣,僅僅是一個(gè)軟件。但是這個(gè)軟件配備了 Agrawal 和他在伯克利人工智能研究實(shí)驗(yàn)室(BAIR)的其他同事 Deepak Pathak, Alexei A. Efros 和Trevor Darrell 一起開(kāi)發(fā)的實(shí)驗(yàn)性機(jī)器學(xué)習(xí)算法。這個(gè)算法有一個(gè)讓人驚嘆的目標(biāo):讓機(jī)器具有好奇心。
 
  Agrawal 說(shuō),「你可以把好奇心想象成是智能體內(nèi)部自動(dòng)生成的一種獎(jiǎng)勵(lì),有了好奇心之后它們可以更進(jìn)一步的探索這個(gè)世界」。這個(gè)內(nèi)部生成的獎(jiǎng)勵(lì)信號(hào)在認(rèn)知心理學(xué)中被稱為「內(nèi)在激勵(lì)」。這種感覺(jué)你或許在讀我寫(xiě)的游戲描述時(shí)有間接的體會(huì)——就是一種想要看看視野之外有什么的欲望,或者想要走出你的能力范圍,去看一下到底會(huì)發(fā)生什么——這就是內(nèi)在激勵(lì)。
 
  人類也會(huì)響應(yīng)源于外界環(huán)境的外在激勵(lì)。這類例子包括你從工作中獲得的薪水、你必須在特定時(shí)點(diǎn)完成的需求等。計(jì)算機(jī)科學(xué)家利用一種類似的,被稱為「強(qiáng)化學(xué)習(xí)」的方法來(lái)訓(xùn)練他們的算法:軟件程序在按照被期望的方式執(zhí)行任務(wù)的時(shí)候會(huì)得到「分?jǐn)?shù)」,然而在以不被期望的方式執(zhí)行的時(shí)候會(huì)受到懲罰。
 
  但是這種胡蘿卜加大棒的方法對(duì)機(jī)器學(xué)習(xí)而言是有局限性的,并且人工智能研究者開(kāi)始將內(nèi)在激勵(lì)視為能夠高效靈活學(xué)習(xí)的軟件智能體的一項(xiàng)重要組成部分,也就是說(shuō),它們不太像脆弱的機(jī)器,而是更像人類和動(dòng)物一樣。在人工智能中使用內(nèi)在激勵(lì)的方法受啟發(fā)于心理學(xué)和神經(jīng)生物學(xué)幾——以及那些有數(shù)十年歷史的原始人工智能研究,現(xiàn)在重新變得有用了起來(lái)。(「機(jī)器學(xué)習(xí)領(lǐng)域里無(wú)新鮮事。」 OpenAI 研究員 Rein Houthooft 如是說(shuō)。)
 
  這種智能體現(xiàn)在已經(jīng)可以被訓(xùn)練用于視頻游戲中,但是開(kāi)發(fā)「具有好奇心」的人工智能的吸引力超越任何現(xiàn)有工作。伯克利人工智能實(shí)驗(yàn)室的聯(lián)合主管 Darrell 說(shuō),「你列舉一個(gè)你最喜歡的應(yīng)用領(lǐng)域,我會(huì)給出一個(gè)例子」?!冈诩依铮覀兿M詣?dòng)化地清理房間、收拾東西。在物流領(lǐng)域,我們希望貨物能被自動(dòng)化地搬運(yùn)、完成各種操作。我們希望汽車(chē)能夠在復(fù)雜的環(huán)境中自動(dòng)駕駛,我們希望救援機(jī)器人能夠在建筑里搜救需要幫助的人。在所有這些例子中,我們都在嘗試解決這個(gè)非常棘手的問(wèn)題:你如何創(chuàng)造一臺(tái)能夠自己想明白要完成什么的任務(wù)機(jī)器?」
 
  「打分」問(wèn)題
 
  強(qiáng)化學(xué)習(xí)是讓 Google的 AlphaGo 軟件得以在圍棋中戰(zhàn)勝人類玩家的利器。在此之前,圍棋作為一款古老的直覺(jué)游戲,向來(lái)被認(rèn)為是機(jī)器無(wú)法企及的。如何在特定的領(lǐng)域成功使用強(qiáng)化學(xué)習(xí)的細(xì)節(jié)是很復(fù)雜的,但是通用的思想是簡(jiǎn)單的:給算法或者「智能體」一個(gè)獎(jiǎng)勵(lì)函數(shù),一個(gè)用數(shù)學(xué)方法定義的信號(hào)來(lái)追尋并最大化。然后把它自由地置于一個(gè)環(huán)境中,可以是任何的虛擬世界或者現(xiàn)實(shí)世界。隨著智能體在環(huán)境中運(yùn)行,能夠增加獎(jiǎng)勵(lì)函數(shù)的值的動(dòng)作會(huì)被強(qiáng)化。只要有足夠多的重復(fù)——如果說(shuō)計(jì)算機(jī)在某一件事上百分百勝過(guò)人類,那就是重復(fù)——智能體就會(huì)學(xué)會(huì)這個(gè)動(dòng)作的模式或者策略,以最大化它的激勵(lì)函數(shù)。理想情況下,這些策略會(huì)導(dǎo)致智能體達(dá)到期望的最終狀態(tài)(例如在圍棋游戲中獲勝),在這個(gè)過(guò)程中程序員或者工程師不必在智能體進(jìn)化的每一步都手動(dòng)編碼。
 
  換句話說(shuō),一個(gè)獎(jiǎng)勵(lì)函數(shù)就是能夠讓配備了強(qiáng)化學(xué)習(xí)算法的智能體能夠鎖定目標(biāo)的指導(dǎo)系統(tǒng)。目標(biāo)定義得越是清晰,智能體就運(yùn)行得越好——這就是為什么目前很多智能體都是在較老的視頻游戲上做測(cè)試的原因,因?yàn)檫@些游戲都有基于分?jǐn)?shù)的明確獎(jiǎng)勵(lì)制度。(游戲的塊狀的、二維的圖像也是研究者選擇它們的理由:因?yàn)橛螒蛳鄬?duì)比較容易模仿,研究者可以快速地運(yùn)行并測(cè)試他們的實(shí)驗(yàn)。)
這臺(tái)對(duì)世界好奇的機(jī)器,竟然還玩起了超級(jí)馬里奧?
  加州伯克利的計(jì)算機(jī)科學(xué)家Pulkit Agrawal
 
  Agrawal 說(shuō),「然而現(xiàn)實(shí)世界中并沒(méi)有分?jǐn)?shù)」。計(jì)算機(jī)科學(xué)家希望讓他們創(chuàng)造的智能體去探索一個(gè)不是預(yù)加載了可量化對(duì)象的世界。
 
  此外,如果環(huán)境沒(méi)有快速并且有規(guī)則地提供顯式的激勵(lì),那么智能體「就沒(méi)有一個(gè)用來(lái)判斷它是否做得正確的準(zhǔn)則」,Houthooft 說(shuō)。就像熱引導(dǎo)的導(dǎo)彈不能鎖定目標(biāo)一樣,「它沒(méi)有任何自己通過(guò)環(huán)境引導(dǎo)自己的方法,所以只能亂飛」。
 
  最后,即使是煞費(fèi)苦心定義的激勵(lì)函數(shù)能夠指導(dǎo)智能體表現(xiàn)出不同凡響的智能行為——就像 AlphaGo 打敗頂級(jí)人類玩家一樣——這種激勵(lì)函數(shù)也不可能在未經(jīng)大量修訂的情況下遷移到任何其他情境中。并且,這種修改必須是人工完成的,確切地說(shuō)這就是機(jī)器學(xué)習(xí)首先應(yīng)該幫助人類完成的事。
 
  除了像導(dǎo)彈一樣能夠可靠地命中目標(biāo)的偽人工智能體之外,我們真正想要從人工智能獲得的更像是一種內(nèi)部引導(dǎo)能力?!改闶强梢宰约航o自己創(chuàng)造激勵(lì)的對(duì)吧?」Agrawal 說(shuō),「并不存在一個(gè)天天指導(dǎo)你做這件事要『加1』或者『減1』的神」。
 
  好奇心作為協(xié)同引導(dǎo)力
 
  Deepak Pathak 從未嘗試過(guò)給「好奇心」這么虛無(wú)縹緲的概念建模?!浮汉闷嫘摹灰辉~指的是『引導(dǎo)一個(gè)智能體在存在噪聲的環(huán)境中有效地探索的模型』」。隸屬于伯克利 Darrell的實(shí)驗(yàn)室研究員 Pathak 如是說(shuō)。
 
  但是在 2106 年,Pathak 著迷于強(qiáng)化學(xué)習(xí)中的稀疏獎(jiǎng)勵(lì)問(wèn)題。含有強(qiáng)化學(xué)習(xí)技術(shù)的深度學(xué)習(xí)軟件最近在玩分?jǐn)?shù)驅(qū)動(dòng)的雅達(dá)利游戲(比如太空入侵者和打磚塊)中獲得了顯著的進(jìn)步。但是在像超級(jí)馬里奧兄弟一樣的稍微復(fù)雜的游戲就超出人工智能的能力范圍了。因?yàn)樵谶@些復(fù)雜的場(chǎng)景需要在時(shí)間和空間上朝著一個(gè)遙遠(yuǎn)的目標(biāo)前進(jìn),而且沒(méi)有一個(gè)明確的獎(jiǎng)勵(lì),更不用說(shuō)學(xué)習(xí)并成功地執(zhí)行游戲中的組合動(dòng)作(例如在奔跑中同時(shí)跳躍)。
 
  Pathak、Agrawal、Darrell 以及 Efros 這群研究員給他們的智能體配備了他們稱之為內(nèi)在好奇模塊(ICM),這個(gè)模塊被設(shè)計(jì)用來(lái)讓游戲向前推進(jìn)而不至于發(fā)生混亂。畢竟這個(gè)智能體并沒(méi)有關(guān)于如何玩超級(jí)馬里奧兄弟的先驗(yàn)知識(shí)——事實(shí)上,它并不像一個(gè)新手玩家,更像一個(gè)新生的嬰兒。
這臺(tái)對(duì)世界好奇的機(jī)器,竟然還玩起了超級(jí)馬里奧?
  加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)家 Deepak Pathak
 
  事實(shí)上,Agrawal 和 Pathak 的靈感來(lái)自于 Alison Gopnik 和 Laura Schulz 兩人的工作,他們分別是伯克利和麻省理工學(xué)院的發(fā)展心理學(xué)家,其研究表明嬰兒和幼兒天生就喜歡與那些最讓他們吃驚的對(duì)象,而不是那些最適用于完成某種外在目標(biāo)的對(duì)象一起玩耍?!笇?duì)兒童的這種好奇心的一個(gè)『解釋』是,他們建立了一個(gè)對(duì)于已知世界的模型,然后進(jìn)行實(shí)驗(yàn)以了解更多未知的部分,」 Agrawal 說(shuō)。這些“實(shí)驗(yàn)”可以是任何能夠產(chǎn)生令智能體(在這里指嬰兒)感到不尋?;蛞馔獾慕Y(jié)果的過(guò)程。孩子可能剛開(kāi)始會(huì)通過(guò)隨意擺動(dòng)四肢而產(chǎn)生新的感覺(jué)(這一過(guò)程被稱為「motor babbling」,牙牙學(xué)語(yǔ)),然后發(fā)展出更協(xié)調(diào)的行為,比如咀嚼玩具或敲擊一堆積木,來(lái)觀察會(huì)發(fā)生什么。
 
  在 Agrawal 和 Pathak 所構(gòu)建的這個(gè)以驚訝感來(lái)驅(qū)動(dòng)好奇心的機(jī)器學(xué)習(xí)算法中,人工智能第一次從數(shù)學(xué)的角度表示出超級(jí)馬里奧兄弟當(dāng)前視頻幀的樣子。然后,它會(huì)預(yù)測(cè)該游戲在隨后幾個(gè)幀的樣子,這一技術(shù)已經(jīng)在深度學(xué)習(xí)系統(tǒng)的現(xiàn)有能力之內(nèi)了。然而 Pathak 和 Agrawal 的 ICM 走得更遠(yuǎn)。它可以生產(chǎn)一個(gè)由此預(yù)測(cè)模型的錯(cuò)誤率來(lái)定義的內(nèi)在獎(jiǎng)勵(lì)信號(hào)。錯(cuò)誤率越高,即驚訝程度越大,其內(nèi)部獎(jiǎng)勵(lì)函數(shù)的值就越大。換句話說(shuō),如果驚訝感等同于認(rèn)識(shí)到有些事沒(méi)有按照預(yù)期發(fā)生——即意識(shí)到犯錯(cuò)了——那么 Pathak 和  Agrawal 的系統(tǒng)就會(huì)得到驚訝所帶來(lái)的獎(jiǎng)勵(lì)。
 
  這種內(nèi)部生成的信號(hào)在游戲中將智能體吸引到未被開(kāi)發(fā)的狀態(tài):通俗地說(shuō),它對(duì)自己所未知的東西感到好奇。隨著智能體的學(xué)習(xí)——隨著其預(yù)測(cè)模型的錯(cuò)誤率越來(lái)越低——來(lái)自 ICM 的獎(jiǎng)勵(lì)信號(hào)將減少,從而鼓勵(lì)智能體去探索其它更令人驚訝的情況?!高@是一個(gè)加快探索過(guò)程的辦法,」Pathak 說(shuō)。
 
  這種反饋循環(huán)還允許人工智能快速地將自我從幾乎一無(wú)所知的無(wú)知狀態(tài)中引導(dǎo)出來(lái)。剛開(kāi)始,智能體會(huì)對(duì)游戲人物所能表現(xiàn)出的任何基本動(dòng)作產(chǎn)生好奇:按右鍵會(huì)將馬里奧往右推,然后停下;連續(xù)按右鍵會(huì)將馬里奧一直往右推;按上鍵使他彈到空中,然后又落下;按下鍵沒(méi)有效果。這種模擬的「牙牙學(xué)語(yǔ)」過(guò)程很快就能收斂到一些有用的動(dòng)作,從而讓智能體繼續(xù)后面的游戲,即使該智能體對(duì)這一游戲毫無(wú)了解。
 
  例如,由于按下鍵總是沒(méi)有任何反應(yīng),從而智能體很快學(xué)會(huì)了完美地預(yù)測(cè)該動(dòng)作的效果,這種預(yù)測(cè)準(zhǔn)確度的提升讓與下鍵相關(guān)聯(lián)的由好奇心提供的獎(jiǎng)勵(lì)信號(hào)變?nèi)酢H欢瓷湘I則有各種不可預(yù)知的效果:有時(shí)馬里奧是筆直上升,有時(shí)是弧線上升;有時(shí)短跳,有時(shí)長(zhǎng)跳;有時(shí)他再也不會(huì)從上方下來(lái)(比如他碰巧在障礙物上著陸)。所有這些結(jié)果在智能體的預(yù)測(cè)模型中都被記錄為錯(cuò)誤,從而帶來(lái) ICM 的獎(jiǎng)勵(lì)信號(hào),這會(huì)使得主體不斷地嘗試該操作。向右移(幾乎總是揭示更多游戲世界)也有類似的好奇吸引效應(yīng)。繼續(xù)向前和向右的沖動(dòng)可以清楚地在 Agrawal 的演示視頻里看到:幾秒鐘內(nèi),人工智能控制的馬里奧開(kāi)始像一個(gè)多動(dòng)癥兒童那樣向右跳,帶來(lái)更多不可預(yù)知的影響(比如撞上一塊盤(pán)旋的磚,或不小心壓扁一只蘑菇),所有這些都會(huì)驅(qū)動(dòng)進(jìn)一步的探索行為。
 
  「通過(guò)使用這種好奇心,智能體能夠?qū)W習(xí)去做所有探索世界所需要做的事情,比如跳和殺死敵人,」Agrawal 解釋說(shuō),「它甚至不會(huì)因?yàn)榈粞艿綉土P。但它會(huì)學(xué)習(xí)去避免掉血,因?yàn)椴凰谰鸵馕吨軌蜃畲笙薅鹊厝ヌ剿鳌K谧晕覐?qiáng)化,而不是從該游戲中得到強(qiáng)化。」
 
  避免獵奇陷阱
 
  自上世紀(jì) 90 年代初起,人工好奇心便是人工智能領(lǐng)域的一個(gè)研究課題。好奇心軟件化的一個(gè)方式在于「獵奇」:智能體被設(shè)計(jì)去探索其周遭環(huán)境的陌生狀態(tài)。這個(gè)寬泛的定義似乎捕捉到了對(duì)于好奇感體驗(yàn)的一個(gè)直覺(jué)性理解,但實(shí)際上,它可以使智能體陷入到雖然滿足了設(shè)定的激勵(lì)條件卻阻止它們進(jìn)行深入探索的狀態(tài)。
 
  例如,想象一臺(tái)不斷展示靜態(tài)畫(huà)面的電視。這樣的東西很快就會(huì)吸引一個(gè)純粹尋求新奇事物的智能體的好奇心,因?yàn)橐幌盗须S機(jī)閃爍的視覺(jué)噪音是完全無(wú)法進(jìn)行預(yù)測(cè)的。由于每一種靜態(tài)模式對(duì)于智能體來(lái)說(shuō)都是全新的,因此其內(nèi)部獎(jiǎng)賞功能將確保它永遠(yuǎn)不會(huì)停止關(guān)注這個(gè)單一、無(wú)用的環(huán)境特性,并且它會(huì)陷入困境。
 
  事實(shí)證明,這種毫無(wú)意義的新奇在豐富多彩的環(huán)境中無(wú)處不在,無(wú)論虛擬環(huán)境還是現(xiàn)實(shí)環(huán)境。因而人工智能必須學(xué)會(huì)去應(yīng)對(duì)它,這樣才能有真正的價(jià)值。例如,一輛配備了尋求新奇的內(nèi)部獎(jiǎng)勵(lì)功能的自動(dòng)駕駛汽車(chē)可能永遠(yuǎn)都無(wú)法駛出所在街區(qū)?!副热缒阏谛旭?,街上有風(fēng)兒吹著、樹(shù)葉搖著,」Agrawal 說(shuō),「而你沒(méi)法預(yù)測(cè)每一片葉子的走向。如果你預(yù)測(cè)的是像素,那么這些交互將導(dǎo)致你有很高的預(yù)測(cè)誤差,并使你變得非常好奇。我們想要避免這種情況的發(fā)生?!?/div>
 
  Agrawal 和 Pathak 不得不想出一個(gè)辦法來(lái)讓智能體的好奇心保持在一個(gè)合適的程度。預(yù)測(cè)像素——也即使用深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)來(lái)建立智能體在同一時(shí)間與完整空間內(nèi)的視野——使得潛在干擾的過(guò)濾過(guò)程變得困難。計(jì)算方面的花費(fèi)也很貴。
這臺(tái)對(duì)世界好奇的機(jī)器,竟然還玩起了超級(jí)馬里奧?
  伯克利人工智能研究實(shí)驗(yàn)室聯(lián)合主任 Trevor Darrell
 
  因此,伯克利的研究人員對(duì)其馬里奧玩家智能體進(jìn)行了設(shè)計(jì),將其視覺(jué)輸入從原始像素轉(zhuǎn)換成一種經(jīng)過(guò)抽象的現(xiàn)實(shí)。這種抽象只包含有可能影響智能體(或受智能體影響)的環(huán)境特性。從本質(zhì)上說(shuō),如果該智能體不能與某物進(jìn)行交互,那么它一開(kāi)始就不會(huì)被感知到。
 
  使用這種剝離開(kāi)來(lái)的「特征空間(feature space)」(相比于未經(jīng)處理的「像素空間(pixel space)」),不僅簡(jiǎn)化了智能體的學(xué)習(xí)過(guò)程,也巧妙地避開(kāi)了獵奇陷阱。「例如,智能體無(wú)法從建模預(yù)測(cè)頭頂上的云的動(dòng)態(tài)中獲得任何好處?!笵arrell 解釋說(shuō),「所以當(dāng)它好奇時(shí),它不會(huì)去關(guān)注云。先前版本的好奇心,至少有一些是這樣,只考慮了像素級(jí)別的預(yù)測(cè)。這沒(méi)什么問(wèn)題,直到你突然經(jīng)歷一件非常不可預(yù)測(cè)但又非常無(wú)聊的事情?!?/div>
 
  人工好奇心的局限性
 
  Darrell 承認(rèn)這種好奇心模型并不完美。他說(shuō):「該系統(tǒng)會(huì)學(xué)習(xí)哪些事物是相關(guān)的,但不能保證總能得到正確結(jié)果?!故聦?shí)上,在達(dá)到系統(tǒng)自身的最佳水準(zhǔn)(也即局部最優(yōu))之前,這個(gè)智能體只能玩到超級(jí)馬里奧兄弟第一關(guān)的一半?!冈撝悄荏w需要彌合的能力缺口還很大,即以極其特殊的順序來(lái)執(zhí)行 15 或 16 個(gè)連續(xù)的動(dòng)作,」Agrawal 說(shuō)道,「因?yàn)樗看味继贿^(guò)那道溝,所以它每次都會(huì)死在那里。然后它學(xué)會(huì)了完美地預(yù)測(cè)該結(jié)果,然后就不會(huì)對(duì)后面的游戲產(chǎn)生任何好奇?!梗ㄔ跒橹悄荏w的辯護(hù)時(shí),Agrawal 指出,這個(gè)缺陷是因?yàn)槿斯ぶ悄苤荒茉陔x散的時(shí)間間隔內(nèi)按壓控制方向的模擬按鈕,這使得某些動(dòng)作無(wú)法被實(shí)現(xiàn)。)
 
  最終,人工好奇心的問(wèn)題在于,即使是在內(nèi)在好奇研究領(lǐng)域浸淫多年的研究人員,也仍然不能準(zhǔn)確定義出什么是好奇心。明尼蘇達(dá)大學(xué)計(jì)算的感知與行為實(shí)驗(yàn)室主任兼神經(jīng)科學(xué)家 Paul Schrater 說(shuō),伯克利的模型是在「讓一個(gè)智能體在短期內(nèi)自動(dòng)學(xué)習(xí)一個(gè)新環(huán)境這一方面最聰明的辦法」,但他認(rèn)為這與「好奇心的直覺(jué)性概念」關(guān)系不大,卻與肌肉的學(xué)習(xí)與控制聯(lián)系得更為緊密。他說(shuō):「它的控制對(duì)象是在認(rèn)知層面以下,更多在身體的行為細(xì)節(jié)方面。」
 
  對(duì) Schrater 來(lái)說(shuō),伯克利團(tuán)隊(duì)的新思路是將其內(nèi)在的好奇心模塊附著在智能體上,該智能體將超級(jí)馬里奧兄弟當(dāng)做一個(gè)特征空間而不是像素幀序列。他認(rèn)為這種方法大致可以近似于人類大腦「提取與特定任務(wù)相關(guān)的視覺(jué)特征」的方式。
 
  好奇心還要求智能體至少能一定程度上在虛擬的或者物理的環(huán)境中具象化以產(chǎn)生實(shí)際意義,法國(guó)國(guó)家信息與自動(dòng)化研究所(Inria)研究總監(jiān) Pierre Yves Oudeyer 說(shuō)。Inria 位于法國(guó)波爾多市。Oudeyer 十多年來(lái)一直在創(chuàng)建好奇心的計(jì)算模型。他指出,世界如此之大而豐富,處處蘊(yùn)藏驚喜。但這還不夠?!溉绻阌幸粋€(gè)無(wú)形智能體,利用好奇心來(lái)探索一個(gè)巨大的特征空間,那么其行為看起來(lái)會(huì)像隨機(jī)探索,因?yàn)樗鼪](méi)有對(duì)其行動(dòng)的任何約束,」Oudeyer 說(shuō)道,「例如,對(duì)身體的約束可以簡(jiǎn)化世界,可以幫助智能體集中注意力并指導(dǎo)其探索行為。」
 
  但并非所有有形智能體都需要內(nèi)在激勵(lì),正如工業(yè)機(jī)器人的歷史所昭示的那樣。對(duì)于指令較為簡(jiǎn)單的任務(wù),比如讓機(jī)器人沿著地面黃線在各個(gè)地點(diǎn)間運(yùn)送貨物,為這個(gè)過(guò)程添加好奇心就屬于機(jī)器學(xué)習(xí)的矯枉過(guò)正。
 
  「你可以給智能體一個(gè)完美的獎(jiǎng)勵(lì)功能——也就是它需要事先知道的一切,」Darrell 解釋說(shuō),「10 年前我們就能解決這個(gè)問(wèn)題。但是如果你把機(jī)器人放在一個(gè)無(wú)法預(yù)先建模的情境中,比如災(zāi)難搜索與救援,那么它就必須走出去,學(xué)習(xí)獨(dú)自探索。這不僅僅是映射——它必須在環(huán)境中學(xué)習(xí)自身行為的影響。你肯定想讓一個(gè)智能體在學(xué)習(xí)如何完成工作時(shí)產(chǎn)生好奇心?!?/div>
 
  人工智能往往被通俗地定義為「任何計(jì)算機(jī)還做不到的事情」。如果內(nèi)在激勵(lì)和人工好奇心能讓智能體找出人類所未知的能夠?qū)崿F(xiàn)自動(dòng)化的任務(wù),那么「我很確定這就是我們想要讓任何人工智能都具備的能力,」OpenAI 研究員 Houthooft 說(shuō),「困難在于如何調(diào)試好奇心?!闺m然 Agrawal 和 Pathak 的馬里奧玩家智能體可能無(wú)法獨(dú)自通過(guò)第一關(guān),但這可能是調(diào)試(人工或者天然的)好奇心的方式:一步一個(gè)腳印,循序漸進(jìn)。
 
 
聲明:凡資訊來(lái)源注明為其他媒體來(lái)源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑,請(qǐng)立即與中國(guó)機(jī)器人網(wǎng)(www.baoxianwx.cn)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。
電話:021-39553798-8007
更多>相關(guān)專題
0相關(guān)評(píng)論

?