国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

熱搜: 佳士科技  irobot  工業(yè)機器人  機器人  ABB  機器人產(chǎn)業(yè)聯(lián)盟  發(fā)那科  庫卡  碼垛機器人  機械手 

這臺對世界好奇的機器,竟然還玩起了超級馬里奧?

   日期:2017-09-26     來源:36氪    作者:dc136     評論:0    
   十年前我們就能讓機器人完成那些可以被完美建模的任務(wù)了,那些機器人完美地運轉(zhuǎn)在工廠的車間里,完成一個特定的操作。但真正的人工智能需要在一個無法被建模的情境中,走出去,學會獨自探索需要完成什么任務(wù)。這就是「好奇心」,是通向強人工智能的必經(jīng)之路。
 
  你也許不記得自己第一次玩超級馬里奧兄弟時的感受了,但是讓我們試著回想這個 8-bit 的游戲世界閃亮登場:淡藍色的天空,有紋路的石頭地面,一個矮胖的、紅色著裝的小人靜靜站在那里。他面朝右邊:你將他朝右推動。走幾步之后便會有一排磚頭在頭頂盤旋,上面盤旋著一堆「憤怒的蘑菇」。游戲手柄的另一個按鍵能夠讓那個小人兒跳起來,他的四個像素大的拳頭指向天空。然后呢?或許是把「向右」和「跳躍」動作結(jié)合起來。好了,驚喜不驚喜:他會用自己的頭部撞擊懸浮在空中的磚塊,磚塊會像裝了彈簧一樣迅速向上彎曲并且彈回,把小人兒彈向正在靠近的蘑菇的身上,將其迅速壓平。馬里奧輕輕地從被征服的蘑菇身上跳開。然后出現(xiàn)一個帶有問號的棕色的對話框,似乎在問,「現(xiàn)在呢?」
 
  對于 20 世紀 80 年代長大的人來說,這個場景特別熟悉,但你可以在 Pulkit Agrawal 的YouTube 頻道上看到更年輕的玩家。加利福尼亞大學伯克利分校的計算機科學研究員Agrawal 正在研究天生的好奇心如何讓學習完成一個不熟悉的任務(wù)的過程更有效率——就像你第一次玩超級馬里奧兄弟一樣。重點是,Agrawal 的視頻中的新手玩家不是人類,甚至是沒有生命的。它就像馬里奧一樣,僅僅是一個軟件。但是這個軟件配備了 Agrawal 和他在伯克利人工智能研究實驗室(BAIR)的其他同事 Deepak Pathak, Alexei A. Efros 和Trevor Darrell 一起開發(fā)的實驗性機器學習算法。這個算法有一個讓人驚嘆的目標:讓機器具有好奇心。
 
  Agrawal 說,「你可以把好奇心想象成是智能體內(nèi)部自動生成的一種獎勵,有了好奇心之后它們可以更進一步的探索這個世界」。這個內(nèi)部生成的獎勵信號在認知心理學中被稱為「內(nèi)在激勵」。這種感覺你或許在讀我寫的游戲描述時有間接的體會——就是一種想要看看視野之外有什么的欲望,或者想要走出你的能力范圍,去看一下到底會發(fā)生什么——這就是內(nèi)在激勵。
 
  人類也會響應源于外界環(huán)境的外在激勵。這類例子包括你從工作中獲得的薪水、你必須在特定時點完成的需求等。計算機科學家利用一種類似的,被稱為「強化學習」的方法來訓練他們的算法:軟件程序在按照被期望的方式執(zhí)行任務(wù)的時候會得到「分數(shù)」,然而在以不被期望的方式執(zhí)行的時候會受到懲罰。
 
  但是這種胡蘿卜加大棒的方法對機器學習而言是有局限性的,并且人工智能研究者開始將內(nèi)在激勵視為能夠高效靈活學習的軟件智能體的一項重要組成部分,也就是說,它們不太像脆弱的機器,而是更像人類和動物一樣。在人工智能中使用內(nèi)在激勵的方法受啟發(fā)于心理學和神經(jīng)生物學幾——以及那些有數(shù)十年歷史的原始人工智能研究,現(xiàn)在重新變得有用了起來。(「機器學習領(lǐng)域里無新鮮事?!?OpenAI 研究員 Rein Houthooft 如是說。)
 
  這種智能體現(xiàn)在已經(jīng)可以被訓練用于視頻游戲中,但是開發(fā)「具有好奇心」的人工智能的吸引力超越任何現(xiàn)有工作。伯克利人工智能實驗室的聯(lián)合主管 Darrell 說,「你列舉一個你最喜歡的應用領(lǐng)域,我會給出一個例子」?!冈诩依?,我們希望自動化地清理房間、收拾東西。在物流領(lǐng)域,我們希望貨物能被自動化地搬運、完成各種操作。我們希望汽車能夠在復雜的環(huán)境中自動駕駛,我們希望救援機器人能夠在建筑里搜救需要幫助的人。在所有這些例子中,我們都在嘗試解決這個非常棘手的問題:你如何創(chuàng)造一臺能夠自己想明白要完成什么的任務(wù)機器?」
 
  「打分」問題
 
  強化學習是讓 Google的 AlphaGo 軟件得以在圍棋中戰(zhàn)勝人類玩家的利器。在此之前,圍棋作為一款古老的直覺游戲,向來被認為是機器無法企及的。如何在特定的領(lǐng)域成功使用強化學習的細節(jié)是很復雜的,但是通用的思想是簡單的:給算法或者「智能體」一個獎勵函數(shù),一個用數(shù)學方法定義的信號來追尋并最大化。然后把它自由地置于一個環(huán)境中,可以是任何的虛擬世界或者現(xiàn)實世界。隨著智能體在環(huán)境中運行,能夠增加獎勵函數(shù)的值的動作會被強化。只要有足夠多的重復——如果說計算機在某一件事上百分百勝過人類,那就是重復——智能體就會學會這個動作的模式或者策略,以最大化它的激勵函數(shù)。理想情況下,這些策略會導致智能體達到期望的最終狀態(tài)(例如在圍棋游戲中獲勝),在這個過程中程序員或者工程師不必在智能體進化的每一步都手動編碼。
 
  換句話說,一個獎勵函數(shù)就是能夠讓配備了強化學習算法的智能體能夠鎖定目標的指導系統(tǒng)。目標定義得越是清晰,智能體就運行得越好——這就是為什么目前很多智能體都是在較老的視頻游戲上做測試的原因,因為這些游戲都有基于分數(shù)的明確獎勵制度。(游戲的塊狀的、二維的圖像也是研究者選擇它們的理由:因為游戲相對比較容易模仿,研究者可以快速地運行并測試他們的實驗。)
這臺對世界好奇的機器,竟然還玩起了超級馬里奧?
  加州伯克利的計算機科學家Pulkit Agrawal
 
  Agrawal 說,「然而現(xiàn)實世界中并沒有分數(shù)」。計算機科學家希望讓他們創(chuàng)造的智能體去探索一個不是預加載了可量化對象的世界。
 
  此外,如果環(huán)境沒有快速并且有規(guī)則地提供顯式的激勵,那么智能體「就沒有一個用來判斷它是否做得正確的準則」,Houthooft 說。就像熱引導的導彈不能鎖定目標一樣,「它沒有任何自己通過環(huán)境引導自己的方法,所以只能亂飛」。
 
  最后,即使是煞費苦心定義的激勵函數(shù)能夠指導智能體表現(xiàn)出不同凡響的智能行為——就像 AlphaGo 打敗頂級人類玩家一樣——這種激勵函數(shù)也不可能在未經(jīng)大量修訂的情況下遷移到任何其他情境中。并且,這種修改必須是人工完成的,確切地說這就是機器學習首先應該幫助人類完成的事。
 
  除了像導彈一樣能夠可靠地命中目標的偽人工智能體之外,我們真正想要從人工智能獲得的更像是一種內(nèi)部引導能力?!改闶强梢宰约航o自己創(chuàng)造激勵的對吧?」Agrawal 說,「并不存在一個天天指導你做這件事要『加1』或者『減1』的神」。
 
  好奇心作為協(xié)同引導力
 
  Deepak Pathak 從未嘗試過給「好奇心」這么虛無縹緲的概念建模?!浮汉闷嫘摹灰辉~指的是『引導一個智能體在存在噪聲的環(huán)境中有效地探索的模型』」。隸屬于伯克利 Darrell的實驗室研究員 Pathak 如是說。
 
  但是在 2106 年,Pathak 著迷于強化學習中的稀疏獎勵問題。含有強化學習技術(shù)的深度學習軟件最近在玩分數(shù)驅(qū)動的雅達利游戲(比如太空入侵者和打磚塊)中獲得了顯著的進步。但是在像超級馬里奧兄弟一樣的稍微復雜的游戲就超出人工智能的能力范圍了。因為在這些復雜的場景需要在時間和空間上朝著一個遙遠的目標前進,而且沒有一個明確的獎勵,更不用說學習并成功地執(zhí)行游戲中的組合動作(例如在奔跑中同時跳躍)。
 
  Pathak、Agrawal、Darrell 以及 Efros 這群研究員給他們的智能體配備了他們稱之為內(nèi)在好奇模塊(ICM),這個模塊被設(shè)計用來讓游戲向前推進而不至于發(fā)生混亂。畢竟這個智能體并沒有關(guān)于如何玩超級馬里奧兄弟的先驗知識——事實上,它并不像一個新手玩家,更像一個新生的嬰兒。
這臺對世界好奇的機器,竟然還玩起了超級馬里奧?
  加州大學伯克利分校計算機科學家 Deepak Pathak
 
  事實上,Agrawal 和 Pathak 的靈感來自于 Alison Gopnik 和 Laura Schulz 兩人的工作,他們分別是伯克利和麻省理工學院的發(fā)展心理學家,其研究表明嬰兒和幼兒天生就喜歡與那些最讓他們吃驚的對象,而不是那些最適用于完成某種外在目標的對象一起玩耍?!笇和倪@種好奇心的一個『解釋』是,他們建立了一個對于已知世界的模型,然后進行實驗以了解更多未知的部分,」 Agrawal 說。這些“實驗”可以是任何能夠產(chǎn)生令智能體(在這里指嬰兒)感到不尋?;蛞馔獾慕Y(jié)果的過程。孩子可能剛開始會通過隨意擺動四肢而產(chǎn)生新的感覺(這一過程被稱為「motor babbling」,牙牙學語),然后發(fā)展出更協(xié)調(diào)的行為,比如咀嚼玩具或敲擊一堆積木,來觀察會發(fā)生什么。
 
  在 Agrawal 和 Pathak 所構(gòu)建的這個以驚訝感來驅(qū)動好奇心的機器學習算法中,人工智能第一次從數(shù)學的角度表示出超級馬里奧兄弟當前視頻幀的樣子。然后,它會預測該游戲在隨后幾個幀的樣子,這一技術(shù)已經(jīng)在深度學習系統(tǒng)的現(xiàn)有能力之內(nèi)了。然而 Pathak 和 Agrawal 的 ICM 走得更遠。它可以生產(chǎn)一個由此預測模型的錯誤率來定義的內(nèi)在獎勵信號。錯誤率越高,即驚訝程度越大,其內(nèi)部獎勵函數(shù)的值就越大。換句話說,如果驚訝感等同于認識到有些事沒有按照預期發(fā)生——即意識到犯錯了——那么 Pathak 和  Agrawal 的系統(tǒng)就會得到驚訝所帶來的獎勵。
 
  這種內(nèi)部生成的信號在游戲中將智能體吸引到未被開發(fā)的狀態(tài):通俗地說,它對自己所未知的東西感到好奇。隨著智能體的學習——隨著其預測模型的錯誤率越來越低——來自 ICM 的獎勵信號將減少,從而鼓勵智能體去探索其它更令人驚訝的情況?!高@是一個加快探索過程的辦法,」Pathak 說。
 
  這種反饋循環(huán)還允許人工智能快速地將自我從幾乎一無所知的無知狀態(tài)中引導出來。剛開始,智能體會對游戲人物所能表現(xiàn)出的任何基本動作產(chǎn)生好奇:按右鍵會將馬里奧往右推,然后停下;連續(xù)按右鍵會將馬里奧一直往右推;按上鍵使他彈到空中,然后又落下;按下鍵沒有效果。這種模擬的「牙牙學語」過程很快就能收斂到一些有用的動作,從而讓智能體繼續(xù)后面的游戲,即使該智能體對這一游戲毫無了解。
 
  例如,由于按下鍵總是沒有任何反應,從而智能體很快學會了完美地預測該動作的效果,這種預測準確度的提升讓與下鍵相關(guān)聯(lián)的由好奇心提供的獎勵信號變?nèi)?。然而按上鍵則有各種不可預知的效果:有時馬里奧是筆直上升,有時是弧線上升;有時短跳,有時長跳;有時他再也不會從上方下來(比如他碰巧在障礙物上著陸)。所有這些結(jié)果在智能體的預測模型中都被記錄為錯誤,從而帶來 ICM 的獎勵信號,這會使得主體不斷地嘗試該操作。向右移(幾乎總是揭示更多游戲世界)也有類似的好奇吸引效應。繼續(xù)向前和向右的沖動可以清楚地在 Agrawal 的演示視頻里看到:幾秒鐘內(nèi),人工智能控制的馬里奧開始像一個多動癥兒童那樣向右跳,帶來更多不可預知的影響(比如撞上一塊盤旋的磚,或不小心壓扁一只蘑菇),所有這些都會驅(qū)動進一步的探索行為。
 
  「通過使用這種好奇心,智能體能夠?qū)W習去做所有探索世界所需要做的事情,比如跳和殺死敵人,」Agrawal 解釋說,「它甚至不會因為掉血而受到懲罰。但它會學習去避免掉血,因為不死就意味著能夠最大限度地去探索。它在自我強化,而不是從該游戲中得到強化?!?/div>
 
  避免獵奇陷阱
 
  自上世紀 90 年代初起,人工好奇心便是人工智能領(lǐng)域的一個研究課題。好奇心軟件化的一個方式在于「獵奇」:智能體被設(shè)計去探索其周遭環(huán)境的陌生狀態(tài)。這個寬泛的定義似乎捕捉到了對于好奇感體驗的一個直覺性理解,但實際上,它可以使智能體陷入到雖然滿足了設(shè)定的激勵條件卻阻止它們進行深入探索的狀態(tài)。
 
  例如,想象一臺不斷展示靜態(tài)畫面的電視。這樣的東西很快就會吸引一個純粹尋求新奇事物的智能體的好奇心,因為一系列隨機閃爍的視覺噪音是完全無法進行預測的。由于每一種靜態(tài)模式對于智能體來說都是全新的,因此其內(nèi)部獎賞功能將確保它永遠不會停止關(guān)注這個單一、無用的環(huán)境特性,并且它會陷入困境。
 
  事實證明,這種毫無意義的新奇在豐富多彩的環(huán)境中無處不在,無論虛擬環(huán)境還是現(xiàn)實環(huán)境。因而人工智能必須學會去應對它,這樣才能有真正的價值。例如,一輛配備了尋求新奇的內(nèi)部獎勵功能的自動駕駛汽車可能永遠都無法駛出所在街區(qū)。「比如你正在行駛,街上有風兒吹著、樹葉搖著,」Agrawal 說,「而你沒法預測每一片葉子的走向。如果你預測的是像素,那么這些交互將導致你有很高的預測誤差,并使你變得非常好奇。我們想要避免這種情況的發(fā)生。」
 
  Agrawal 和 Pathak 不得不想出一個辦法來讓智能體的好奇心保持在一個合適的程度。預測像素——也即使用深度學習和計算機視覺來建立智能體在同一時間與完整空間內(nèi)的視野——使得潛在干擾的過濾過程變得困難。計算方面的花費也很貴。
這臺對世界好奇的機器,竟然還玩起了超級馬里奧?
  伯克利人工智能研究實驗室聯(lián)合主任 Trevor Darrell
 
  因此,伯克利的研究人員對其馬里奧玩家智能體進行了設(shè)計,將其視覺輸入從原始像素轉(zhuǎn)換成一種經(jīng)過抽象的現(xiàn)實。這種抽象只包含有可能影響智能體(或受智能體影響)的環(huán)境特性。從本質(zhì)上說,如果該智能體不能與某物進行交互,那么它一開始就不會被感知到。
 
  使用這種剝離開來的「特征空間(feature space)」(相比于未經(jīng)處理的「像素空間(pixel space)」),不僅簡化了智能體的學習過程,也巧妙地避開了獵奇陷阱。「例如,智能體無法從建模預測頭頂上的云的動態(tài)中獲得任何好處?!笵arrell 解釋說,「所以當它好奇時,它不會去關(guān)注云。先前版本的好奇心,至少有一些是這樣,只考慮了像素級別的預測。這沒什么問題,直到你突然經(jīng)歷一件非常不可預測但又非常無聊的事情。」
 
  人工好奇心的局限性
 
  Darrell 承認這種好奇心模型并不完美。他說:「該系統(tǒng)會學習哪些事物是相關(guān)的,但不能保證總能得到正確結(jié)果?!故聦嵣?,在達到系統(tǒng)自身的最佳水準(也即局部最優(yōu))之前,這個智能體只能玩到超級馬里奧兄弟第一關(guān)的一半。「該智能體需要彌合的能力缺口還很大,即以極其特殊的順序來執(zhí)行 15 或 16 個連續(xù)的動作,」Agrawal 說道,「因為它每次都跳不過那道溝,所以它每次都會死在那里。然后它學會了完美地預測該結(jié)果,然后就不會對后面的游戲產(chǎn)生任何好奇?!梗ㄔ跒橹悄荏w的辯護時,Agrawal 指出,這個缺陷是因為人工智能只能在離散的時間間隔內(nèi)按壓控制方向的模擬按鈕,這使得某些動作無法被實現(xiàn)。)
 
  最終,人工好奇心的問題在于,即使是在內(nèi)在好奇研究領(lǐng)域浸淫多年的研究人員,也仍然不能準確定義出什么是好奇心。明尼蘇達大學計算的感知與行為實驗室主任兼神經(jīng)科學家 Paul Schrater 說,伯克利的模型是在「讓一個智能體在短期內(nèi)自動學習一個新環(huán)境這一方面最聰明的辦法」,但他認為這與「好奇心的直覺性概念」關(guān)系不大,卻與肌肉的學習與控制聯(lián)系得更為緊密。他說:「它的控制對象是在認知層面以下,更多在身體的行為細節(jié)方面。」
 
  對 Schrater 來說,伯克利團隊的新思路是將其內(nèi)在的好奇心模塊附著在智能體上,該智能體將超級馬里奧兄弟當做一個特征空間而不是像素幀序列。他認為這種方法大致可以近似于人類大腦「提取與特定任務(wù)相關(guān)的視覺特征」的方式。
 
  好奇心還要求智能體至少能一定程度上在虛擬的或者物理的環(huán)境中具象化以產(chǎn)生實際意義,法國國家信息與自動化研究所(Inria)研究總監(jiān) Pierre Yves Oudeyer 說。Inria 位于法國波爾多市。Oudeyer 十多年來一直在創(chuàng)建好奇心的計算模型。他指出,世界如此之大而豐富,處處蘊藏驚喜。但這還不夠?!溉绻阌幸粋€無形智能體,利用好奇心來探索一個巨大的特征空間,那么其行為看起來會像隨機探索,因為它沒有對其行動的任何約束,」Oudeyer 說道,「例如,對身體的約束可以簡化世界,可以幫助智能體集中注意力并指導其探索行為?!?/div>
 
  但并非所有有形智能體都需要內(nèi)在激勵,正如工業(yè)機器人的歷史所昭示的那樣。對于指令較為簡單的任務(wù),比如讓機器人沿著地面黃線在各個地點間運送貨物,為這個過程添加好奇心就屬于機器學習的矯枉過正。
 
  「你可以給智能體一個完美的獎勵功能——也就是它需要事先知道的一切,」Darrell 解釋說,「10 年前我們就能解決這個問題。但是如果你把機器人放在一個無法預先建模的情境中,比如災難搜索與救援,那么它就必須走出去,學習獨自探索。這不僅僅是映射——它必須在環(huán)境中學習自身行為的影響。你肯定想讓一個智能體在學習如何完成工作時產(chǎn)生好奇心。」
 
  人工智能往往被通俗地定義為「任何計算機還做不到的事情」。如果內(nèi)在激勵和人工好奇心能讓智能體找出人類所未知的能夠?qū)崿F(xiàn)自動化的任務(wù),那么「我很確定這就是我們想要讓任何人工智能都具備的能力,」OpenAI 研究員 Houthooft 說,「困難在于如何調(diào)試好奇心?!闺m然 Agrawal 和 Pathak 的馬里奧玩家智能體可能無法獨自通過第一關(guān),但這可能是調(diào)試(人工或者天然的)好奇心的方式:一步一個腳印,循序漸進。
 
 
更多>相關(guān)資訊
0相關(guān)評論

推薦圖文
推薦資訊
點擊排行