據(jù)外媒報道,約翰斯·霍普金斯大學博士生安德魯·洪特(Andrew Hundt) 近日發(fā)布一篇新論文,指出應通過正強化法訓練機器人學習新技能。
這篇論文的核心思想是,在訓練機器人的過程中,應采用正強化法,即相比于在它做錯時進行懲罰,更應在它做對時進行激勵。而對于機器人來說,這種激勵機制是以評分系統(tǒng)的形式呈現(xiàn)的,類似玩游戲一樣,根據(jù)執(zhí)行任務的情況獲得積分。

安德魯表示,這種方法能夠大大縮短訓練機器人執(zhí)行任務的時間。“機器人希望能得到更高的分數(shù),所以它們很快就可以完成相關任務。過去機器人需要一個月的練習才能達到100%的準確性,現(xiàn)在只用兩天就能做到。”
不過他也指出,目前機器人執(zhí)行的這些任務仍然是比較初級的,比如堆積木。但在未來,機器人有望通過正強化法完成更復雜和有意義的任務。 作者:鄭湘琪