據(jù)外媒報(bào)道,約翰斯·霍普金斯大學(xué)博士生安德魯·洪特(Andrew Hundt) 近日發(fā)布一篇新論文,指出應(yīng)通過正強(qiáng)化法訓(xùn)練機(jī)器人學(xué)習(xí)新技能。
這篇論文的核心思想是,在訓(xùn)練機(jī)器人的過程中,應(yīng)采用正強(qiáng)化法,即相比于在它做錯(cuò)時(shí)進(jìn)行懲罰,更應(yīng)在它做對(duì)時(shí)進(jìn)行激勵(lì)。而對(duì)于機(jī)器人來說,這種激勵(lì)機(jī)制是以評(píng)分系統(tǒng)的形式呈現(xiàn)的,類似玩游戲一樣,根據(jù)執(zhí)行任務(wù)的情況獲得積分。

安德魯表示,這種方法能夠大大縮短訓(xùn)練機(jī)器人執(zhí)行任務(wù)的時(shí)間。“機(jī)器人希望能得到更高的分?jǐn)?shù),所以它們很快就可以完成相關(guān)任務(wù)。過去機(jī)器人需要一個(gè)月的練習(xí)才能達(dá)到100%的準(zhǔn)確性,現(xiàn)在只用兩天就能做到。”
不過他也指出,目前機(jī)器人執(zhí)行的這些任務(wù)仍然是比較初級(jí)的,比如堆積木。但在未來,機(jī)器人有望通過正強(qiáng)化法完成更復(fù)雜和有意義的任務(wù)。