自主移動機(jī)器人的基本要求之一是其導(dǎo)航能力。機(jī)器人必須能夠按照給定的坐標(biāo)從當(dāng)前位置導(dǎo)航到地圖上指定的目標(biāo)位置,同時(shí)還要避開周圍的障礙物。在某些情況下,需要機(jī)器人能夠以較高的導(dǎo)航速度盡快到達(dá)目的地。然而,導(dǎo)航速度較快的機(jī)器人通常具有較高的碰撞風(fēng)險(xiǎn),額能會影響到機(jī)器人和周圍環(huán)境。
為了解決這個(gè)問題,豐橋工業(yè)大學(xué)(TUT)計(jì)算機(jī)科學(xué)與工程系主動智能系統(tǒng)實(shí)驗(yàn)室(AISL)的研究小組提出了一個(gè)新的框架,用于訓(xùn)練移動機(jī)器人快速導(dǎo)航,同時(shí)保持低碰撞率。該框架在訓(xùn)練過程中結(jié)合了深度強(qiáng)化學(xué)習(xí)(DRL)和課程學(xué)習(xí),讓機(jī)器人學(xué)會快速又安全的導(dǎo)航策略。

論文第一作者、博士生Chandra Kusuma Dewa解釋說,DRL可以使機(jī)器人通過反復(fù)嘗試各種動作,根據(jù)環(huán)境的當(dāng)前狀態(tài)(如機(jī)器人位置和障礙物放置)學(xué)習(xí)適當(dāng)?shù)膭幼?。此外,?dāng)前動作的執(zhí)行會在機(jī)器人達(dá)到目標(biāo)位置或與障礙物發(fā)生碰撞時(shí)立即停止,因?yàn)閷W(xué)習(xí)算法假設(shè)動作已經(jīng)被機(jī)器人成功執(zhí)行,該后果需要用于改進(jìn)策略。所提出的框架可以幫助維持學(xué)習(xí)環(huán)境的一致性,使機(jī)器人可以學(xué)習(xí)到更好的導(dǎo)航策略。
此外,TUT的AISL負(fù)責(zé)人Jun Miura教授介紹說:“該框架遵循課程學(xué)習(xí)策略,在訓(xùn)練情節(jié)開始時(shí)為機(jī)器人設(shè)定一個(gè)小的速度值。隨著集數(shù)的增加,機(jī)器人的速度會逐漸增加,這樣機(jī)器人就可以在訓(xùn)練環(huán)境中從最簡單的關(guān)卡(如動作緩慢的關(guān)卡)到最困難的關(guān)卡(如動作快速的關(guān)卡),逐漸學(xué)會快速又安全的導(dǎo)航這一復(fù)雜任務(wù)。”
由于訓(xùn)練階段的碰撞是不可取的,所以學(xué)習(xí)算法的研究通常是在模擬環(huán)境中進(jìn)行的。研究人員模擬了室內(nèi)環(huán)境進(jìn)行實(shí)驗(yàn)。實(shí)踐證明,所提出的框架在訓(xùn)練和驗(yàn)證過程中,與之前已有的其他框架相比,都能使機(jī)器人的導(dǎo)航速度更快,成功率最高。研究人員認(rèn)為,根據(jù)評估結(jié)果,該框架是有價(jià)值的,它可以廣泛應(yīng)用于任何需要快速但安全導(dǎo)航的領(lǐng)域的移動機(jī)器人的訓(xùn)練。
論文標(biāo)題為《A Framework for DRL Navigation With State Transition Checking and Velocity Increment Scheduling》,發(fā)表在《IEEE Access》上。