對于機器狗來說,想要在各種環(huán)境里如履平地,除了要有一雙靈敏的“眼睛”之外,最重要的是要有一顆聰明的“大腦”——在技術(shù)領(lǐng)域,這顆“大腦”叫做控制算法,可以讓機器狗在面對不同的情況時,用不同的方式移動、順利過關(guān)。
傳統(tǒng)的機器狗“大腦”一般有三種類型:第一種會先告訴好機器狗每一條腿的每一步該怎么走;
第二種是提前設(shè)計好一個方法,讓機器狗在實際行動中套用這個方法、去找到最好的答案再走;
第三種是向真實的狗狗“取經(jīng)”,在狗身上綁上一堆傳感器來收集它移動的數(shù)據(jù),再讓機器狗去學(xué)習(xí)真實的狗是怎么走的。
不過以上這些方法都存在著一個重要的問題:就是方案制定和實施過程中需要依賴大量的人類專家經(jīng)驗。這就大大限制了機器狗“大腦“所能發(fā)揮的能力和觸達的邊界。
現(xiàn)在,百度團隊為機器狗安上了一顆全新的“大腦”,讓機器狗能夠自己去主動學(xué)習(xí)和訓(xùn)練,面對高難度的環(huán)境挑戰(zhàn)時,自己就可以探索出用什么方法才能成功穿越了。
這顆新“大腦”里,最關(guān)鍵的部位叫基于自進化步態(tài)生成器的強化學(xué)習(xí)框架——簡單來說就是讓機器狗分兩步走:
第一步,機器狗能高效地通過“進化”的方式學(xué)習(xí)出自己的行動沿著什么軌跡走最合理,面對不同的環(huán)境要學(xué)習(xí)合適的“走法”。
第二步就要加上強化學(xué)習(xí)了,當(dāng)機器狗在面對當(dāng)前情況時使用了靈活的方式通過時,就給予“獎勵”;如果機器狗笨拙地摔倒了導(dǎo)致沒能完成任務(wù),就會給予“懲罰”;就像真實世界里我們訓(xùn)練狗狗一樣,機器狗通過訓(xùn)練之后也會形成條件反射,不斷學(xué)會在各種環(huán)境中怎樣才能走的更好、更穩(wěn)。
百度提出的這種新控制算法,也在實驗中取得了出色成績:相比別的機器狗,在上下樓梯、走斜坡、走獨木板、跳躍隔板等各種高難度的挑戰(zhàn)中,百度牌“大腦”的機器狗走得更加穩(wěn)當(dāng),而且是唯一一個能完成所有場景難關(guān)任務(wù)的。
最重要的是,百度還將這個寶貴的機器狗“大腦”進行了開源,在百度飛槳的機器人倉庫中,你也可以使用這個“大腦”很方便地訓(xùn)練屬于你自己的機器狗,發(fā)揮更多的創(chuàng)意和想象。
面對未來,機器狗也許會前往人們還沒探索過的高山、峽谷,即使沒有人類專家的經(jīng)驗,只要擁有百度這顆聰明的“大腦”,機器狗都可以自己學(xué)習(xí)、輕松地翻山越嶺,把原本看不到的風(fēng)景和知識帶回給我們,看到世界的每一面。
一