對(duì)于機(jī)器狗來說,想要在各種環(huán)境里如履平地,除了要有一雙靈敏的“眼睛”之外,最重要的是要有一顆聰明的“大腦”——在技術(shù)領(lǐng)域,這顆“大腦”叫做控制算法,可以讓機(jī)器狗在面對(duì)不同的情況時(shí),用不同的方式移動(dòng)、順利過關(guān)。
傳統(tǒng)的機(jī)器狗“大腦”一般有三種類型:第一種會(huì)先告訴好機(jī)器狗每一條腿的每一步該怎么走;
第二種是提前設(shè)計(jì)好一個(gè)方法,讓機(jī)器狗在實(shí)際行動(dòng)中套用這個(gè)方法、去找到最好的答案再走;
第三種是向真實(shí)的狗狗“取經(jīng)”,在狗身上綁上一堆傳感器來收集它移動(dòng)的數(shù)據(jù),再讓機(jī)器狗去學(xué)習(xí)真實(shí)的狗是怎么走的。
不過以上這些方法都存在著一個(gè)重要的問題:就是方案制定和實(shí)施過程中需要依賴大量的人類專家經(jīng)驗(yàn)。這就大大限制了機(jī)器狗“大腦“所能發(fā)揮的能力和觸達(dá)的邊界。
現(xiàn)在,百度團(tuán)隊(duì)為機(jī)器狗安上了一顆全新的“大腦”,讓機(jī)器狗能夠自己去主動(dòng)學(xué)習(xí)和訓(xùn)練,面對(duì)高難度的環(huán)境挑戰(zhàn)時(shí),自己就可以探索出用什么方法才能成功穿越了。
這顆新“大腦”里,最關(guān)鍵的部位叫基于自進(jìn)化步態(tài)生成器的強(qiáng)化學(xué)習(xí)框架——簡(jiǎn)單來說就是讓機(jī)器狗分兩步走:
第一步,機(jī)器狗能高效地通過“進(jìn)化”的方式學(xué)習(xí)出自己的行動(dòng)沿著什么軌跡走最合理,面對(duì)不同的環(huán)境要學(xué)習(xí)合適的“走法”。
第二步就要加上強(qiáng)化學(xué)習(xí)了,當(dāng)機(jī)器狗在面對(duì)當(dāng)前情況時(shí)使用了靈活的方式通過時(shí),就給予“獎(jiǎng)勵(lì)”;如果機(jī)器狗笨拙地摔倒了導(dǎo)致沒能完成任務(wù),就會(huì)給予“懲罰”;就像真實(shí)世界里我們訓(xùn)練狗狗一樣,機(jī)器狗通過訓(xùn)練之后也會(huì)形成條件反射,不斷學(xué)會(huì)在各種環(huán)境中怎樣才能走的更好、更穩(wěn)。
百度提出的這種新控制算法,也在實(shí)驗(yàn)中取得了出色成績(jī):相比別的機(jī)器狗,在上下樓梯、走斜坡、走獨(dú)木板、跳躍隔板等各種高難度的挑戰(zhàn)中,百度牌“大腦”的機(jī)器狗走得更加穩(wěn)當(dāng),而且是唯一一個(gè)能完成所有場(chǎng)景難關(guān)任務(wù)的。
最重要的是,百度還將這個(gè)寶貴的機(jī)器狗“大腦”進(jìn)行了開源,在百度飛槳的機(jī)器人倉庫中,你也可以使用這個(gè)“大腦”很方便地訓(xùn)練屬于你自己的機(jī)器狗,發(fā)揮更多的創(chuàng)意和想象。
面對(duì)未來,機(jī)器狗也許會(huì)前往人們還沒探索過的高山、峽谷,即使沒有人類專家的經(jīng)驗(yàn),只要擁有百度這顆聰明的“大腦”,機(jī)器狗都可以自己學(xué)習(xí)、輕松地翻山越嶺,把原本看不到的風(fēng)景和知識(shí)帶回給我們,看到世界的每一面。
一