
懶得做飯的上班族和暗黑料理的大宗師們,還在為做飯發(fā)愁嗎?Maryland 大學(xué)正在研發(fā)的一款機(jī)器人,在看完網(wǎng)絡(luò)上的烹飪視頻后,就能把飯菜做出來。
如果要我給「想要機(jī)器人替我做的那些事」劃分一下層級(jí)的話,那么做晚飯的級(jí)別還應(yīng)該在洗衣服、代駕汽車和代寫所有文稿之上。就我們現(xiàn)有的機(jī)器人而言,可以做到的最好的程度,也只不過是依照預(yù)設(shè)的步驟把任務(wù)勉強(qiáng)完成而已。我們已經(jīng)見識(shí)過了很多款會(huì)做飯的機(jī)器人,但總的來說,它們都只是遵循提前編程好的命令進(jìn)行操作而已。告訴機(jī)器人要做什么以及怎么去做,是機(jī)器人技術(shù)中最棘手的環(huán)節(jié),特別是針對(duì)我們這些終端用戶而言,要是我們只需要坐下來,讓機(jī)器人自己看視頻來學(xué)做飯的話,可就太好了。
一項(xiàng)旨在實(shí)現(xiàn)這一愿景的項(xiàng)目,已經(jīng)由 Maryland 大學(xué)立項(xiàng)成功并著手研究了。而在本文中談到的研究?jī)?nèi)容,都來源于一篇論文,名為《機(jī)器人復(fù)雜操作學(xué)習(xí)計(jì)劃——以網(wǎng)絡(luò)視頻為來源渠道》。這篇論文切實(shí)地論述了機(jī)器人的視覺工程進(jìn)展:機(jī)器人首先觀察視頻中的人處理各項(xiàng)物品的方法,再思考得出那個(gè)人正在做什么、以及該怎么去做,最后通過機(jī)器人的復(fù)雜操作學(xué)習(xí)能力,將之前看到的動(dòng)作復(fù)原出來。
Michigan 大學(xué)有一套名為 YouCook 的數(shù)據(jù)集,涵蓋了 88 段在互聯(lián)網(wǎng)上完全公開的烹飪視頻。每一段視頻都添加有一段描述性的自然語言、每一幀都拍攝到了烹飪所需的各種物品、每個(gè)動(dòng)作都配有注解。利用這些數(shù)據(jù),Maryland 大學(xué)的研究人員就開發(fā)出了兩種卷積神經(jīng)網(wǎng)絡(luò):一種是對(duì)視頻里的物品進(jìn)行辨識(shí)和分類,另一種則是對(duì)視頻中廚師的動(dòng)作進(jìn)行辨識(shí)和分類。
當(dāng)物品被辨識(shí)為相似的類別時(shí),對(duì)動(dòng)作的辨識(shí)就顯得尤為重要了,因?yàn)闄C(jī)器人可能會(huì)設(shè)計(jì)具有不同的終端執(zhí)行裝置,用以進(jìn)行不同目標(biāo)的操作行為。此外,不同的動(dòng)作也可以提示機(jī)器人下一步該做什么。下面的這段話摘自論文:
動(dòng)作不僅涵蓋了純意義上其代表的信息,還可以被用來預(yù)測(cè)接下來的動(dòng)作,或是作為辨識(shí)其他動(dòng)作的特征之一。此外,動(dòng)作還涵蓋了這一小段動(dòng)作的開始信息和終止信息,從而可以被用來切割視頻。如果我們想讓機(jī)器人實(shí)施一個(gè)動(dòng)作,機(jī)器人就必須要習(xí)得「怎樣處理物品」的知識(shí),這樣才能設(shè)計(jì)出自己最終的執(zhí)行動(dòng)作。比方說,想象一個(gè)機(jī)器人,它有一對(duì)平行方向的抓握手和一只具有真空吸附技術(shù)的抓握手。如果命令是力性抓握的話,那么機(jī)器人應(yīng)該選擇真空吸附的抓握手以確保能穩(wěn)穩(wěn)抓住物品;但如果命令是精確抓握的話,那么平行方向的抓握手應(yīng)該是個(gè)更好的選擇。
在這個(gè)設(shè)定下,動(dòng)作就被分為六種類別:力性動(dòng)作和精確動(dòng)作,再按動(dòng)作的對(duì)象細(xì)分為小型物品、大型物品和球面物品。物品則同時(shí)被劃分為 48 個(gè)層級(jí),從「蘋果」到「打蛋器」不等。基于 YouCook 數(shù)據(jù)集的測(cè)試顯示,機(jī)器人系統(tǒng)的對(duì)所有動(dòng)作和物品的辨識(shí)精度達(dá)到了 80%,而 68% 的動(dòng)作和物品成功地被整合成了能讓機(jī)器人執(zhí)行的命令。
在未來的工作中,研究人員打算開發(fā)出更細(xì)化的分類方式(優(yōu)越于上述 6 種只按力性、精確性河物品大小進(jìn)行的分類法),并且利用新的分類法更好地預(yù)測(cè)視頻中的下一步操作。如此一來,我們以后就只需要在互聯(lián)網(wǎng)上找好視頻,就可以坐享其成,讓機(jī)器人為我們做飯了。