IT之家10月23日消息,英偉達(dá)日前公布了一個名為Eureka的AI系統(tǒng),該系統(tǒng)以O(shè)penAI的GPT-4為基礎(chǔ),能夠讓機器人執(zhí)行例如“轉(zhuǎn)筆”、“開抽屜”、“拿剪刀”、“雙手互傳球”等30多種復(fù)雜動作。


IT之家經(jīng)過查詢得知,英偉達(dá)研究院主導(dǎo)開發(fā)了Eureka,該AI系統(tǒng)可令開發(fā)者配合英偉達(dá)自家物理模擬軟件Isaac Gym進(jìn)行強化學(xué)習(xí)(reference learning)。
英偉達(dá)AI研究部門資深總監(jiān)Anima Anandkumar認(rèn)為,過去10年以來“強化式學(xué)習(xí)”雖然有所進(jìn)展,但仍存在不少挑戰(zhàn),例如“獎賞設(shè)計”等環(huán)節(jié),現(xiàn)在還停留在“試錯”階段。而目前英偉達(dá)公布的Eureka,則是為執(zhí)行困難的任務(wù)而設(shè)計,結(jié)合生成式AI與強化式學(xué)習(xí)算法,進(jìn)行首次嘗試。
Eureka利用GPT-4生成出的“獎賞設(shè)計”方案可助力機器人的“試錯(trial-and-error)”學(xué)習(xí),并能夠起到接替80%人類專家的任務(wù),從而使機器人平均訓(xùn)練效率提升超過50%。
據(jù)悉,在Eureka生成“獎賞設(shè)計”方案時,開發(fā)者不需要額外輸入任務(wù)提示或撰寫預(yù)定義的獎賞范本,再結(jié)合人工修正獎賞,最終使機器人動作更符合開發(fā)人員的意圖。
該AI系統(tǒng)配合Issac Gym時,可利用GPU加速進(jìn)行模擬,并針對大量批次的候選回饋快速評估品質(zhì),從而提升訓(xùn)練效率,并根據(jù)訓(xùn)練結(jié)果的作出統(tǒng)計摘要,從而改良“獎賞方案”,在提升機器人反應(yīng)水平的同時,令A(yù)I系統(tǒng)適用的機器人類型更為廣泛,例如“走獸型”(四足)、“人型(兩足)”、“四軸飛行器”、手臂型等機器人都可以搭載Eureka系統(tǒng)。
英偉達(dá)將Eureka進(jìn)行了“開源靈敏性標(biāo)竿測試”,在評估20種任務(wù)訓(xùn)練結(jié)果后,得出了令人滿意的結(jié)果。
據(jù)此,英偉達(dá)認(rèn)為Eureka可實現(xiàn)靈巧的機器人控制,并為動畫作者提供“生成逼真實體動作”的新方法。