?、诶铒w飛認(rèn)為,計算機視覺未來的重點方向就是具身智能;
③隨著人工智能的成熟,人工智能模型的建立正變得越來越容易,為人工智能創(chuàng)建數(shù)據(jù)集仍然是一個主要的痛點。
通過嵌入大語言模型,機器人變得更加智能,將視覺模型也堆上去,機器人會有怎樣的提升呢?
AI科學(xué)家李飛飛帶領(lǐng)的團隊日前發(fā)布了具身智能最新成果:大模型接入機器人,把復(fù)雜指令轉(zhuǎn)化成具體行動規(guī)劃,人類可以很隨意地用自然語言給機器人下達指令。更重要的是,通過將LLM(大語言模型)+VLM(視覺語言模型)結(jié)合在一起,機器人與環(huán)境進行交互的能力進一步提升,無需額外數(shù)據(jù)和訓(xùn)練便可完成任務(wù)。

李飛飛團隊將該系統(tǒng)命名為VoxPoser,相比傳統(tǒng)方法需要進行額外的預(yù)訓(xùn)練,這個方法讓機器人在零樣本的前提下完成了,解決了機器人訓(xùn)練數(shù)據(jù)稀缺的問題。
李飛飛是華裔女科學(xué)家、世界頂尖的AI專家,現(xiàn)為美國斯坦福大學(xué)終身教授、斯坦福大學(xué)人工智能實驗室主任,曾任谷歌副總裁和谷歌云首席科學(xué)家。前Open AI研究員、曾擔(dān)任特斯拉人工智能和自動駕駛視覺總監(jiān)的Andrej Karpathy便是其得意弟子。
李飛飛研究領(lǐng)域涉及計算機視覺、機器學(xué)習(xí)、深度學(xué)習(xí)、認(rèn)知神經(jīng)科學(xué)等,而近年來其關(guān)注的重點聚焦在AI智能體,即具身智能。在她看來,計算機視覺未來的重點方向就是具身智能,她認(rèn)為,具身AI可能會給我們帶來一次重大的轉(zhuǎn)變,從識別圖像等機器學(xué)習(xí)的簡單能力,轉(zhuǎn)變到學(xué)習(xí)如何通過多個步驟執(zhí)行復(fù)雜的類人任務(wù),如制作煎蛋卷。
▌不僅能聽懂人話還不需要額外數(shù)據(jù)和訓(xùn)練
回到VoxPoser,為什么說它是具身智能領(lǐng)域的一大突破?當(dāng)然不是因為李飛飛本人的學(xué)術(shù)地位。
VoxPoser解決了機器人訓(xùn)練的一大難題——數(shù)據(jù)稀缺。
VoxPoser的研究工作中,通過將LLM(大語言模型)+VLM(視覺語言模型)結(jié)合在一起,可實現(xiàn)“人類自然語言輸入——代碼生成反饋給機器人——機器人收到指令并規(guī)劃路徑——最終完成任務(wù)”。

用自然語言(打開上面的抽屜,小心花瓶!)給機器人下達指令后機器人完成
這個流程的意義在于,機器人的交互能力大大提高,通過LLM+VLM擁有了眼睛和理解力,相當(dāng)于擁有了人類一樣學(xué)習(xí)能力,即從現(xiàn)實環(huán)境中收集數(shù)據(jù)實時學(xué)習(xí),而不是依賴于提前錄入的數(shù)據(jù)庫“遇題找答案”。
李飛飛團隊也表示,這些操作均不需要進行任何訓(xùn)練或使用基本操作,只要掌握了以上基本流程,就可以完成任何給定任務(wù),實現(xiàn)了在真實世界中的零樣本機器人操縱。

可操作的物體是開放的,不用事先劃定范圍,開瓶子、按開關(guān)、拔充電線都能完成
在數(shù)據(jù)對機器學(xué)習(xí)的重要性和數(shù)據(jù)獲得的難度上,李飛飛有著十足的話語權(quán)。她在2006主導(dǎo)構(gòu)建的ImageNet數(shù)據(jù)集是世界首個用于計算機視覺算法的大規(guī)模人工標(biāo)注照片數(shù)據(jù)集,它包含了超千萬張有標(biāo)簽的圖像,可以用來訓(xùn)練復(fù)雜的機器學(xué)習(xí)模型,被譽為改變?nèi)斯ぶ悄軞v史的數(shù)據(jù)集。但這些數(shù)據(jù)的收集、處理工作異常艱巨,來自全球167個國家近5萬名工作者以眾包的方式花費三年時間才完成。
如何解決訓(xùn)練數(shù)據(jù)稀缺的難題,將成為具身智能乃至人工智能發(fā)展過程中的第一大攔路虎。
在2022年的一篇論文中,李飛飛旗幟鮮明地表示,隨著人工智能的成熟,人工智能模型的建立正變得越來越容易,包括亞馬遜、谷歌和微軟在內(nèi)的公司都提供自動機器學(xué)習(xí)(AutoML)產(chǎn)品,允許用戶在自己的數(shù)據(jù)上建立最先進的人工智能模型,而無需編寫任何代碼。但由于規(guī)劃和注釋的成本,為人工智能創(chuàng)建數(shù)據(jù)集仍然是一個主要的痛點,創(chuàng)建適當(dāng)?shù)臄?shù)據(jù)集和數(shù)據(jù)管道以開發(fā)和評估AI模型越來越成為最大的挑戰(zhàn)。
VoxPoser目前還存在著一定的局限性,它依賴于外部感知模塊,仍需要為嵌入的大模型手動輸入提示詞,仍需要通用的動力學(xué)模型來完成更豐富的動作等。
不過,VoxPoser已在學(xué)術(shù)界、業(yè)界引起熱議。一位前微軟研究員評價,這項研究走在了人工智能系統(tǒng)最重要和最復(fù)雜的前沿。另有DeepMind研究員、人形機器人初創(chuàng)公司Figure創(chuàng)始人等為這項研報“點贊”。
VoxPoser項目已開辟官網(wǎng),相關(guān)論文已上線,代碼即將推出。當(dāng)下李飛飛團隊只是邁出了第一步。這一框架將有何改進、未來會怎樣應(yīng)用在機器人產(chǎn)品上,我們拭目以待。