去年年底,英偉達(dá)“網(wǎng)紅研究員”、OpenAI第一個(gè)實(shí)習(xí)生Jim Fan發(fā)推文稱,除了大模型,2024年最重要的就是機(jī)器人,我們距離“具身智能”的ChatGPT時(shí)刻大約還有三年時(shí)間。
Jim指出,長(zhǎng)期以來,人們深受“莫拉維克悖論”(Moravec's paradox)的困擾,這是一種和人們直覺相悖的現(xiàn)象,即“人類覺得容易的任務(wù)對(duì)人工智能來說卻極其困難,反之亦然”。
但是Jim樂觀地預(yù)測(cè),2024年將成為人工智能界全面崛起反擊這一悖論的元年,Jim表示“我們不會(huì)立即獲勝,但我們將走上獲勝之路”。
同時(shí),Jim列舉了2023年關(guān)于未來機(jī)器人的基礎(chǔ)模型和平臺(tái)的發(fā)展:
1、以機(jī)械臂作為物理輸入/輸出設(shè)備的多模態(tài)LLM:VIMA、PerAct、RvT(英偉達(dá))、RT-1、RT-2、PaLM-E(谷歌)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、CMU)等。
2、彌合 System 1(負(fù)責(zé)低級(jí)控制)和 System 2(負(fù)責(zé)高級(jí)推理)之間差距的算法(使得系統(tǒng)能夠利用高級(jí)推理進(jìn)行決策和理解,并將這些決策轉(zhuǎn)化為實(shí)際的操作和控制):Eureka(英偉達(dá))、Code as Policies(谷歌)等。
3、在強(qiáng)大硬件方面取得的驚人進(jìn)展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree等。
4、數(shù)據(jù)一直是機(jī)器人技術(shù)的致命弱點(diǎn),研究界正在共同策劃下一個(gè) ImageNet(人工智能深度學(xué)習(xí)取得突破的關(guān)鍵項(xiàng)目),如開放Open X-Embodiment (RT-X)數(shù)據(jù)集。雖然數(shù)據(jù)集還不夠多樣化,但邁出了重要的一步。
5、模擬和合成數(shù)據(jù)將在解決機(jī)器人靈巧性乃至整個(gè)計(jì)算機(jī)視覺問題上發(fā)揮關(guān)鍵作用。
- (1)NVIDIA Isaac可以以比實(shí)時(shí)快1000倍的速度模擬現(xiàn)實(shí),傳入的數(shù)據(jù)流隨著計(jì)算規(guī)模的增加而擴(kuò)展;
- (2)通過硬件加速的光線追蹤可以實(shí)現(xiàn)逼真的效果。逼真的渲染還帶有免費(fèi)的地面真實(shí)注釋,如分割、深度、3D姿勢(shì)等;
- (3)模擬器甚至可以將真實(shí)世界的數(shù)據(jù)擴(kuò)大,創(chuàng)造更大的數(shù)據(jù)集,從而大大減少昂貴的人工演示工作。MimicGen(英偉達(dá))是一個(gè)典型的例子。