國際上,科技圈大佬馬斯克、黃仁勛等積極推動,谷歌發(fā)布 RT 系列機器人模型,RT - H 任務(wù)成功率顯著提升;英偉達(dá)成立 GEAR 實驗室,推出 Project GR00T 及 Jetson Thor 平臺;微軟、OpenAI 也投身浪潮。特斯拉擎天柱機器人更是大顯身手,從日?,嵤碌焦I(yè)應(yīng)用,潛力無限。
國內(nèi)同樣呈噴薄之勢,2024 年上半年超 50 家具身智能概念創(chuàng)業(yè)公司涌現(xiàn),融資活躍。其中,如智元機器人、星塵智能、逐際動力等在人形機器人研發(fā)成果斐然。
具身智能之所以備受矚目,在于其擁有更強認(rèn)知與決策力,能在復(fù)雜環(huán)境自如交互、執(zhí)行任務(wù),打破機械局限,有望顛覆計算機、智能手機、新能源汽車等產(chǎn)品。
由此,具身智能將數(shù)字世界與物理世界相連,未來必將深刻重塑各行各業(yè),開啟一個充滿無限可能的全新智能時代。據(jù)36氪研究院測算,我國具身智能的市場規(guī)模已從2018年的2923億元增長至2023年的7487億元,年復(fù)合增長率高達(dá)20.7%,并且有望在2026年突破萬億。
數(shù)據(jù)瓶頸:制約具身智能發(fā)展的枷鎖
然而,在這一片欣欣向榮的背后,具身智能行業(yè)的發(fā)展之路卻并非坦途。當(dāng)前,行業(yè)面臨著諸多棘手的痛點,尤其是在數(shù)據(jù)訓(xùn)練與仿真這一關(guān)鍵環(huán)節(jié),存在著嚴(yán)重的不足。
在具身智能領(lǐng)域,數(shù)據(jù)對于訓(xùn)練深度學(xué)習(xí)模型以增強和優(yōu)化機器人能力至關(guān)重要。這對系統(tǒng)性能與適應(yīng)性起著決定性作用。開發(fā)具身智能系統(tǒng)需要海量且高質(zhì)量的數(shù)據(jù)集,這些數(shù)據(jù)需涵蓋機器人及其所處環(huán)境中的多樣化真實世界信息。
實際情況卻是,從機器人及其環(huán)境中捕獲此類數(shù)據(jù)既極具挑戰(zhàn)性,又伴隨著高昂的成本。機器人數(shù)據(jù)相較于傳統(tǒng)的文字和圖片數(shù)據(jù)顯得尤為稀缺,除圖像數(shù)據(jù)相對較易獲取外,諸如摩擦、壓力、重量等物理知識數(shù)據(jù)的獲取難度極大。
同時,具身智能的數(shù)據(jù)涉及機器人與其動態(tài)環(huán)境之間的復(fù)雜互動,這些物理互動還常常存在于多樣且常常不可預(yù)測的環(huán)境中。鑒于獲取大量高質(zhì)量和多樣化的數(shù)據(jù)成本過高,基于數(shù)字孿生的仿真已經(jīng)證明是一個有效的解決方案。
通過建立仿真平臺對于具身智能至關(guān)重要,因為它們提供了成本效益高的實驗方式,確保了通過模擬潛在的危險場景的安全性,為測試在各種環(huán)境中提供了可擴(kuò)展性,快速原型設(shè)計的能力,對更廣泛的研究社區(qū)的可訪問性,精確研究的受控環(huán)境,用于訓(xùn)練和評估的數(shù)據(jù)生成,以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn)。
世界模型:解決數(shù)據(jù)瓶頸問題的全新思路
對于制約具身智能發(fā)展的數(shù)據(jù)瓶頸,2024 年,AI 教母李飛飛發(fā)布的空間智能及相關(guān)大世界模型,猶如一顆重磅炸彈,在自動駕駛及更廣泛的具身智能應(yīng)用場景中展現(xiàn)出了巨大的發(fā)展與應(yīng)用潛力,為解決數(shù)據(jù)瓶頸問題提供了全新的思路。
與生成式 AI 工具生成的 2D 內(nèi)容不同,李飛飛的世界模型開啟了從數(shù)字世界向物理世界的跨越征程,實現(xiàn)了從一維數(shù)字智能向三維空間智能的重大轉(zhuǎn)變。按照李飛飛的闡釋,空間智能意味著 AI 能夠在三維空間與時間維度中,以立體的視角進(jìn)行感知、推理以及行動,并切實地與現(xiàn)實世界產(chǎn)生互動交流。
世界模型在具身智能的潛在應(yīng)用范圍極為廣泛。以自動駕駛為例,世界模型可以實時精準(zhǔn)地把握道路狀況,并對其變化趨勢進(jìn)行精確預(yù)測,重點聚焦于對環(huán)境的瞬時感知以及復(fù)雜變化趨勢的預(yù)估判斷。在人形機器人領(lǐng)域,世界模型對于導(dǎo)航、物體識別檢測以及任務(wù)規(guī)劃等關(guān)鍵任務(wù)起著不可或缺的作用,可以精準(zhǔn)地解析外部動態(tài)環(huán)境,并構(gòu)建具有交互性和實體體驗感的環(huán)境場景。而在虛擬社會系統(tǒng)模擬方面,世界模型可以敏銳地捕捉并預(yù)測更為抽象的行為動態(tài),諸如社會交往互動以及人類決策制定等過程。
極佳科技:具身智能的重要引擎和加速器
由于地緣政治影響,國內(nèi)率先布局世界模型和空間智能方向的先鋒企業(yè),可對標(biāo)李飛飛World Labs,進(jìn)行國產(chǎn)替代的的極佳科技引發(fā)廣大關(guān)注度。該公司聚焦于視頻生成與 4D 世界模型在空間智能領(lǐng)域的探索與拓展,并已在機器人與元宇宙兩大領(lǐng)域的技術(shù)及商業(yè)層面均收獲顯著成果,收獲了知名度與口碑。
于自動駕駛領(lǐng)域,極佳科技今年10月聯(lián)合中科院自動化所、理想汽車、北京大學(xué)、慕尼黑工業(yè)大學(xué)等重磅力量,推出DriveDreamer4D。此乃全球首個借助世界模型優(yōu)化 4D 駕駛場景重建成效的創(chuàng)新成果,能顯著提升多種自動駕駛 4D 重建算法效能,在用戶調(diào)研實驗里,超 80%的高偏好投票彰顯其卓越性能,為邁向空間智能與 4D 世界模型筑牢根基。
DriveDreamer4D 作為駕駛場景的數(shù)據(jù)強援,可生成豐富多元視角數(shù)據(jù),涵蓋變道、加減速等動態(tài)場景,極大增強閉環(huán)仿真能力。它以世界模型為核心數(shù)據(jù)引擎,基于真實駕駛數(shù)據(jù)合成全新軌跡視頻,例如精準(zhǔn)模擬變道場景。不僅能優(yōu)化 PVG、S3Gaussian、Deformable - GS 等重建算法的圖像渲染品質(zhì),還可提升駕駛前景(車輛)與背景(車道線)的時空連貫性。
該技術(shù)在實際駕駛場景模擬中表現(xiàn)卓越,全面精準(zhǔn)地復(fù)刻車輛行駛的物理動態(tài)、交通規(guī)則以及各類道路使用者的行為變化。無論是前方車輛的軌跡預(yù)判,還是行人意圖的洞察,甚至是道路與天氣狀況等環(huán)境因素的綜合考量,基于極佳科技 4D 數(shù)據(jù)引擎訓(xùn)練的自動駕駛算法都能迅速反應(yīng),防患于未然,為駕乘安全保駕護(hù)航。
憑借技術(shù)領(lǐng)先優(yōu)勢,極佳科技與地平線、億咖通等頭部主機廠締結(jié)深度定點合作,此乃業(yè)界對其技術(shù)實力的權(quán)威背書。在近期現(xiàn)代汽車集團(tuán)創(chuàng)新計劃頒獎典禮上,極佳視界憑借 4D 世界模型與視頻生成領(lǐng)域的創(chuàng)新成果,榮膺“燈塔”創(chuàng)新開放計劃“創(chuàng)新企業(yè)獎”。
鑒于自動駕駛是具身智能的關(guān)鍵落地場景,且二者在大腦構(gòu)造、開放場景與路徑規(guī)劃以及算法層面的高度相似性與關(guān)聯(lián)性,在自動駕駛領(lǐng)域成功構(gòu)建并驗證世界模型且獲頭部廠商認(rèn)可的極佳科技,無疑在具身智能這片廣袤藍(lán)海中擁有發(fā)展的無限潛力與廣闊前景,有望成為推動具身智能行業(yè)蓬勃發(fā)展的重要引擎與加速器。