在本屆AI Day大會上,伊隆·馬斯克把“擎天柱”人形機器人當成了宣傳重點。沒錯,如果真能按馬斯克介紹的2萬美元價格實現(xiàn)大規(guī)模量產(chǎn),“擎天柱”也許真能給人類的生活和全社會帶來深遠影響。但演示文稿中相對不引人注目的另一部分,反而是最具份量的新消息。這就是Dojo超級計算機,而且有望比雙足機器人更快改變世界。

每個Dojo托架由6塊D1處理器tile組成。

每個特斯拉exapod由10臺機柜組成,每柜安裝有兩個托架。

特斯拉的“擎天柱”機器人也將受益于Dojo更快的AI模型處理能力。

每個Dojo托架由6塊D1處理器tile組成。
首先要強調(diào)的是,特斯拉本身是一家軟件公司,只是碰巧也制造與軟件配套的硬件方案。作為“軟件定義汽車”的核心力量,特斯拉率先向汽車當中引入了系統(tǒng)與連接性元素。這既降低了成本、增強了功能,也讓系統(tǒng)更新變得更加易行。事實上,雖然特斯拉在各個方面都處于領(lǐng)先地位,但其壓制各家競爭對手最強的手牌當數(shù)出色的軟件開發(fā)能力。
汽車目前最重要的新興能力就是自主駕駛功能,基本上屬于軟件問題。特斯拉的FSD beta因為把車主當成測試對象而受到爭議,但正如人類自己也沒法在不上路的情況下學會開車一樣,自動駕駛汽車同樣需要經(jīng)歷現(xiàn)實情況以制定應(yīng)對策略。開發(fā)自動駕駛系統(tǒng)的公司可以根據(jù)現(xiàn)實世界數(shù)據(jù)建立模擬與測試模型,借此加速整個訓練進程。但要讓FSD真正發(fā)揮作用,它還是需要針對真實場景下的混亂狀況接受測試,據(jù)此改進應(yīng)對策略。
這就是Dojo的舞臺所在。特斯拉已經(jīng)在使用由英偉達GPU驅(qū)動的大型超級計算機處理其FSD數(shù)據(jù),借此構(gòu)建起更強的自動駕駛模型。其中包含5760塊英偉達A100顯卡,安裝在總計720個節(jié)點當中,每節(jié)點含8個GPU。其性能達到1.8百億億次,成為世界上速度最快的超級計算機之一。該系統(tǒng)的一項重要任務(wù)就是“自動標記”,即為原始數(shù)據(jù)添加標簽,使其成為決策系統(tǒng)中的一部分。盡管自動駕駛汽車在運行過程中也會自主執(zhí)行部分識別,但大多數(shù)傳感器數(shù)據(jù)還是要跟預處理過的世界模型相匹配,再針對特定情況采取預定義的動作。就像人類也會憑借以往的經(jīng)驗判斷道路狀況、做出相應(yīng)反應(yīng)一樣,自動駕駛汽車同樣要利用AI模型中的駕駛經(jīng)驗決定如何行動。

每個特斯拉exapod由10臺機柜組成,每柜安裝有兩個托架。
Dojo承諾大幅加快這些模型的改進速度。在AI Day期間,特斯拉宣稱只需要四臺Dojo系統(tǒng)機柜,就能實現(xiàn)等同于72個傳統(tǒng)機架中4000個GPU所實現(xiàn)的自動標記性能。該公司對于自動駕駛模型訓練中的其他環(huán)節(jié)也做出了類似的性能提升承諾。特斯拉將通過所謂“exapod”集群部署Dojo,該集群由10臺機柜組成,而且計劃在帕洛阿爾托數(shù)據(jù)中心內(nèi)部署7套這樣的exapod集群。每個exapod的處理能力為1.1百億億次,面向特斯拉自動駕駛汽車(可能還包括「擎天柱」機器人)的AI模型進行換算之后,其處理能力將逼近8百億億次。
Dojo的設(shè)計思路與基于CPU或GPU的傳統(tǒng)超級計算機有很大區(qū)別。Dojo由眾多“tiles”組成,這與常規(guī)計算機CPU或GPU截然不同。CPU一般會將多個處理核心集成至單一芯片當中,每個處理核心都能高頻執(zhí)行復雜的軟件操作。但目前的主流CPU設(shè)計最多只能支持64個核心,而單節(jié)點最多可以容納2塊CPU和128個核心?;贑PU的超級計算機會將大量此類節(jié)點聚集在同一系統(tǒng)當中。今年上線的全球最快超級計算機Frontier就擁有9400個節(jié)點,對應(yīng)60萬2112個CPU核心。
現(xiàn)代GPU中的核心數(shù)量倒是非??鋸垺W罱l(fā)布的英偉達GeForce RTX 4090有16384個核心,特斯拉在基于GPU的最新超級計算機中使用的A100則包含6912個核心。但與CPU不同,GPU的核心只能執(zhí)行非常簡單的操作,且速度極快。因此,GPU才廣受AI和機器學習類應(yīng)用,特別是涉及構(gòu)建自動駕駛模型的程序的青睞。常見的節(jié)點最多可容納8個GPU,而特斯拉基于GPU的最新超級計算機集群共包含近4000萬個GPU核心。
Dojo的特別之處,在于它的D1 tile并非由多個小芯片所構(gòu)成,而是單一包含354個核心的大芯片,專門針對AI和機器學習設(shè)計而成。之后,一個托架可以容納6塊D1 tile外加配套計算硬件,每臺機柜可以安裝兩個這樣的托架。這樣算來,每機柜就將包含4248個核心,而由10臺機柜組成的exapod共擁有42480個核心?;贑PU的超級計算機在相同空間中的核心數(shù)量肯定達不到這么多,GPU在這方面具有碾壓性優(yōu)勢。而且由于Dojo專門針對AI和機器學習處理進行了優(yōu)化,所以在同等數(shù)據(jù)中心空間之內(nèi),它比傳統(tǒng)CPU或GPU超級計算機都要快上幾個數(shù)量級。

特斯拉的“擎天柱”機器人也將受益于Dojo更快的AI模型處理能力。
特斯拉的目標,是在2023年第一季度部署第一臺Dojo exapod,但其他六臺何時落地還不明確。當這種級別的處理性能安裝到位之后,相信特斯拉的FSD模型訓練將大大加快,由此推動自動駕駛汽車的顯著發(fā)展。目前全球已經(jīng)有16萬多特斯拉車主在參與FSD beta,為公司收集真實世界中的駕駛數(shù)據(jù)。而Dojo exapod將利用這些數(shù)據(jù)構(gòu)建起新的模型,向這16萬名用戶不斷推送系統(tǒng)更新,由此形成良性循環(huán)。如果效果不錯,項目將吸引到更多測試者的加入,從而進一步推動開發(fā)加速。
所以我們認為,特斯拉AI Day 2022大會上真正的重磅新聞應(yīng)該是Dojo,而絕不是什么“擎天柱”。在之前的AI Day 2021上,特斯拉公布了D1芯片的規(guī)格并亮出了早期樣品。一年過去,情況發(fā)生了很大變化。雖然馬斯克的宣傳經(jīng)常用力過猛,我們不可盡信,但假如Dojo真能在明年之內(nèi)開始交付,那預計特斯拉FSD beta將加快迭代與改進速度,自動駕駛的商業(yè)推廣也許真能超出我們以往的預期。