
GPU芯片概述
GPU定義和主要組成
GPU(GraphicsProcessingUnit):一般稱為圖形處理器,被廣泛用于個人電腦、工作站、移動設備、游戲機、嵌入式系統(tǒng)中做圖像和圖形相關運算工作。GPU結構:GPU是一個異構的多核處理器芯片,針對圖形圖像處理優(yōu)化。通常包括運算單元、L0/L1/L2緩存、Warp調度器、存取單元、分配單元、寄存器堆、PCIe總線接口、顯卡互聯(lián)單元等組件。GPU工作方式:GPU并不是一個獨立運行的計算平臺,需要通過PCIe總線與CPU連接在一起來協(xié)同工作,可以看作CPU的協(xié)處理器。
GPU相較于CPU并行計算能力更強
CPU當中運算單元占據面積相對較小。CPU硬件設計過程中為了實現(xiàn)低延遲增加了存儲單元和控制單元的復雜度,運算單元在GPU中占據面積相對較小,以IntelCorei73960X為例,其運算單元面積(6*21.4mm2)大致占總芯片面積(435mm2)的30%。CPU的并行計算能力相對較弱。CPU通過指令級并行、數(shù)據級并行也可以提升其并行計算能力,但是帶來的提升也是有限的。單核CPU性能逐步逼近物理極限。由于CPU受到“能耗墻”的限制,CPU主頻難以持續(xù)提升,單核CPU性能逐步逼近物理極限,采用多核CPU的策略一定程度緩解了CPU性能提升的制約,當前大數(shù)據和人工智能帶來了海量的數(shù)據,CPU已經無法跟上多源異構數(shù)據的爆炸性增長。
GPU具有數(shù)量眾多的運算單元,采用極簡的流水線進行設計,適合計算密集、易于并行的程序。CPU的運算單元數(shù)目相對較少,單一運算核心的運算能力更強,采用分支預測、寄存器重命名、亂序執(zhí)行等復雜的處理器設計,適合相對復雜的串行運算。GPU設計過程中側重吞吐優(yōu)化,具備強大的內存訪問帶寬。CPU設計過程中側重時延優(yōu)化,包含復雜的多級緩存(L1/L2/L3)和邏輯控制單元。CPU承擔運算核心和控制中心的地位,GPU一般作為協(xié)處理器負責圖形渲染和并行計算。
GPU的核心功能一:圖形渲染
GPU憑借其較強的并行計算能力,已經成為個人電腦中圖像渲染的專用處理器。圖形渲染具體實現(xiàn)要通過五階段:頂點著色、形狀裝配、光柵化、紋理填充著色、測試與混合。GPU渲染流程:三維圖像信息輸入GPU后,讀取3D圖形外觀的頂點數(shù)據后,1)在流處理器中構建3D圖形的的整體骨架,即頂點處理;2)由光柵化處理單元把矢量圖形轉化為一系列像素點,即光柵化操作;3)在紋理映射單元實現(xiàn)紋理填充;4)在流處理器中完成對像素的計算和處理,即著色處理;5)在光柵化處理單元中實現(xiàn)測試與混合任務。至此,實現(xiàn)一個完整的GPU渲染流程。
GPU的核心功能二:通用計算
2003年,GPGPU(GeneralPurposecomputingonGPU,基于GPU的通用計算)的概念首次被提出,意指利用GPU的計算能力在非圖形處理領域進行更通用、更廣泛的科學計算。GPGPU概念的提出,為GPU更為廣泛的應用開拓了思路,GPGPU在傳統(tǒng)GPU的基礎上進行了優(yōu)化設計,部分GPGPU會去除GPU中負責圖形處理加速的硬件組成,使之更適合高性能并行計算。GPGPU在數(shù)據中心被廣泛地應用在人工智能和高性能計算、數(shù)據分析等領域。GPGPU的并行處理結構非常適合人工智能計算,人工智能計算精度需求往往不高,INT8、FP16、FP32往往可以滿足大部分人工智能計算。GPGPU同時可以提供FP64的高精度計算,使得GPGPU適合信號處理、三維醫(yī)學成像、雷達成像等高性能計算場景。
微架構設計是GPU性能提升的關鍵所在
GPU微架構(MicroArchitecture)是兼容特定指令集的物理電路構成,由流處理器、紋理映射單元、光柵化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數(shù)主要用于繪制各種圖形及像素、實現(xiàn)光影處理、3D坐標變換等過程,期間涉及大量同類型數(shù)據(如圖像矩陣)的密集、獨立的數(shù)值計算,而GPU結構中眾多重復的計算單元就是為適應于此類特點的數(shù)據運算而設計的。微架構的設計對GPU性能的提升發(fā)揮著至關重要的作用,也是GPU研發(fā)過程中最關鍵的技術壁壘。微架構設計影響到芯片的最高頻率、一定頻率下的運算能力、一定工藝下的能耗水平,是芯片設計的靈魂所在。英偉達H100相比于A100,1.2倍的性能提升來自于核心數(shù)目的提升,5.2倍的性能提升來自于微架構的設計。
GPU市場概述
GPU市場規(guī)模與細分
根據VerifiedMarketResearch的預測,2020年GPU全球市場規(guī)模為254億美金,預計到2028年將達到2465億美金,行業(yè)保持高速增長,CAGR為32.9%,2023年GPU全球市場規(guī)模預計為595億美元。GPU按應用端劃分為PCGPU、服務器GPU、智能駕駛GPU、移動端GPU。PCGPU可以進一步劃分為獨立顯卡和集成顯卡。獨立顯卡主要用作圖形設計和游戲,對性能的要求比較高,主要的廠商包括英偉達和AMD;集成顯卡通常用在對圖形處理性能需求不高的辦公領域,主要產商包括Intel和AMD。服務器GPU通常應用在深度學習、科學計算、視頻編解碼等多種場景,主要的廠商包括英偉達和AMD,英偉達占主導地位。在自動駕駛領域,GPU通常用于自動駕駛算法的車端AI推理,英偉達占據主導地位。
PC顯卡市場迎來至暗時刻后的光明
獨立顯卡市場開始逐漸回暖。根據JonPeddieResearch的數(shù)據,2022年獨立GPU出貨量下降至3808萬臺,同比下降22.5%,22Q3單季度出貨690萬臺,同比下降45.7%,是十年以來最大的一次下滑,獨立顯卡出貨情況22Q4開始逐漸轉暖。集成顯卡出貨情況仍然不容樂觀。2022年集成GPU出貨量為2.83億臺,同比下滑29.8%。疫情期間的居家辦公需求帶動了筆記本電腦的消費增長,集成顯卡的購買激增一定程度上過早消耗了市場需求,后疫情時代,筆記本電腦端需求減弱疊加供應商的過剩庫存導致集成顯卡出貨不斷走低。我們認為2022年獨立顯卡出貨遭遇巨大下滑的原因有三點:一、受宏觀經濟影響,個人電腦市場處于下行周期;二、部分獨立GPU參與虛擬貨幣挖礦,以太坊合并對獨立GPU出貨造成巨大沖擊;三、下游板卡廠商開啟降庫存周期。
GPU在數(shù)據中心的應用蘊藏巨大潛力
在數(shù)據中心,GPU被廣泛應用于人工智能的訓練、推理、高性能計算(HPC)等領域。預訓練大模型帶來的算力需求驅動人工智能服務器市場快速增長。巨量化是人工智能近年來發(fā)展的重要趨勢,巨量化的核心特點是模型參數(shù)多,訓練數(shù)據量大。Transformer模型的提出開啟了預訓練大模型的時代,大模型的算力需求提升速度顯著高于其他AI模型,為人工智能服務器的市場增長注入了強勁的驅動力。根據Omdia數(shù)據,人工智能服務器是服務器行業(yè)中增速最快的細分市場,CAGR為49%。戰(zhàn)略需求推動GPU在高性能計算領域穩(wěn)定增長。高性能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、海量數(shù)據處理等業(yè)務的計算需求,如科學研究、氣象預報、計算模擬、軍事研究、生物制藥、基因測序等,極大縮短了海量計算所用的時間,高性能計算已成為促進科技創(chuàng)新和經濟發(fā)展的重要手段。
人工智能芯片的引領者——英偉達
GPU領域龍頭英偉達發(fā)展史
英偉達(NVIDIA)創(chuàng)立于1993年,是一家專注于智能芯片設計和圖形處理技術的半導體公司。公司產品應用領域包括游戲、數(shù)據中心、專業(yè)可視化、自動駕駛等,針對具體場景特點,英偉達推出了一系列特定優(yōu)化的芯片和服務器,同時積極打造相應的軟件生態(tài),成為GPU領域的龍頭企業(yè)。公司當前不僅滿足于芯片設計廠商的定位,在芯片、服務器等硬件設施之上,開發(fā)CUDA、DOCA等基礎軟件架構,不斷豐富其軟件生態(tài),形成了軟件業(yè)務的全棧式解決方案,最終在應用層面上提供AI計算、高性能計算、自動駕駛、云游戲、元宇宙等眾多計算服務,公司已從一家GPU公司成功轉型計算平臺企業(yè)。
公司盈利能力歷史表現(xiàn)優(yōu)異
公司FY2023年實現(xiàn)營業(yè)收入269.74億美元,與FY2022年同比基本持平。數(shù)據中心業(yè)務保持快速增長趨勢,游戲業(yè)務、專業(yè)可視化業(yè)務營收相對下滑。FY23Q4營業(yè)收入為60.5億美元,同比下降21%,但是環(huán)比提升2%,收入業(yè)績的恢復性增長主要得益于游戲業(yè)務的快速復蘇。公司FY24Q1營收指引為65億,整體業(yè)務重回環(huán)比正增長階段。FY2023年GAAP凈利潤43.68億美元,同比下降55.21%。第四季度GAAP凈利潤6.8億美元,同比下降72%。FY2023財年游戲顯卡以及數(shù)據中心計算芯片的需求相對疲軟,供大于求帶來了較高的庫存水平,導致了大額的資產減值損失,凈利潤水平有所下滑。
2022年公司營收結構發(fā)生較大變化
公司FY2023營收結構發(fā)生較大變化,數(shù)據中心業(yè)務成為主要收入來源,占比55.63%,游戲業(yè)務占比下滑。FY2023數(shù)據中心業(yè)務營收達150億美金,同比增長55.6%,該業(yè)務是公司的未來成長引擎,得益于人工智能算力的需求高增,業(yè)務保持中長期良好增長態(tài)勢,F(xiàn)Y23Q4受云廠商資本開支影響,以及中國市場需求相對疲軟,營收略有下滑。FY2023游戲業(yè)務營收為90.6億美金,同比下滑27.3%,營收占比為33.6%。FY23Q2后,受顯卡市場沖擊,游戲業(yè)務營收連續(xù)兩個季度下滑,F(xiàn)Y23Q4得到恢復性增長。FY2023專業(yè)可視化業(yè)務營收達15.44億美金,同比下滑26.7%。FY2023汽車業(yè)務營收達到9.03億美元,同比增長59.5%,主要受益于自動駕駛解決方案的銷售增長,營收占比從2021年的2.1%上升到3.35%。
公司游戲GPU具有顯著的技術優(yōu)勢
GeForceRTX40系列顯卡實現(xiàn)游戲性能的大幅提升。GeForceRTX40系列顯卡采用英偉達AdaLovelace架構,采用第三代RTCore技術實現(xiàn)全景光追性能提升至4倍,DLSS3技術讓渲染幀率成倍增加,配合著色器執(zhí)行重排序技術、NvidiaReflex等技術使其性能相較于Ampere架構提升至兩倍以上。
公司逐步成為全球AI芯片領域的主導者
英偉達的通用計算芯片具備優(yōu)秀的硬件設計,通過CUDA架構等全棧式軟件布局,深度挖掘芯片硬件的性能極限,在各類下游應用領域中,均推出了高性能的軟硬件組合,逐步成為全球AI芯片領域的主導者。早期英偉達在數(shù)據中心的產品布局主要為GPU加速服務器。通過不同型號的GPU加速器與CPU、DPU等其他硬件產品組合以及軟件的開發(fā),英偉達還推出了面向高性能計算(HPC)、人工智能(DGX)、邊緣計算(EGX)等領域中的硬件產品。
全球第二大GPU廠商——AMD
AMD簡介
美國超威半導體公司(AdvancedMicroDevices,AMD)創(chuàng)立于1969年,專門為計算機、通信和消費電子行業(yè)提供各類微處理器以及提供閃存和低功率處理器方案,公司是全球領先的CPU、GPU、APU和FPGA設計廠商,掌握中央處理器、圖形處理器、閃存、芯片組以及其他半導體技術,具體業(yè)務包括數(shù)據中心、客戶端、游戲、嵌入式四大部分。公司采用Fabless研發(fā)模式,聚焦于芯片設計環(huán)節(jié),制造和封測環(huán)節(jié)則委托給全球專業(yè)的代工廠處理。目前全球CPU市場呈Intel和AMD寡頭壟斷格局,Intel占主導地位。在獨立GPU市場中,主要是英偉達(NVIDIA)、AMD進行角逐,Intel目前憑借其銳炬XeMAX產品也逐步進入獨立GPU市場。
AMD保持良好的增長態(tài)勢
得益于公司數(shù)據中心、嵌入式業(yè)務的快速增長,公司營收和凈利潤實現(xiàn)規(guī)模提升。2022年公司營業(yè)收入236億美元,同比增長43.6%;2022Q4公司營收55.99億美元,同比增長16%。2022年公司凈利潤13.2億美元,同比下降58.25%;2022Q4凈利潤0.21億美元,同比下降98%,主要原因系收購賽靈思的無形資產攤銷導致凈利潤下滑。公司預期2023Q1營收53億美元,同比下滑10%??蛻艉陀螒虻募毞质袌鲱A計會同比下降,部分被嵌入式和數(shù)據中心細分市場增長所抵消。
AMD分業(yè)務營收情況
公司營收主要包括四部分。數(shù)據中心業(yè)務主要包括用于數(shù)據中心服務器的各類芯片產品;客戶端業(yè)務主要包括用于PC的各類處理器芯片;游戲業(yè)務主要包括獨立GPU及其他游戲產品開發(fā)服務;嵌入式業(yè)務主要包括適用于邊緣計算的各類嵌入式計算芯片。公司數(shù)據中心、嵌入式業(yè)務的營收增長較快。2022年,公司數(shù)據中心業(yè)務收入60.43億美元,營收占比25.60%;客戶端業(yè)務收入62.01億美元,營收占比26.27%;游戲業(yè)務收入68.05億美元,營收占比28.83%;嵌入式業(yè)務收入45.52億美元,營收占比19.29%。
AMDROCm計算生態(tài)
AMDROCm是RadeonOpenCompute(platform)的縮寫,是2015年AMD公司為了對標CUDA生態(tài)而開發(fā)的一套用于HPC和超大規(guī)模GPU計算提供的開源軟件開發(fā)平臺。ROCm之于AMDGPU相當于CUDA之于英偉達GPU。ROCm是一個完整的GPGPU生態(tài)系統(tǒng),在源碼級別上實現(xiàn)CUDA程序支持。ROCm在整體架構上與CUDA類似,實現(xiàn)了主要模塊的對齊,封裝層次較CUDA更為復雜。ROCm由以下組件組成:HIP程序、ROC運行庫、ROCm庫、ROCm核心驅動,ROCm支持各類主流的深度學習框架,例如Tensorflow、PyTorch、Caffe等。
移動GPU廠商
移動端GPU采用不同的架構設計
移動端GPU在設計過程中受到能耗和體積方面的限制,都是以集成的SOC芯片形式出現(xiàn)在移動端,被廣泛應用在手機、平板電腦、VR、AR設備、物聯(lián)網設備當中。SOC芯片中,CPU、GPU共享有限的內存帶寬,頻繁使用內存帶寬會造成較大的能耗,通過采用分塊渲染架構(TilebasedRendering,TBR)可以有效減少帶寬消耗,其核心思想是:將幀緩沖分割為一小塊一小塊,然后在片上高速內存逐塊進行渲染,與PC端采用的及時渲染架構(IMR)相比,極大的減少了DRAM的訪問次數(shù),從而降低了整體能耗。分塊延遲渲染架構(TBDR)采用影藏面消除(HSR),不會渲染被遮擋的物體表面片,渲染效率進一步提升。
高通在旗艦Android智能手機SoC市場中保持領先
高通自研GPU源自2009年收購于AMD的移動GPUImageon系列,后改名為Adreno,并集成到自家驍龍SoC中,發(fā)展至今已到“Adreno-7”系列,在全球旗艦Android智能手機SoC市場中保持領先。據IDC報告顯示,2022Q3全球手機市場出貨量下滑8%,高通手機業(yè)務營收仍實現(xiàn)40%增長;CounterpointResearch研究顯示公司在AP/SoC芯片市場的份額從過往的25%左右提升至30%左右,穩(wěn)占高端安卓市場。采用驍龍8+的OEM廠商和品牌包括華碩ROG、黑鯊、榮耀、聯(lián)想、Motorola、努比亞、一加、OPPO、OSOM、realme、紅魔、Redmi、vivo、小米和中興等。
國內GPU廠商發(fā)展情況
國內GPU市場空間廣闊
國內市場空間廣闊,PC、服務器拉動GPU需求。根據VerifiedMarketResearch數(shù)據,2020年中國GPU市場規(guī)模為47.39億美元,預計2023年中國GPU市場規(guī)模將達到111億美元。中國數(shù)字化經濟轉型持續(xù)推進,催生大量對GPU的市場需求,給GPU帶來廣闊的市場空間。伴隨著近期宏觀經濟回暖以及國內互聯(lián)網企業(yè)紛紛加大AI算力布局,PC和服務器的需求上升有望為國內GPU市場帶來整體拉動效應。GPU的國產替代過程中也需要克服諸多困難,例如:軟件生態(tài)以及IP、先進工藝的生產不可控,缺乏人才儲備,人力、時間、資金投入成本較高等。
海光信息提供服務器、工作站中的高端處理器芯片
海光信息成立于2014年,主營業(yè)務是研發(fā)、設計和銷售應用于服務器、工作站等計算、存儲設備中的高端處理器。產品包括海光通用處理器(CPU)和海光協(xié)處理器(DCU),目前已經研發(fā)出多款新能達到國際同類主流產品的高端CPU和DCU產品。2018年10月,公司啟動深算一號DCU產品設計,目前海光DCU系列深算一號已經實現(xiàn)商業(yè)化應用,2020年1月,公司啟動了第二代DCU深算二號的產品研發(fā)工作。