熱搜： 發(fā)那科機器人 ABB機器人機器人控制器工業(yè)機器人控制系統(tǒng) HD諧波減速機 ABB工業(yè)機器人工業(yè)機器人控制器機器人工業(yè)機器人技術(shù) 進口二手機器人

《誰能超越英偉達GPU算力？解密Cerebras制勝法寶》

點擊圖片查看原圖

單價：	面議
起訂：
供貨總量：
發(fā)貨期限：	自買家付款之日起 3 天內(nèi)發(fā)貨
所在地：	北京
有效期至：	長期有效
最后更新：	2021-09-11 08:27
瀏覽次數(shù)：	232

公司基本資料信息

您還沒有登錄，請登錄后查看詳情

詳細說明

深度學習已經(jīng)成為我們這一代人最重要的計算工作量之一，推進從視覺識別到自動駕駛的跨行業(yè)應用。但這也是深刻的計算密集型。

portant; overflow-wrap: break-word !important;">

為了訓練當今最先進的神經(jīng)網(wǎng)絡，深度學習研發(fā)人員通常需要使用幾十至數(shù)百個GPU的超大集群。這些集群的構(gòu)建成本很高，而且很復雜。還需要幾天到幾周的時間來訓練網(wǎng)絡，從而拖累了創(chuàng)新的步伐。我們來看看Cerebras是怎么解決該問題的呢？

大多數(shù)深度學習工作都是在原型階段開始的，研究人員希望快速、準確進行迭代。當一個實驗處于初始階段，并且使用有限的數(shù)據(jù)子集運行時，小規(guī)模的硬件設置（如單顆GPU工作站）就夠了。

但隨著研究規(guī)模的擴大或模型投產(chǎn)，其復雜數(shù)據(jù)集需要大量的計算。從而大規(guī)模、可擴展的液冷GPU工作站應運而生,甚至用液冷GPU服務器做數(shù)據(jù)集群。然而在龐大的計算集群中實現(xiàn)良好的利用率復雜且費時。它需要將工作負載分布在許多小型設備上，以解決這些內(nèi)存大小和內(nèi)存帶寬限制，以及兼顧并管理通信及同步管理。因此研發(fā)人員經(jīng)常發(fā)現(xiàn)需要引入其它軟件如Nccl、Horovod、OpenMPI。

此外，對于大規(guī)模分布式訓練，很少能從一開始就產(chǎn)生正確的結(jié)果。擴展效率依賴于使用大批量，影響模型的聚攏方式。

為了應對準確性下降的問題，調(diào)整學習速度及嘗試不同的優(yōu)化器，以找到最佳的訓練配置，然后根據(jù)需要定制特定的硬件配置。

因此，雖然大量GPU集群有可能為神經(jīng)網(wǎng)絡訓練帶來更多的計算量，但對于整個組織來說，無論從ML研究人員到生產(chǎn)ML工程師以及基礎架構(gòu)和IT團隊都是復雜、耗時且困難。

Cerebras最先進的深度學習是每個ML研發(fā)人員都可以輕松訪問，無需集群或并行編程專業(yè)知識。以晶圓級技術(shù)為動力，Cerebras的計算和存儲變得更加緊湊。將整個集群部署在單個設備的單個芯片上，因此ML研究人員和從業(yè)者可以通過單個機器的編程輕松實現(xiàn)集群規(guī)模的性能。

分布式GPU集群在深度學習方面最痛苦的步驟，在Cerebras CS-1和CS-2系統(tǒng)上更簡單、更快的方法，以實現(xiàn)大規(guī)模的深度學習。

portant; overflow-wrap: break-word !important;" class="_135editor">

1傳統(tǒng)方法：使用GPU集群進行分布式訓練

模型分發(fā)和集群編排

像PyTorch和TensorFlow這樣的ML框架使得在單顆GPU上構(gòu)建和運行模型變得非常簡單。但最終遇到性能瓶頸，需要使用大量數(shù)據(jù)來擴展。如何解決跨多個GPU分發(fā)模型成為挑戰(zhàn)。多GPU工作負載分配不僅僅需考慮單個神經(jīng)網(wǎng)絡模型范圍及設備之間的并行處理。通常從更改模型代碼開始訓練。數(shù)據(jù)在一臺或多臺GPU機器上并行，并使用分布式TensorFlow或PyTorch等框架擴展進行軟件配置。

與手動實現(xiàn)數(shù)據(jù)或模擬相比，這些框架使向外擴展變得不那么痛苦，但調(diào)整設置和學習仍然需要時間。并且得到模型運行只是第一步。

設備和群集編排

想要在較高的設備使用率下運行分布式深度學習工作負變得更加復雜。從多個小型處理器實現(xiàn)性能最大化是一項的挑戰(zhàn)，每個處理器都有具體的設備限制，需要統(tǒng)一管理和協(xié)調(diào)。

需要弄清楚如何在設備之間分配計算，如何考慮設備內(nèi)存大小以及內(nèi)存限制，以及如何處理它們之間的通信和同步。這就是為什么許多用戶會引入更多框架（如Horovod）和庫（如OpenMPI）用于工作負載分配、進程間通信以及內(nèi)外節(jié)點通信。

但模型并行化不是深入學習的研究或工程；它是超級計算機集群工程，是個非常復雜的并行編程問題。即使有最好的工具，也會非常耗時，通常需要IT支持、HPC和ML工程的專業(yè)團隊。

聚攏與調(diào)優(yōu)

成功地跨集群分發(fā)模型需要不僅僅是調(diào)整集群設置和同步開發(fā)軟件，還需要研究人員改變他們的實際模型部署。隨著GPU集群擴展到10、100甚至1000，研究人員往往被迫使用超大規(guī)模集群，減少大量通信開銷以實現(xiàn)設備利用率。

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">但大規(guī)模批量訓練往往對模型聚攏有很大影響。需要顯著增加epoch總數(shù)，甚至可能導致模型精度下降。實現(xiàn)聚攏到精準的快速分布式模型可能需要幾天、幾周甚至更長。研究人員通常需要進行幾十次實驗才能找到合適的組合 - 優(yōu)化超參數(shù)（例如批量大小、學習速度和動量）、優(yōu)化器等聚攏性和精準度。

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">同時，掛鐘訓練時間也呈亞線性變化。例如MLPerf最近研究結(jié)果顯示, 需要32個NVIDIA DGX-A100 系統(tǒng)（256個A100 GPU）的集群才能實現(xiàn)僅比單個DGX-A100高14.6倍的掛鐘加速。隨著對計算機需求的增長，運行分布式GPU的研究人員必須應對日益增加的軟件和模型聚攏復雜性，同時在性能上帶來的回報不斷減少。

portant; overflow-wrap: break-word !important;" align="left">最后，通過分布式集群實現(xiàn)深度學習模式是脆弱的。如果研究人員需要更改其數(shù)據(jù)維度、數(shù)據(jù)集、模型架構(gòu)或神經(jīng)網(wǎng)絡層操作及優(yōu)化器，需重新調(diào)整功能超參數(shù)、解碼及性能調(diào)試實驗。

portant; overflow-wrap: break-word !important;" class="_135editor">

2 Cerebras解決方案

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">Cerebras系統(tǒng)可以消除跨GPU集群擴展深度學習模型帶來的挑戰(zhàn)。

portant; overflow-wrap: break-word !important;" align="justify">由世界上最大的芯片驅(qū)動，CS-2系統(tǒng)單個芯片上集成85萬個AI優(yōu)化內(nèi)核，從而大大增強了計算能力。將所有都集成在硅上意味著CS-2不僅能提供巨大的計算和芯片內(nèi)存，而且比GPU提供了更大數(shù)量的內(nèi)存和互連帶寬。加速深度學習模型的訓練。

portant; overflow-wrap: break-word !important;" align="left">單個CS-2可提供整個GPU集群的掛鐘計算性能：數(shù)十到數(shù)百個獨立處理器，節(jié)約空間和功耗。

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">這意味著以更低的成本獲得更快的洞察力。對于ML研究人員來說，通過單個設備的編程實現(xiàn)集群規(guī)模的性能。有了CS-2，研究人員可以加速最先進的模型，而無需花費數(shù)天到數(shù)周的時間對大型集群運行分布式培訓而帶來的設置和調(diào)整。

portant; overflow-wrap: break-word !important;" class="_135editor">

3 Programming the CS-2

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">由于CS-2在單個設備中加速集群擴展，顯著縮短運行時間且保持編程模型的簡單性。數(shù)據(jù) 科學家和ML研究人員可以專注于處理他們的數(shù)據(jù)、模型和應用程序，無需花時間協(xié)調(diào)解決備群集的并行處理及優(yōu)化。

研究人員可以使用熟悉的ML框架（如TensorFlow和PyTorch）對CS-2進行編程。之后，Cerebras圖形編譯器（CGC）自動將用戶的神經(jīng)網(wǎng)絡圖轉(zhuǎn)換為CS-2的850000個內(nèi)核的優(yōu)化可執(zhí)行文件。

在CS-2上實現(xiàn)應用程序非常簡單。添加幾行代碼，如使用TensorFlow。

CerebrasEstimator是專為TensorFlow開發(fā)的包裝類浮點。用戶只需導入CerebrasEstimator，然后跟平常一樣定義其模型函數(shù)，輸入功能、相關(guān)參數(shù)、培訓腳本，使用標準的TensorFlow語義。

CerebrasEstimator是官方TensorFlowEstimator的子分類，以保持工作流程簡單和熟悉。用戶只需實例化CerebrasEstimator，為Cerebras系統(tǒng)提供IP地址，并設置一個標志use_cs=True以指導CS-2的訓練或推理。運行時CerebrasEstimator train將自動調(diào)用CGC并處理為CS-2準備一個模型的剩余的內(nèi)容。

由于CS-2是如此強大的單一系統(tǒng)，因此不需要額外的工作來擴展網(wǎng)絡。用戶只需更改幾行代碼。

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">使用CS-2端到端模型開發(fā)任務，如模型設置、超參數(shù)優(yōu)化、擴展和性能優(yōu)化可以在數(shù)小時或數(shù)天內(nèi)完成，而非采用傳統(tǒng)GPU集群所需數(shù)周時間。

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" class="_135editor">

4CS-2的優(yōu)勢

portant; overflow-wrap: break-word !important;" align="left">

CS-2獨特的性能與單節(jié)點簡單結(jié)合不僅避免了并行編程的復雜性，也解鎖了更快的時間問題，從研究理念可以直通生產(chǎn)建模。

在典型的GPU集群設置中，ML工程師可能會花費數(shù)天或數(shù)周的時間來選擇和調(diào)整超參數(shù)，以實現(xiàn)可接受的設備利用率，同時還要保持大規(guī)模擴展帶來的的模型精度。

CS-2是單一的功能強大的設備，所以沒有這樣的批量規(guī)模要求。在CS-2上，研究人員可以在任何批量下對模型進行高可用訓練。用戶不僅可以實現(xiàn)巨大的即時加速，也可以提高模型聚攏及到目標精度。

portant; overflow-wrap: break-word !important;" class="_135editor">

5 GPU與Cerebras的實例對比

portant; overflow-wrap: break-word !important;" align="left">

portant; overflow-wrap: break-word !important;" align="left">在與一生命科學客戶的合作中，下圖展示使用GPU集群和系統(tǒng)從概念到生產(chǎn)特定領域的BERT NLP模型開發(fā)項目對比。顯而易見Cerebras的性能與編程的易用性相結(jié)合，使研究人員節(jié)省了14周的時間。

我們考慮了相同的模型和數(shù)據(jù)集，并包括軟件設置步驟：模型定義、功能調(diào)試、性能優(yōu)化、初始模型培訓和后續(xù)實驗開發(fā)生產(chǎn)部署。

這項工作表明，Cerebras解決方案縮短了生產(chǎn)解決方案的端到端時間。在GPU集群上運行18周，在Cerebras系統(tǒng)上只需運行四周。編程和計算時間都縮短至少三個多月，為客戶節(jié)省了大量工程成本，使其加速新的人工智能創(chuàng)新。

深度學習將繼續(xù)是我們這個時代最重要的計算工作量之一。今天的傳統(tǒng)系統(tǒng)正在拖累傳統(tǒng)行業(yè)的創(chuàng)新步伐。Cerebras先進的深度學習推崇的是簡單易行。Cerebras已將整個集群的計算和內(nèi)存加密整合到單個設備中的單個芯片。Cerebras創(chuàng)造更簡單、更快的方法，實現(xiàn)大規(guī)模的深度學習。

企業(yè)版 Closing Signature.JPG

更多>本企業(yè)其它產(chǎn)品

綠色數(shù)據(jù)中心：風冷GP

機器學習中的無監(jiān)督學

解讀圖數(shù)據(jù)平臺引領未來十年數(shù)據(jù)庫的發(fā)展

解讀圖數(shù)據(jù)平臺引領未

Gartner2022年戰(zhàn)略技

GPU服務器的散熱問題

2021中國民營企業(yè)500

《誰能超越英偉達GPU

基于深度學習的機器視覺識別如何實現(xiàn)醫(yī)藥工業(yè)視覺檢測自動化

基于深度學習的機器視

0 條相關(guān)評論

恰佩克獎	機器人高峰論壇	機氣林	人形機器人生態(tài)大會	ITES深圳工業(yè)展	廣西工博會	順企網(wǎng)
優(yōu)氣壓縮機（上海）有限公司	機器人研究院	庫卡機器人	中國傳動網(wǎng)	索比光伏網(wǎng)	數(shù)控機床市場網(wǎng)	國家標準化委員會
國際現(xiàn)代工廠/過程自動化技術(shù)與裝備展覽會

国产精品久久久久久久小说,国产国产裸模裸模私拍视频,国产精品免费看久久久无码,风流少妇又紧又爽又丰满,国产精品,午夜福利

《誰能超越英偉達GPU算力？解密Cerebras制勝法寶》

《誰能超越英偉達GPU算力？解密Cerebras制勝法寶》