
全球AI基準評測MLPerf近日揭榜,國產(chǎn)黑馬浮現(xiàn)。
MLPerf Inference v2.1榜單于9月公布最新結(jié)果,多家行業(yè)頭部公司參與競爭,而墨芯人工智能S30計算卡在開放任務(wù)(Open division)測試環(huán)境下,以95784 FPS的單卡算力,奪得Resnet-50模型算力全球第一。同時,墨芯S30運行BERT-Large高精度自然語言處理模型(99.9%)時單卡算力達3837SPS,為英偉達A100的2倍,僅次于英偉達H100。
“這個成績的亮點在于它展現(xiàn)了我們技術(shù)路線所實現(xiàn)的效果,也使得這條技術(shù)路線成為大家關(guān)注的焦點。”墨芯人工智能創(chuàng)始人王維近日接受界面新聞等媒體采訪時表示。
墨芯人工智能(Moffett AI)成立于2018年,總部位于深圳,主要研發(fā)云端和終端AI芯片加速方案,創(chuàng)始團隊來自卡內(nèi)基梅隆大學(xué)。成立之后,墨芯曾獲得凱旋創(chuàng)投、創(chuàng)享基金和云天使基金的天使輪投資,浪潮云?;饝?zhàn)略投資,將門創(chuàng)投、真格基金的Pre-A輪,以及基石資本、大灣區(qū)共同家園發(fā)展基金,同威資本、華盛資本、深圳天使母基金的A輪投資。
此次測試中,墨芯主打的“稀疏化計算”技術(shù),成為MLPerf測試中實現(xiàn)突破的主要因素,據(jù)稱該技術(shù)能夠加速AI計算。
所謂“稀疏化計算”,是一種以人腦得到靈感的模型壓縮方法。其過程類似于抽走積木的“疊疊樂”游戲,即保證AI模型不會“坍塌”的同時,通過優(yōu)化模型,抽走部分參數(shù),以減少深度學(xué)習(xí)所需的矩陣計算減少計算量,從而縮短取得準確結(jié)果的時間,壓縮稀疏矩陣還可以減少占用寶貴的內(nèi)存和帶寬。其應(yīng)用場景幾乎覆蓋所有AI加速計算模型,包括時下流行的AI“大模型”。
在技術(shù)積累上,墨芯首創(chuàng)雙稀疏算法,擁有超過30項稀疏化全球?qū)@?,首款A(yù)ntoum處理器芯片已經(jīng)出貨,可實現(xiàn)32倍最高稀疏率??v觀海內(nèi)外,墨芯所處的此類技術(shù)路線少有類似者。
實際上,對于稀疏化計算,學(xué)界已有前期探索。過去,研究人員嘗試多種技術(shù),抽出參數(shù)部分的權(quán)重甚至達到了神經(jīng)網(wǎng)絡(luò)的95%。但在整個過程中,模型精簡所花的時間要遠多于他們所節(jié)省的時間,還需要付出巨大的努力來彌補精簡后的模型精度。此外,適用于一種模型的精簡方法往往并不適用于其他模型。
盡管在現(xiàn)實應(yīng)用中,AI計算仍以相對于稀疏計算的稠密數(shù)學(xué)計算(dense math)為主,但在AI模型逐漸通用化,以及模型規(guī)模急劇膨脹的情況下,如何通過內(nèi)部模型稀疏化進行加速,將對AI計算層面產(chǎn)生重大影響,因此稀疏化計算近年獲得了產(chǎn)業(yè)層面應(yīng)用。以英偉達為例,其在Ampere架構(gòu)A100 GPU中引入稀疏性支持,可以減少一半權(quán)值(即2倍稀疏率)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
王維表示,在稀疏化的效果上,目前墨芯計算卡已經(jīng)能夠達到4至32倍稀疏率,通過計算卡優(yōu)化模型,這個過程是“一勞永逸”的,即優(yōu)化完成后,對AI模型的加速效果可以長久實現(xiàn)。他提到,相較于英偉達,更高的稀疏倍率,意味著在算力、成本、能效比上存在更好的優(yōu)化空間。
他以目前業(yè)界流行的自然語言大模型GPT-3為例稱,GPT-3擁有1700多億參數(shù),若使用GPU來運行模型,需要10張A100的加速卡才能運行,但應(yīng)用稀疏化算法,一張墨芯S30卡就可以讓GPT-3模型跑起來,從而節(jié)省成本。
除算法模型層面的稀疏化外,和英偉達以及其他AI芯片公司相同,墨芯也參與芯片、計算卡、開發(fā)工具的“全棧”工具鏈開發(fā)。人員構(gòu)成上,墨芯軟硬件開發(fā)人員比例為6:4,在軟件層面投入的人才更多。
王維解釋,盡管稀疏化計算更多是算法層面的事情,但墨芯仍然參與芯片和計算卡開發(fā)的原因在于,其主打從算法出發(fā)的軟硬協(xié)同設(shè)計,以實現(xiàn)最好的加速效果,“算法的創(chuàng)新雖然是核心創(chuàng)新點,但在有了理論的創(chuàng)新外,還要考慮軟硬件的平臺支撐,把數(shù)學(xué)理論變成最終的計算效果。”
據(jù)王維透露,墨芯下一步將會在做好稀疏化推理平臺的基礎(chǔ)上布局稀疏化訓(xùn)練,預(yù)計新一代產(chǎn)品將于明年底正式推出。