浪潮信息于2021年9月在業(yè)界率先推出了中文人工智能(AI)巨量模型“源1.0”,參數(shù)規(guī)模高達(dá)2457億。浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華介紹,比起“源1.0”,“源2.0”在算法、數(shù)據(jù)、計(jì)算等方面都實(shí)現(xiàn)了創(chuàng)新。在算法上,該模型基于LFA。有別于傳統(tǒng)Transformer模型結(jié)構(gòu)擅長(zhǎng)捕捉全局信息和長(zhǎng)依賴信息能力的特點(diǎn),LFA具備有效捕捉局部信息和短依賴信息的能力,可確保模型更精準(zhǔn)地學(xué)習(xí)人類語言范式本質(zhì)。
在數(shù)據(jù)處理方面,“源2.0”通過使用中英文書籍、論文等資料,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的學(xué)科專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。除此之外,浪潮信息提出基于單元測(cè)試的數(shù)據(jù)清洗方法,可更高效地獲取高質(zhì)量數(shù)據(jù)集,提高訓(xùn)練效率。“有限的算力資源下,訓(xùn)練數(shù)據(jù)的質(zhì)量直接決定了模型的性能。”吳韶華說,“‘源1.0’絕大部分的數(shù)據(jù)來源于網(wǎng)頁,雖然我們花費(fèi)了很大力氣清洗,但數(shù)據(jù)質(zhì)量確實(shí)需要進(jìn)一步提高。‘源2.0’減少了網(wǎng)頁數(shù)據(jù),增加了書籍、期刊等的數(shù)據(jù),并引入代碼和數(shù)學(xué)數(shù)據(jù),使模型數(shù)理邏輯能力進(jìn)一步增強(qiáng)。”
不僅如此,“源2.0”還將實(shí)行全面開源(模型全開源、免費(fèi)可商用、無需申請(qǐng)授權(quán))。對(duì)此,浪潮信息高級(jí)副總裁劉軍表示,從計(jì)算機(jī)科學(xué)與人工智能的發(fā)展歷程來看,開源始終對(duì)軟件技術(shù)乃至IT技術(shù)的發(fā)展有巨大的推動(dòng)作用。“meta公司的LLaMA大模型開源之后,迅速吸引了大量開發(fā)者。”劉軍說,在國(guó)內(nèi),開源開放是促進(jìn)AI技術(shù)發(fā)展和商業(yè)落地的重要手段,大模型的開源開放可以使不同的模型之間共享底層數(shù)據(jù)、算法和代碼,有利于打破大模型孤島,促進(jìn)模型之間的協(xié)作和更新迭代,推動(dòng)AI開發(fā)更加靈活高效。
劉軍認(rèn)為,開源開放有利于推進(jìn)“技術(shù)+行業(yè)”的閉環(huán),以更豐富的高質(zhì)量行業(yè)數(shù)據(jù)反哺模型,打造更強(qiáng)的技術(shù)產(chǎn)品,并加速其商業(yè)化進(jìn)程。
劉軍透露,未來,依托浪潮信息在AI算力平臺(tái)等方面的長(zhǎng)期技術(shù)積累,“源2.0”將持續(xù)為大模型創(chuàng)業(yè)者和開發(fā)者提供更加豐富、全面的助力和更加開放的技術(shù)創(chuàng)新空間。