近日,在2022昇騰AI開發(fā)者創(chuàng)享日·成都站上,四川大學(xué)計算機學(xué)院院長呂建成進行了主題為《人工智能大模型時代的機遇與理論挑戰(zhàn)》的精彩演講。
隨著人工智能技術(shù)不斷賦能社會,促進新一輪科技革命和產(chǎn)業(yè)變革。而大模型是深度神經(jīng)網(wǎng)絡(luò)發(fā)展至今的一個重要成果,對此,呂建成從三個方面進行了洞察與解讀,即,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展、大模型發(fā)展與應(yīng)用、大模型的機遇與挑戰(zhàn)。

深度神經(jīng)網(wǎng)絡(luò)的發(fā)展
呂建成表示,從人工智能誕生以來,神經(jīng)網(wǎng)絡(luò)就伴隨著人工智能的發(fā)展,經(jīng)歷了兩次繁榮與低谷。從人工智能的發(fā)展史來看,我們可以說,深度神經(jīng)網(wǎng)絡(luò)是人工智能的核心技術(shù)之一,目前也是最成功的人工智能方法之一。
關(guān)于神經(jīng)網(wǎng)絡(luò)的研究,大致可以分成四個重點研究內(nèi)容:網(wǎng)絡(luò)學(xué)習(xí)相關(guān)的問題、特征提取相關(guān)的問題、網(wǎng)絡(luò)規(guī)模選擇的問題以及硬件實現(xiàn)和基礎(chǔ)理論研究的問題。
目前來看,網(wǎng)絡(luò)學(xué)習(xí)和特征提取的相關(guān)工作已趨于成熟,網(wǎng)絡(luò)規(guī)模的選擇是一個研究的重點,一方面是設(shè)計規(guī)模越來越大的網(wǎng)絡(luò);而另一方面,是網(wǎng)絡(luò)的輕量化,以便于部署在終端設(shè)備上。
硬件實現(xiàn)和基礎(chǔ)理論的研究也是神經(jīng)網(wǎng)絡(luò)的深度研究重點,硬件方面一個是加速芯片,一個是AI類腦芯片;基礎(chǔ)理論方面,有著名的萬有逼近定理,也許多學(xué)者在研究其他的一些理論;但至今,神經(jīng)網(wǎng)絡(luò)還沒有完善的理論基礎(chǔ)體系。
大模型發(fā)展與應(yīng)用
談到大模型的發(fā)展與應(yīng)用時,呂建成表示,從2012-2018年神經(jīng)網(wǎng)絡(luò)模型的發(fā)展來看,神經(jīng)網(wǎng)絡(luò)的模型是越來越大,同時也獲得更高的準(zhǔn)確率以及處理更多的數(shù)據(jù)。那么,為什么需要大模型?大模型是怎么發(fā)展來的呢?
我們不難發(fā)現(xiàn),大模型的發(fā)展有三個重要的驅(qū)動力:第一個是處理大數(shù)據(jù)的需要。根據(jù)國際權(quán)威機構(gòu)Statista的統(tǒng)計和預(yù)測,2035年全球數(shù)據(jù)產(chǎn)生量預(yù)計達到47ZB,我們需要數(shù)據(jù)處理能力更強的人工智能技術(shù);第二個是應(yīng)用的需要。根據(jù)實驗數(shù)據(jù),模型參數(shù)量越大,模型在應(yīng)用中的精度越高,能力越強;第三個算力快速發(fā)展的推動。例如,剛剛上線的成都智算中心,AI算力規(guī)模達到300PFLOPS,采用基于昇騰AI基礎(chǔ)軟硬件的國產(chǎn)化AI集群,能夠為大模型提供大算力的支持。
呂建成介紹了在大模型的發(fā)展過程中的幾個重要工作:
1、預(yù)訓(xùn)練微調(diào)思想。2012年,AlexKrizhevsky在他的“ImageNetClassificationwithDeepConvolutionalNeuralNetworks”論文中用“pre-training+fine-tuning”命名了一種神經(jīng)網(wǎng)絡(luò)參數(shù)初始化和訓(xùn)練的方式,提出了“預(yù)訓(xùn)練+任務(wù)遷移”的研究范式。
2、2018年,OpenAI提出了單向生成語言模型GPT。同一年,谷歌提出了雙向編碼器BERT,在下游任務(wù)上取得極大的效果提升,語言大模型問世。與此同時,“預(yù)訓(xùn)練+微調(diào)”成為大規(guī)模訓(xùn)練數(shù)據(jù)的主要方法。人工智能進入大模型時代。
在過去的3年內(nèi),語言大模型得到飛速發(fā)展,繼而從自然語言快速滲透到視覺領(lǐng)域,并有面向行業(yè)應(yīng)用的大模型發(fā)展趨勢。比如,華為在2021年提出的盤古CV大模型超過30億參數(shù),是當(dāng)時業(yè)界最大,首次兼顧圖像判別與生成能力。大模型刷新ImageNet1%、10%數(shù)據(jù)集上的小樣本分類最高準(zhǔn)確率。展現(xiàn)了強大的小樣本數(shù)據(jù)上的遷移能力。
除了單一模態(tài)數(shù)據(jù)(文本或者圖像),研究者將模型學(xué)習(xí)的數(shù)據(jù)來源擴展至多模態(tài)。這將幫助大模型擁有更廣泛的“知識”來源,并應(yīng)用于更廣闊的下游任務(wù)。
回顧大模型的發(fā)展,呂建成認(rèn)為大模型的成功離不開3大基礎(chǔ)設(shè)施:大規(guī)模數(shù)據(jù)、可大規(guī)模擴展的算法與大規(guī)模算力。高質(zhì)量的數(shù)據(jù)決定了大模型的性能;數(shù)據(jù)收集、處理已經(jīng)成為了需要專門團隊負責(zé)的復(fù)雜流程。基于昇騰AI的鵬程.盤古大模型就擁有了復(fù)雜的數(shù)據(jù)收集流程,包括數(shù)據(jù)清理、過濾、去重,向我們體現(xiàn)了專業(yè)的數(shù)據(jù)收集能力。
大模型的成功也離不開算法的發(fā)展。例如,殘差網(wǎng)絡(luò)能有效解決模型變大后梯度消失的問題,Transformer則解決了序列模型并行高效計算的問題。
目前,“大模型”已在實際經(jīng)濟生活得到應(yīng)用,并有面向行業(yè)大模型發(fā)展的趨勢。華為昇騰構(gòu)建的大模型產(chǎn)業(yè)生態(tài),幫助廣大開發(fā)者共同探索大模型應(yīng)用落地,比如基于華為昇思打造“紫東.太初”多模態(tài)大模型被應(yīng)用于紡織生產(chǎn)的聲音質(zhì)檢。

大模型的機遇與挑戰(zhàn)
演講的最后,呂建成對大模型的未來機遇與挑戰(zhàn)進行了闡述。他表示,大模型雖然取得了巨大成功,但仍然面臨各種理論挑戰(zhàn)。他提出了幾個疑問,大模型是否過擬合?是否魯棒?是否真正擁有知識?大模型能取代知識圖譜嗎?大模型的未來真是越大越好嗎?究竟做多大才夠?我們最終能負擔(dān)多大的模型?
呂建成表示,我們研究發(fā)現(xiàn),目前大模型還存在這些不足:現(xiàn)有大模型通常面對特定領(lǐng)域、難以達到人腦連接規(guī)模、以及全網(wǎng)絡(luò)運行方式能耗高。最近,研究人員開始探索一些新的大模型構(gòu)建方法?;谌四X啟發(fā),我們提出了類腦超大規(guī)模系統(tǒng),它基于腦區(qū)關(guān)系進行構(gòu)建,是一種多層級的網(wǎng)絡(luò)結(jié)構(gòu),不同腦區(qū)相互配合,互相促進。使用功能和腦區(qū)的分析數(shù)據(jù),我們借鑒腦區(qū)劃分和腦區(qū)功能機制為啟發(fā),構(gòu)建類腦功能區(qū),模塊化構(gòu)建大規(guī)模神經(jīng)網(wǎng)絡(luò)模型。
隨后,呂建成以視覺功能為例介紹構(gòu)建過程,視覺功能有33個腦區(qū),可以分為4個二級功能,分別是動作、顏色、形狀、其他,我們對應(yīng)設(shè)計的視覺類腦功能區(qū)也有對應(yīng)的4個子功能區(qū)。
在構(gòu)建好類腦功能區(qū)之后,類腦功能區(qū)如何協(xié)同工作,在特定任務(wù)場景下,根據(jù)腦功能相關(guān)腦區(qū)協(xié)作關(guān)系來指導(dǎo)類腦功能區(qū)的協(xié)同工作。目前,該平臺在單模態(tài),和兩個模態(tài)的任務(wù)上,可以靈活構(gòu)建網(wǎng)絡(luò)通路,來實現(xiàn)相應(yīng)的任務(wù),并達到我們的目標(biāo)要求?;谄脚_,我們開發(fā)了一些應(yīng)用,如核工業(yè)缺陷檢測、反應(yīng)堆運維監(jiān)測等。
最后呂建成表示,人工智能進入大模型時代,存在前所未有的機遇與挑戰(zhàn)。大模型的構(gòu)建方式,必須要有新的思路。我也相信一定會有新的思路來指導(dǎo)大模型的發(fā)展和落地應(yīng)用。