
圖說:“書生”(INTERN)技術(shù)體系可以讓AI模型處理多樣化的視覺任務(wù) 來源/采訪對象供圖(下同)
新民晚報訊(記者 郜陽)今天,上海人工智能實驗室聯(lián)合商湯科技、香港中文大學、上海交通大學共同發(fā)布新一代通用視覺技術(shù)體系“書生”(INTERN),旨在系統(tǒng)化解決當下人工智能視覺領(lǐng)域中存在的任務(wù)通用、場景泛化和數(shù)據(jù)效率等一系列瓶頸問題。據(jù)悉,基于“書生”的通用視覺開源平臺OpenGVLab也將在明年年初正式開源,向?qū)W術(shù)界和產(chǎn)業(yè)界公開預訓練模型及其使用范式、數(shù)據(jù)系統(tǒng)和評測基準等。
“書生”由七大模塊組成,包括通用視覺數(shù)據(jù)系統(tǒng)、通用視覺網(wǎng)絡(luò)結(jié)構(gòu)、通用視覺評測基準三個基礎(chǔ)設(shè)施模塊,以及區(qū)分上下游的四個訓練階段模塊。作為中國古代讀書人的經(jīng)典形象,“書生”代表著一個通過不斷學習、不斷成長進而擁有各方面才能的人格化角色:從基礎(chǔ)的知識技能學習開始,到對多種專業(yè)知識觸類旁通,進而成長為擁有通用知識的通才。將全新的通用視覺技術(shù)體系命名為“書生”,意在體現(xiàn)它如同書生一般的特質(zhì),可通過持續(xù)學習,舉一反三,逐步實現(xiàn)通用視覺領(lǐng)域的融會貫通,最終實現(xiàn)靈活高效的模型部署。
據(jù)介紹,任務(wù)通用和數(shù)據(jù)學習效率是制約當前人工智能發(fā)展的核心瓶頸問題。根據(jù)相關(guān)技術(shù)報告,一個“書生”基模型即可全面覆蓋分類、目標檢測、語義分割、深度估計四大視覺核心任務(wù)。在ImageNet等26個最具代表性的下游場景中,書生模型廣泛展現(xiàn)了極強的通用性,顯著提升了這些視覺場景中長尾小樣本設(shè)定下的性能。
相較于當前最強開源模型(OpenAI 于2021年發(fā)布的CLIP),“書生”在準確率和數(shù)據(jù)使用效率上均取得大幅提升。具體而言,基于同樣的下游場景數(shù)據(jù),“書生”在分類、目標檢測、語義分割及深度估計四大任務(wù)26個數(shù)據(jù)集上的平均錯誤率分別降低了40.2%、47.3%、34.8%和9.4%。“書生”在數(shù)據(jù)效率方面的提升尤為令人矚目:只需要1/10的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)的準確度,例如在花卉種類識別任務(wù)上,每一類只需兩個訓練樣本,就能實現(xiàn)99.7%的準確率。
圖說:“書生”在分類、目標檢測、語義分割、深度估計四大任務(wù)上的表現(xiàn)
隨著人工智能賦能產(chǎn)業(yè)的不斷深入,人工智能系統(tǒng)正在從完成單一任務(wù)向復雜的多任務(wù)協(xié)同演進,其覆蓋的場景也越來越多樣化。在自動駕駛、智能制造、智慧城市等眾多的長尾場景中,數(shù)據(jù)獲取通常困難且昂貴,研發(fā)通用人工智能模型,對于降低數(shù)據(jù)依賴尤為重要。而突破“工業(yè)應(yīng)用紅線”的模型,需滿足同時完成多任務(wù)、覆蓋大量長尾場景,且基于下游小樣本數(shù)據(jù)進行再訓練等要求。上海人工智能實驗室、商湯科技、港中文以及上海交大聯(lián)合推出的“書生”通用視覺技術(shù)體系,體現(xiàn)了產(chǎn)學研合作在通用視覺領(lǐng)域的全新探索,為走向通用人工智能邁出堅實一步。借助“書生”通用視覺技術(shù)體系,業(yè)界可憑借極低的下游數(shù)據(jù)采集成本,快速驗證多個新場景,對于解鎖實現(xiàn)人工智能長尾應(yīng)用具有重要意義。
“當前發(fā)展通用視覺的核心,是提升模型的通用泛化能力和學習過程中的數(shù)據(jù)效率。面向未來,‘書生’通用視覺技術(shù)將實現(xiàn)以一個模型完成成百上千種任務(wù),體系化解決人工智能發(fā)展中數(shù)據(jù)、泛化、認知和安全等諸多瓶頸問題。”上海人工智能實驗室主任助理喬宇表示。
商湯科技研究院院長王曉剛說:“‘書生’通用視覺技術(shù)體系是商湯在通用智能技術(shù)發(fā)展趨勢下前瞻性布局的一次嘗試,也是商湯AI大裝置背景下的一次新技術(shù)路徑探索。‘書生’承載了讓人工智能參與處理多種復雜任務(wù)、適用多種場景和模態(tài)、有效進行小數(shù)據(jù)和非監(jiān)督學習并最終具備接近人的通用視覺智能的期盼。希望這套技術(shù)體系能夠幫助業(yè)界更好地探索和應(yīng)用通用視覺AI技術(shù),促進AI規(guī)?;涞?。”