IT之家3月16日消息,蘋果公司旗下研究團隊近日在ArXiv中公布了一篇名為《MM1:Methods,Analysis&Insights from Multimodal LLM Pre-training》的論文,其中介紹了一款“MM1”多模態(tài)大模型,該模型提供30億、70億、300億三種參數(shù)規(guī)模,擁有圖像識別和自然語言推理能力。
IT之家注意到,蘋果研究團隊相關(guān)論文主要是利用MM1模型做實驗,通過控制各種變量,找出影響模型效果的關(guān)鍵因素。
研究表明,圖像分辨率和圖像標記數(shù)量對模型性能影響較大,視覺語言連接器對模型的影響較小,不同類型的預訓練數(shù)據(jù)對模型的性能有不同的影響。
據(jù)介紹,研究團隊首先在模型架構(gòu)決策和預訓練數(shù)據(jù)上進行小規(guī)模消融實驗。之后利用混合專家(Mixture of Experts)架構(gòu)及一種名為Top-2 Gating的方法構(gòu)建了MM1模型,號稱不僅在預訓練指標中實現(xiàn)了最好的性能表現(xiàn),在一系列已有多模態(tài)基準上監(jiān)督微調(diào)后也能保持有競爭力的性能。
研究人員對“MM1”模型進行了測試,號稱MM1-3B-Chat和MM1-7B-Chat優(yōu)于市面上絕大多數(shù)相同規(guī)模的模型。MM1-3B-Chat和MM1-7B-Chat在VQAv2、TextVQA、ScienceQA、MMBench、MMMU和MathVista中表現(xiàn)尤為突出,但是整體表現(xiàn)不如谷歌的Gemini和OpenAI的GPT-4V。