日前微軟研究人員展示了LLaVA-Med模型,該模型主要用于生物醫(yī)學(xué)方面的研究,可根據(jù)CT、X光圖片等推測(cè)出患者的病理狀況。

▲圖源微軟
據(jù)悉,微軟研究人員與一批醫(yī)院合作,獲得了使用生物醫(yī)學(xué)圖像文本對(duì)應(yīng)大型數(shù)據(jù)集來(lái)訓(xùn)練多模態(tài)AI模型。該數(shù)據(jù)集包括胸部X光、MRI、組織學(xué)、病理學(xué)和CT圖像等,覆蓋范圍相對(duì)全面。

▲圖源微軟
微軟使用GPT-4,基于Vision Transformer和Vicuna語(yǔ)言模型,在八個(gè)英偉達(dá)A100 GPU上對(duì)LLaVA-Med進(jìn)行訓(xùn)練,其中包含“每個(gè)圖像的所有預(yù)分析信息”,用于生成有關(guān)圖像的問(wèn)答,以滿(mǎn)足“可自然語(yǔ)言回答有關(guān)生物醫(yī)學(xué)圖像問(wèn)題”的助手愿景。
在學(xué)習(xí)過(guò)程中,模型主要圍繞“描述此類(lèi)圖像的內(nèi)容”以及“闡述生物醫(yī)學(xué)概念(IT之家注:從圖片中判斷是什么樣的)”而展開(kāi)。據(jù)微軟稱(chēng),該模型最終具有“出色的多模式對(duì)話(huà)能力”、“在用于回答視覺(jué)問(wèn)題的三個(gè)標(biāo)準(zhǔn)生物醫(yī)學(xué)數(shù)據(jù)集上,LLaVA-Med在部分指標(biāo)上領(lǐng)先于業(yè)界其他先進(jìn)模型”。
研究團(tuán)隊(duì)表示:“雖然我們認(rèn)為L(zhǎng)LaVA-Med模型代表了朝著構(gòu)建有用的生物醫(yī)學(xué)視覺(jué)助手邁出的重要一步,但當(dāng)下LLaVA-Med模型還存在一定的不足之處,即大模型常見(jiàn)的虛假舉例和準(zhǔn)確度不佳的問(wèn)題,研究團(tuán)隊(duì)未來(lái)將側(cè)重于提高模型的質(zhì)量和可靠性,以令模型有朝一日可以在商業(yè)生物醫(yī)學(xué)中應(yīng)用。”
IT之家注意到,目前該模型已經(jīng)開(kāi)源,大家可以在GitHub找到相關(guān)信息。