香港科技大學(xué)團(tuán)隊開發(fā)出一款名為Semantic-SAM的圖像分割A(yù)I模型,相比meta此前發(fā)布的SAM模型,Semantic-SAM具有更強(qiáng)的粒度和語義功能,能夠在不同粒度級別上分割和識別物體,并為分割出的實體提供語義標(biāo)簽。

據(jù)悉,Semantic-SAM基于Mask DINO框架進(jìn)行開發(fā),其模型結(jié)構(gòu)主要改進(jìn)在decoder部分,同時支持通用分割和交互式分割。
研究團(tuán)隊通過采用解耦的物體分類和部件分類方法,學(xué)習(xí)物體和部件的語義信息,從而實現(xiàn)了多粒度分割任務(wù)和交互分割任務(wù)的優(yōu)化。實驗結(jié)果表明,Semantic-SAM在分割質(zhì)量和粒度可控性方面優(yōu)于meta的SAM模型。
該項目目前已經(jīng)在GitHub中發(fā)布,論文也同時上傳至ArXiv中,有興趣的IT之家小伙伴們可以前往查看。