1. 效果展示
MasQCLIP在開(kāi)放詞匯實(shí)例分割、語(yǔ)義分割和全景分割三項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA,漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

再來(lái)看看開(kāi)放詞匯全景分割的定性效果,圖片來(lái)源于ADE20k,可以發(fā)現(xiàn)MasQCLIP分割出的Mask和類別精度更高。

2. 具體原理是什么?
先介紹一下基礎(chǔ)的CLIP模型:ICML-2021的工作,多模態(tài)視覺(jué)-語(yǔ)言模型代表。主要用來(lái)提取zero-shot目標(biāo)的特征。核心思想是,很多模型需要預(yù)定義圖像類別,但是文本實(shí)際上就已經(jīng)提供了未見(jiàn)類別的信息,融合文本就可以極大增強(qiáng)模型的泛化性。
而MasQCLIP的思想是,利用稠密特征與預(yù)訓(xùn)練的CLIP模型無(wú)縫集成,從而避免訓(xùn)練大規(guī)模參數(shù)。MasQCLIP在使用CLIP模型構(gòu)建圖像分割時(shí)側(cè)重兩方面:
(1)學(xué)生-教師模塊,通過(guò)從基礎(chǔ)(已見(jiàn))類中提取信息來(lái)處理新(未見(jiàn))類的Mask;
(2)更新CLIP模型中查詢的模型參數(shù)的微調(diào)過(guò)程。
具體Pipeline是,MasQCLIP由類無(wú)關(guān)Mask提議網(wǎng)絡(luò)和基于CLIP的Mask分類模塊組成。在Mask提議網(wǎng)絡(luò)中,應(yīng)用漸進(jìn)蒸餾來(lái)分割基類之外的Mask。之后將預(yù)測(cè)的Mask送入分類模塊以獲得標(biāo)簽。為了有效利用密集CLIP特征,還提出了MasQ-Tuning策略。

再來(lái)看看這個(gè)漸進(jìn)蒸餾,就是從教師模型的分割圖中提取和基礎(chǔ)類別沒(méi)有重疊的Mask,用來(lái)做輔助訓(xùn)練,將這些額外的標(biāo)注蒸餾到學(xué)生模型中,然后不停的迭代循環(huán)來(lái)提高泛化性。

3. 再來(lái)看看效果如何
開(kāi)放詞匯通用圖像分割的定量結(jié)果,直接對(duì)比了實(shí)例分割、語(yǔ)義分割、全景分割三個(gè)任務(wù)。三大任務(wù)漲點(diǎn)都非常明顯!

開(kāi)放詞匯實(shí)例分割結(jié)果,分別對(duì)比基類和新類別的定量精度,展示了模型的泛化性。這里也推薦工坊推出的新課程《徹底搞懂視覺(jué)-慣性SLAM:VINS-Fusion原理精講與源碼剖析》。

開(kāi)放詞匯實(shí)例分割定性對(duì)比,可以發(fā)現(xiàn)MasQCLIP分割精度更高!

審核編輯:劉清
-
圖像分割
+關(guān)注
關(guān)注
4文章
182瀏覽量
18829 -
Clip
+關(guān)注
關(guān)注
0文章
35瀏覽量
7289
原文標(biāo)題:北大&清華最新開(kāi)源 | 三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
優(yōu)必選再次領(lǐng)銜三項(xiàng)具身智能人形機(jī)器人國(guó)家標(biāo)準(zhǔn)正式獲批
雷曼光電攬獲ISLE 2026三項(xiàng)重磅大獎(jiǎng)
中興通訊斬獲GTI Awards 2026三項(xiàng)大獎(jiǎng)
新潔能斬獲陽(yáng)光電源2025年度三項(xiàng)重磅榮譽(yù)
云知聲山海醫(yī)療大模型問(wèn)鼎MedBench4.0三項(xiàng)榜首
共達(dá)電聲牽頭起草的三項(xiàng)團(tuán)體標(biāo)準(zhǔn)獲批發(fā)布
三項(xiàng)SOTA!MasQCLIP:開(kāi)放詞匯通用圖像分割新網(wǎng)絡(luò)
評(píng)論