實(shí)例分割是檢測(cè)和分割目標(biāo)的一個(gè)核心視覺識(shí)別問題。在過去幾年中,該領(lǐng)域一直是計(jì)算機(jī)視覺領(lǐng)域的圣杯之一,其應(yīng)用范圍廣泛,包括自動(dòng)駕駛汽車( AV )、機(jī)器人技術(shù)、視頻分析、智能家居、數(shù)字人類和醫(yī)療保健。
注釋是對(duì)圖像或視頻中的每個(gè)對(duì)象進(jìn)行分類的過程,是實(shí)例分割的一個(gè)具有挑戰(zhàn)性的組成部分。訓(xùn)練 面具 R-CNN 等傳統(tǒng)實(shí)例分割方法需要同時(shí)使用對(duì)象的類標(biāo)簽、邊界框和分割遮罩。
然而,獲取分割掩模既昂貴又耗時(shí)。例如, 可可數(shù)據(jù)集 需要大約 70000 小時(shí)的時(shí)間來注釋 200k 圖像,其中 55000 小時(shí)用于收集對(duì)象遮罩。
介紹 Discobox
為了加快注釋過程, NVIDIA 研究人員開發(fā)了 DiscoBox 框架。該解決方案使用了一種弱監(jiān)督學(xué)習(xí)算法,可以在訓(xùn)練期間輸出高質(zhì)量的實(shí)例分割,而無需掩碼注釋。
該框架直接從邊界框監(jiān)控生成實(shí)例分段,而不是使用掩碼注釋直接監(jiān)控任務(wù)。邊界框作為一種基本的注釋形式被引入,用于訓(xùn)練現(xiàn)代對(duì)象檢測(cè)器,并使用帶標(biāo)簽的矩形來緊密地包圍對(duì)象。每個(gè)矩形對(duì)對(duì)象的定位、大小和類別信息進(jìn)行編碼。
邊界框標(biāo)注是工業(yè)計(jì)算機(jī)視覺應(yīng)用的最佳選擇。它包含豐富的本地化信息,并且非常容易繪制,使得在注釋大量數(shù)據(jù)時(shí),它更經(jīng)濟(jì)、更具可擴(kuò)展性。然而,它本身不提供像素級(jí)信息,不能直接用于訓(xùn)練實(shí)例分割。


圖 1 。給定一對(duì)輸入圖像, DiscoBox 能夠聯(lián)合輸出檢測(cè)、實(shí)例分割和多對(duì)象語義對(duì)應(yīng)。
DiscoBox 的創(chuàng)新功能
DiscoBox 是第一個(gè)弱監(jiān)督的實(shí)例分割算法,它在減少標(biāo)記時(shí)間和成本的同時(shí),提供了與完全監(jiān)督方法相當(dāng)?shù)男阅?。例如,這種方法比傳說中的面具 R-CNN 更快、更準(zhǔn)確,在訓(xùn)練期間不需要面具注釋。這就提出了一個(gè)問題,即在未來的實(shí)例分割應(yīng)用中,是否真的需要掩碼注釋,因?yàn)樾枰俚臉?biāo)記。
DiscoBox 也是第一個(gè)在盒子監(jiān)督下將實(shí)例分割和多對(duì)象語義對(duì)應(yīng)結(jié)合起來的弱監(jiān)督算法。這兩項(xiàng)任務(wù)在許多計(jì)算機(jī)視覺應(yīng)用中都很有用,例如 3D 重建,并且可以相互幫助。例如,通過實(shí)例分割預(yù)測(cè)的對(duì)象遮罩可以幫助語義對(duì)應(yīng)關(guān)注前景對(duì)象像素,而語義對(duì)應(yīng)可以細(xì)化遮罩預(yù)測(cè)。 DiscoBox 將這兩項(xiàng)任務(wù)統(tǒng)一在盒子的監(jiān)督下,使他們的模型訓(xùn)練變得簡(jiǎn)單且可擴(kuò)展。
DiscoBox 的中心是一個(gè)師生設(shè)計(jì)。該設(shè)計(jì)的特點(diǎn)是使用自我一致性作為自我監(jiān)督,以取代 DiscoBox 培訓(xùn)中缺失的面罩監(jiān)督。該設(shè)計(jì)有效地促進(jìn)了高質(zhì)量的口罩預(yù)測(cè),即使在訓(xùn)練中沒有口罩注釋。
DiscoBox 應(yīng)用
除了作為 NVIDIA 人工智能應(yīng)用程序的自動(dòng)標(biāo)簽工具包之外, DiscoBox 還有許多應(yīng)用程序。通過自動(dòng)化昂貴的掩碼注釋,該工具可以幫助智能視頻分析或 AV 領(lǐng)域的產(chǎn)品團(tuán)隊(duì)節(jié)省大量注釋預(yù)算。
另一個(gè)潛在的應(yīng)用是 3D 重建,在這個(gè)領(lǐng)域中,對(duì)象遮罩和語義對(duì)應(yīng)都是重建任務(wù)的重要信息。 DiscoBox 能夠在只有邊界框監(jiān)控的情況下提供這兩個(gè)輸出,幫助在開放世界場(chǎng)景中生成大規(guī)模 3D 重建。這將有助于構(gòu)建虛擬世界的許多應(yīng)用程序,如內(nèi)容創(chuàng)建、虛擬現(xiàn)實(shí)和數(shù)字人類。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5711瀏覽量
110186 -
人工智能
+關(guān)注
關(guān)注
1821文章
50447瀏覽量
267453
發(fā)布評(píng)論請(qǐng)先 登錄
借助任意智能體實(shí)現(xiàn)高質(zhì)量Android開發(fā)
鴻利智匯榮獲2025年度廣州花都高質(zhì)量發(fā)展“蛟龍榜”科技創(chuàng)新企業(yè)獎(jiǎng)
廣電計(jì)量榮獲番禺區(qū)高質(zhì)量發(fā)展企業(yè)服務(wù)先進(jìn)集體
廣汽集團(tuán)召開2026年高質(zhì)量發(fā)展大會(huì)
廣電計(jì)量創(chuàng)新服務(wù)體系助力商業(yè)航天高質(zhì)量發(fā)展
PCBA工程師必看:高質(zhì)量BOM的5個(gè)‘隱形規(guī)則’
標(biāo)貝科技參編《人工智能高質(zhì)量數(shù)據(jù)集建設(shè)指南》
躍昉科技出席2025橫琴粵澳深度合作區(qū)企業(yè)高質(zhì)量發(fā)展大會(huì)
索尼重載設(shè)備的高質(zhì)量遠(yuǎn)程制作方案和應(yīng)用(2)
索尼重載設(shè)備的高質(zhì)量遠(yuǎn)程制作方案和應(yīng)用(1)
使用DiscoBox DL框架實(shí)現(xiàn)高質(zhì)量實(shí)例分割
評(píng)論