亚洲精品高清专区在线,久久亚洲天堂网

圖像標(biāo)注速度提升10倍！

這是多倫多大學(xué)與英偉達(dá)聯(lián)合公布的一項(xiàng)最新研究：Curve-GCN的應(yīng)用結(jié)果。

Curve-GCN是一種高效交互式圖像標(biāo)注方法，其性能優(yōu)于Polygon-RNN++。在自動(dòng)模式下運(yùn)行時(shí)間為29.3ms，在交互模式下運(yùn)行時(shí)間為2.6ms，比Polygon-RNN ++分別快10倍和100倍。

數(shù)據(jù)標(biāo)注是人工智能產(chǎn)業(yè)的基礎(chǔ)，在機(jī)器的世界里，圖像與語(yǔ)音、視頻等一樣，是數(shù)據(jù)的一個(gè)種類(lèi)。

對(duì)象實(shí)例分割是在圖像中概括給定類(lèi)的所有對(duì)象的問(wèn)題，這一任務(wù)在過(guò)去幾年受到了越來(lái)越多的關(guān)注，傳統(tǒng)標(biāo)記工具通常需要人工先在圖片上點(diǎn)擊光標(biāo)描記物體邊緣來(lái)進(jìn)行標(biāo)記。

然而，手動(dòng)跟蹤對(duì)象邊界是一個(gè)費(fèi)力的過(guò)程，每個(gè)對(duì)象大概需要30-60秒的時(shí)間。

為了緩解這個(gè)問(wèn)題，已經(jīng)提出了許多交互式圖像分割技術(shù)，其通過(guò)重要因素加速注釋。但是交互式分割方法大多是逐像素的（比如DEXTR），在顏色均勻的區(qū)域很難控制，所以最壞的情況下仍然需要很多點(diǎn)擊。

Polygon-RNN將humans-in-the-loop（人機(jī)回圈）過(guò)程進(jìn)行構(gòu)架，在此過(guò)程中模型按順序預(yù)測(cè)多邊形的頂點(diǎn)。通過(guò)糾正錯(cuò)誤的頂點(diǎn)，注釋器可以在發(fā)生錯(cuò)誤時(shí)進(jìn)行干預(yù)。該模型通過(guò)調(diào)整校正來(lái)繼續(xù)其預(yù)測(cè)。 Polygon-RNN顯示在人類(lèi)協(xié)議水平上產(chǎn)生注釋?zhuān)總€(gè)對(duì)象實(shí)例只需點(diǎn)擊幾下。這里最糟糕的情況是多邊形頂點(diǎn)的數(shù)量，大多數(shù)對(duì)象的范圍最多為30-40個(gè)點(diǎn)。

然而，模型的重復(fù)性將可擴(kuò)展性限制為更復(fù)雜的形狀，導(dǎo)致更難的訓(xùn)練和更長(zhǎng)的推理。此外，期望注釋器按順序糾正錯(cuò)誤，這在實(shí)踐中通常是具有挑戰(zhàn)性的。

最新研究成果中，研究人員將對(duì)象注釋框架化為回歸問(wèn)題，其中所有頂點(diǎn)的位置被同時(shí)預(yù)測(cè)。

在Curve-GCN中，注釋器會(huì)選擇一個(gè)對(duì)象,然后選擇多邊形或樣條輪廓。

Curve-GCN自動(dòng)地勾勒出對(duì)象的輪廓

Curve-GCN允許交互式更正,并且可以自動(dòng)重新預(yù)測(cè)多邊形/樣條

與Polygon-RNN + +相比：

Curve-GCN具有多邊形或樣條曲線參數(shù)

Curve-GCN可同時(shí)預(yù)測(cè)控制點(diǎn)（更快）

初始化預(yù)測(cè)

人工校正

模型校正

模型是在CityScapes數(shù)據(jù)集上訓(xùn)練的

自動(dòng)模式下的比較。從左到右:ground-truth, Polygon-GCN, Spline-GCN, ps - deeplab

跨域自動(dòng)模式。(上)cityscaps訓(xùn)練模型的開(kāi)箱即用輸出，(下)使用來(lái)自新領(lǐng)域的10%的數(shù)據(jù)進(jìn)行微調(diào)。

多倫多大學(xué)&NVIDIA最新成果圖像標(biāo)注速度提升10倍

將Polygon和Spline-GCN與Polygon-RNN ++和PSP-DeepLab進(jìn)行比較

模型在最先進(jìn)的基礎(chǔ)上進(jìn)行了改進(jìn)，速度顯著加快，允許只具有局部效果的交互式更正，從而為注釋器提供了更多的控制。這將導(dǎo)致更好的整體注釋策略。

論文摘要

通過(guò)邊界跟蹤來(lái)手動(dòng)標(biāo)記對(duì)象是一個(gè)繁重的過(guò)程。在Polygon-RNN ++中，作者提出了Polygon-RNN，它使用CNN-RNN架構(gòu)以循環(huán)方式產(chǎn)生多邊形注釋?zhuān)试S通過(guò)humans-in-the-loop（人機(jī)回圈）的方式進(jìn)行交互式校正。

我們提出了一個(gè)新的框架，通過(guò)使用圖形卷積網(wǎng)絡(luò)（GCN）同時(shí)預(yù)測(cè)所有頂點(diǎn)，減輕了Polygon-RNN的時(shí)序性。我們的模型是端到端訓(xùn)練的。它支持多邊形或樣條對(duì)對(duì)象進(jìn)行標(biāo)注，從而提高了基于線和曲線對(duì)象的標(biāo)注效率。結(jié)果表明，在自動(dòng)模式下，Curve-GCN的性能優(yōu)于現(xiàn)有的所有方法，包括功能強(qiáng)大的PSP-DeepLab，并且在交互模式下，Curve-GCN的效率明顯高于Polygon-RNN++。我們的模型在自動(dòng)模式下運(yùn)行29.3ms，在交互模式下運(yùn)行2.6ms，比Polygon-RNN ++分別快10倍和100倍。

多倫多大學(xué)&NVIDIA最新成果圖像標(biāo)注速度提升10倍

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴