這篇論文介紹了一種名為RT-DETR的實時檢測Transformer,是第一個實時端到端目標檢測器。該方法通過設(shè)計高效的混合編碼器和IoU感知的查詢選擇,有效處理多尺度特征,并支持靈活調(diào)整推斷速度,無需重新訓(xùn)練。在COCO val2017數(shù)據(jù)集上,RT-DETR-L實現(xiàn)了53.0%的AP和114 FPS,RT-DETR-X實現(xiàn)了54.8%的AP和74 FPS,RT-DETR-R50實現(xiàn)了53.1%的AP和108 FPS,性能優(yōu)于同等規(guī)模的YOLO檢測器和DINO-DeformableDETR-R50模型。

讀者理解:
本文提出了一種新的實時端到端目標檢測器RT-DETR,并通過詳細的分析和實驗證明了其在速度和準確性方面的優(yōu)勢。文章對NMS進行了深入的分析,并指出了當(dāng)前實時檢測器中存在的問題,為提出新的解決方案提供了理論基礎(chǔ)。RT-DETR的設(shè)計理念和實驗結(jié)果為實時目標檢測領(lǐng)域的研究和應(yīng)用提供了新的思路和方法。整體來說,這篇文章對實時目標檢測領(lǐng)域具有重要的學(xué)術(shù)和應(yīng)用價值。
1 引言
目標檢測是一項重要的視覺任務(wù),涉及在圖像中識別和定位物體?,F(xiàn)代目標檢測器有兩種典型架構(gòu):基于CNN和基于Transformer。基于CNN的檢測器架構(gòu)從最初的兩階段發(fā)展到單階段,并出現(xiàn)了基于錨點和基于無錨點的檢測范式。這些研究取得了顯著進展?;赥ransformer的目標檢測器(DETRs)自提出以來受到廣泛關(guān)注,因為它消除了各種手工制作的組件,如非最大抑制(NMS),實現(xiàn)了端到端的目標檢測。實時目標檢測是一個重要的研究領(lǐng)域,現(xiàn)有的實時檢測器通常采用基于CNN的架構(gòu),但需要NMS進行后處理,導(dǎo)致推理速度延遲。
近年來,基于Transformer的檢測器取得了顯著進展,但其高計算成本限制了實際應(yīng)用。為了解決這些問題,作者提出了實時檢測Transformer(RT-DETR),是第一個實時端到端目標檢測器,不需要后處理,推理速度穩(wěn)定。RT-DETR在速度和準確性上均優(yōu)于當(dāng)前最先進的實時檢測器,成為新的SOTA。

2 探測器端到端速度
2.1 NMS的分析
本部分介紹了目標檢測中常用的后處理算法非極大值抑制(NMS),用于消除檢測器輸出的重疊預(yù)測框。NMS需要兩個超參數(shù):分數(shù)閾值和IoU閾值。作者通過實驗驗證了NMS對這兩個超參數(shù)的敏感性,并展示了NMS操作在不同超參數(shù)下的執(zhí)行時間。實驗結(jié)果表明,NMS的執(zhí)行時間主要取決于輸入預(yù)測框的數(shù)量和超參數(shù)的選擇。此外,作者還介紹了實驗中使用的模型(YOLOv5和YOLOv8)以及評估準確性和執(zhí)行時間的方法。這些實驗結(jié)果有助于更好地理解NMS在目標檢測中的作用和影響。
2.2 端到端速度基準
本部分介紹了建立了一個端到端速度測試基準,以公平比較各種實時檢測器的推理速度。選擇了COCO val2017作為默認數(shù)據(jù)集,并使用了TensorRT的NMS后處理插件。通過測試基于錨點的檢測器(如YOLOv5和YOLOv7)以及無錨點檢測器(如PP-YOLOE、YOLOv6和YOLOv8)在T4 GPU上的端到端速度,發(fā)現(xiàn)無錨點檢測器在等效準確性下優(yōu)于基于錨點的檢測器,因為前者的后處理時間明顯少于后者。這對于實時檢測器的后處理時間進行了新的探討,為實時目標檢測提供了重要的參考。
3 實時DETR

3.1
本部分介紹了提出的實時DETR(RT-DETR)的模型架構(gòu)。RT-DETR由骨干網(wǎng)絡(luò)、混合編碼器和Transformer解碼器組成,解碼器帶有輔助預(yù)測頭。模型利用骨干網(wǎng)絡(luò)最后三個階段的輸出特征作為編碼器的輸入,然后通過混合編碼器將多尺度特征轉(zhuǎn)換為圖像特征序列。接下來,使用IoU感知的查詢選擇從編碼器輸出序列中選擇一定數(shù)量的圖像特征作為解碼器的初始對象查詢。最后,解碼器利用輔助預(yù)測頭迭代優(yōu)化對象查詢,生成框和置信度分數(shù)。這種架構(gòu)使得RT-DETR能夠?qū)崿F(xiàn)端到端的實時目標檢測。

3.2 高效混合編碼器
本部分詳細介紹了實時DETR中的高效混合編碼器的設(shè)計和優(yōu)化。作者通過分析多尺度Transformer編碼器中的計算冗余,提出了一種新穎的編碼器結(jié)構(gòu)。該編碼器包括兩個模塊,即基于注意力的內(nèi)部尺度特征交互(AIFI)模塊和基于CNN的跨尺度特征融合模塊(CCFM)。AIFI模塊在高級特征上執(zhí)行內(nèi)部尺度交互,以捕捉圖像中概念實體之間的關(guān)系。而CCFM模塊則通過融合塊實現(xiàn)跨尺度特征融合,進一步優(yōu)化了編碼器性能。通過實驗驗證,這種編碼器結(jié)構(gòu)顯著降低了計算成本,同時提高了模型的準確性和實時性,為實時目標檢測提供了重要的技術(shù)支持。
3.3 基于IoU的查詢選擇
本部分介紹了IoU感知的查詢選擇方法,用于在DETR模型中選擇高質(zhì)量的編碼器特征作為對象查詢的初始化。傳統(tǒng)的查詢選擇方法可能導(dǎo)致選擇具有高分類分數(shù)但低IoU分數(shù)的特征,從而降低了檢測器的性能。為了解決這個問題,提出了IoU感知的查詢選擇,通過在訓(xùn)練期間約束模型對具有高IoU分數(shù)的特征產(chǎn)生高分類分數(shù),并對具有低IoU分數(shù)的特征產(chǎn)生低分類分數(shù)。實驗結(jié)果表明,這種方法可以提供更準確的分類和定位結(jié)果,從而提高了檢測器的準確性。
3.4 縮放RT-DETR
本部分介紹了縮放的RT-DETR,通過將ResNet骨干網(wǎng)絡(luò)替換為HGNetv2來提供可擴展的版本。我們使用深度倍增器和寬度倍增器一起縮放骨干網(wǎng)絡(luò)和混合編碼器。因此,我們得到了兩個具有不同參數(shù)數(shù)量和FPS的RT-DETR版本。對于我們的混合編碼器,我們通過調(diào)整CCFM中RepBlocks的數(shù)量和編碼器的嵌入維度來控制深度倍增器和寬度倍增器。值得注意的是,我們提出的不同規(guī)模的RT-DETR保持了相同的解碼器,這有助于使用高精度大型DETR模型對輕量級檢測器進行蒸餾。

4 實驗
該部分介紹了實驗設(shè)置和結(jié)果。實驗在Microsoft COCO數(shù)據(jù)集上進行,使用COCO train2017進行訓(xùn)練,使用COCO val2017進行驗證。使用單尺度圖像作為輸入,采用標準的COCO AP指標評估性能。使用在ImageNet上預(yù)訓(xùn)練的ResNet和HGNetv2作為骨干網(wǎng)絡(luò),AIFI由1個transformer層組成,CCMF中的融合塊默認由3個RepBlocks組成。在IoU感知的查詢選擇中,選擇前300個編碼器特征來初始化解碼器的對象查詢。訓(xùn)練策略和解碼器的超參數(shù)幾乎遵循DINO。使用AdamW優(yōu)化器進行訓(xùn)練,基礎(chǔ)學(xué)習(xí)率為0.0001,權(quán)重衰減為0.0001,全局梯度剪裁范數(shù)為5。實驗結(jié)果表明,使用IoU感知的查詢選擇可以提高檢測器的準確性。


總結(jié)
在本文中,提出了RT-DETR,據(jù)作者所知是第一個實時端到端檢測器。作者首先對NMS進行了詳細分析,并建立了一個端到端速度基準,驗證了當(dāng)前實時檢測器的推理速度受到NMS延遲的事實。作者還從NMS的分析中得出結(jié)論,無錨點檢測器在相同準確性下優(yōu)于基于錨點的檢測器。為了避免NMS造成的延遲,設(shè)計了一個實時端到端檢測器,包括兩個關(guān)鍵改進組件:一個能夠高效處理多尺度特征的混合編碼器和提高對象查詢初始化的IoU感知查詢選擇。大量實驗證明,與其他實時檢測器和相似大小的端到端檢測器相比,RT-DETR在速度和準確性上均達到了最先進的水平。此外,提出的檢測器支持通過使用不同的解碼器層靈活調(diào)整推理速度,無需重新訓(xùn)練,這有利于實時目標檢測器的實際應(yīng)用。
審核編輯:劉清
-
檢測器
+關(guān)注
關(guān)注
1文章
948瀏覽量
50137 -
編解碼器
+關(guān)注
關(guān)注
0文章
291瀏覽量
25520 -
FPS
+關(guān)注
關(guān)注
0文章
35瀏覽量
12377 -
NMS
+關(guān)注
關(guān)注
0文章
9瀏覽量
6193
原文標題:CVPR'24 | 百度開源DETRs在實時目標檢測中勝過YOLOs
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
巧借SEO查詢工具 優(yōu)化百度排名技術(shù)教程
百度智能手環(huán)方案全開源包括硬件原理圖、BOM清單和源代碼
百度總裁:百度在人工智能領(lǐng)域已有重大突破
百度智能手環(huán)方開源項目設(shè)計方案
百度宣布量子計算研究所成立
百度大數(shù)據(jù)怎么使用
百度投資開源中國的意義是什么
百度超級鏈在金融行業(yè)中的應(yīng)用介紹
百度一步到位解決復(fù)工難題,可多人實時體溫檢測
百度在徘徊中盯緊AI,AI真的能夠撐起百度的未來嗎?
百度王海峰:自研云端AI通用芯片百度昆侖1已實現(xiàn)量產(chǎn)
百度戰(zhàn)略贊助 GOTC 2021,詳解最活躍的自動駕駛開源平臺Apollo
百度開源DETRs在實時目標檢測中勝過YOLOs
評論