你是否好奇,計算機是如何從一張高分辨率的衛(wèi)星或航拍圖像中,精準(zhǔn)識別出幾十個甚至上百個不同目標(biāo)的?這些目標(biāo)有的呈任意方向,有的尺寸差異極大,背景更是復(fù)雜多變。面對這樣的挑戰(zhàn),一個名為RetinaNet的深度學(xué)習(xí)模型交出了亮眼的答卷——它讓One-stage檢測器超越了傳統(tǒng)Two-stage方法的精度,成為了航空圖像分析領(lǐng)域的重要工具。
DOTA數(shù)據(jù)集
航空圖像與普通圖像不同:
目標(biāo)方向任意(不再是“正”著的汽車)
目標(biāo)尺寸變化極大(從大型橋梁到小型車輛)
背景復(fù)雜(機場、港口、居民區(qū)混雜)
DOTA數(shù)據(jù)集(Dataset forObject deTection inAerial images)正是為此而生。它包含2806張高分辨率圖像,累計標(biāo)注了超過18萬個目標(biāo),涵蓋飛機、船舶、車輛、港口、橋梁等18個類別。
值得注意的是,DOTA的標(biāo)注方式非常特殊——用四個點的坐標(biāo)表示一個旋轉(zhuǎn)框,而不是普通的水平矩形框。這是因為航空圖像中的目標(biāo)往往朝向任意方向,只有旋轉(zhuǎn)框才能精確貼合。
每一行標(biāo)注包含10個數(shù)值,前8個是旋轉(zhuǎn)矩形四個角的坐標(biāo),第9個是類別,第10個表示識別難易程度。標(biāo)注格式為:
(x1, y1, x2, y2, x3, y3, x4, y4, category, 0/1)*0代表容易被檢測,1代表不容易被檢測
為了讓模型更魯棒,研究者們還對圖像進(jìn)行了數(shù)據(jù)增強,包括亮度調(diào)整、加噪聲、旋轉(zhuǎn)、鏡像、平移、裁剪等。這些操作不僅增加了數(shù)據(jù)多樣性,也讓模型更好地適應(yīng)真實場景。
RetinaNet:
One-stage首次超越Two-stage
在RetinaNet出現(xiàn)之前,目標(biāo)檢測領(lǐng)域有兩個陣營:
Two-stage(如Faster R-CNN):
精度高,但速度慢
One-stage(如SSD):
速度快,但精度往往不如前者
RetinaNet的突破在于:它讓One-stage在精度上超越了Two-stage方法。
核心秘訣就是Focal Loss(焦點損失)。
在結(jié)構(gòu)上,RetinaNet 沒有沿用特征金字塔網(wǎng)絡(luò)(FPN)的完整路徑,而是直接從 C3 層開始生成 P3 特征層,跳過了計算量較大的 C2;P6 也不是簡單的最大池化,而是通過卷積下采樣得到,特征層級更是一直延伸到 P7,覆蓋了從幾十像素到八百多像素的廣闊目標(biāo)尺度。
在 P3 到 P7 的每一層,RetinaNet 都為每個位置預(yù)先設(shè)置了 9 個錨框——3 種尺度搭配 3 種長寬比,確保無論目標(biāo)是大是小、是方是長,都能被“框”住。

*圖片來自于文章“光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用”
在預(yù)測器的設(shè)計上,RetinaNet 采用了一種極其簡潔卻高效的思路:用兩個并行的全卷積分支,一個負(fù)責(zé)分類,一個負(fù)責(zé)回歸,而且所有特征層共享同一套卷積權(quán)重。分類分支輸出“類別數(shù) × 錨框數(shù)”的通道,回歸分支則輸出“4 × 錨框數(shù)”的偏移量參數(shù),這種結(jié)構(gòu)既保持了計算的高效性,又讓預(yù)測結(jié)果與每個錨框一一對應(yīng)。

*圖片來自于文章“光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用”
而在樣本匹配策略上,RetinaNet 同樣干凈利落——只要錨框與真實框的交并比(IoU)大于 0.5 就視為正樣本,小于 0.4 則為負(fù)樣本,介于中間的則直接忽略。正是這樣一套“結(jié)構(gòu)+預(yù)測+匹配”的組合,為后續(xù) Focal Loss 的發(fā)揮打下了堅實的基礎(chǔ)。

*圖片來自于文章“光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用”
Focal Loss:從“淹沒”到“聚焦”
RetinaNet真正的靈魂,是Focal Loss(焦點損失)。
問題:負(fù)樣本泛濫
在單階段檢測器中,錨框數(shù)量巨大(例如幾十萬個),但正樣本往往只有幾十個。即使采用正負(fù)樣本1:3的采樣策略,訓(xùn)練過程仍然被大量容易區(qū)分的負(fù)樣本主導(dǎo)。
解決方案:動態(tài)縮放
傳統(tǒng)的交叉熵?fù)p失(CE)對所有樣本一視同仁。Focal Loss引入了一個調(diào)制因子:

當(dāng)樣本容易區(qū)分(Pt接近1)時,(1-Pt)y接近0,損失被大幅壓低。
當(dāng)樣本難以區(qū)分(Pt較小)時,調(diào)制因子接近1,損失基本保留。
配合平衡因子?t,F(xiàn)ocal Loss同時解決了正負(fù)樣本不平衡和難易樣本不平衡兩大問題。
模型量化:讓RetinaNet“輕裝上陣”
當(dāng)模型訓(xùn)練完成,下一步就是部署。在光計算等硬件平臺上,模型需要從浮點精度轉(zhuǎn)換為定點精度,這個過程稱為模型量化。
工具:MOCA
MOCA是一套基于MQBench的量化工具,支持8/4/3/2bit的定點量化,并能夠?qū)С鲞m用于光計算硬件的ONNX模型。
QAT訓(xùn)練:低比特訓(xùn)練
QAT(量化感知訓(xùn)練)通過在訓(xùn)練過程中模擬量化誤差,讓模型提前適應(yīng)低比特表示。在RetinaNet的QAT訓(xùn)練中,研究者對比了不同輸入尺寸和光計算模擬器的效果:
1024×1024輸入:mAP較高,但計算量更大
512×512輸入:速度更快,精度略有下降
最終在光計算模擬器上的測試結(jié)果證明,量化后的RetinaNet仍能保持較高的檢測精度,同時大幅提升推理效率。
如果你對技術(shù)細(xì)節(jié)感興趣,歡迎閱讀原文。
參考文獻(xiàn)
[1] 曦智科技. 光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用[EB/OL]. 2026-04-02. https://www.xztech.ai/community/cases/1.
-
計算機
+關(guān)注
關(guān)注
19文章
7847瀏覽量
93544 -
目標(biāo)檢測
+關(guān)注
關(guān)注
0文章
235瀏覽量
16559 -
曦智科技
+關(guān)注
關(guān)注
0文章
45瀏覽量
8129
原文標(biāo)題:讓無人機“慧眼識物”:RetinaNet如何攻克航空圖像目標(biāo)檢測難題?
文章出處:【微信號:曦智科技,微信公眾號:曦智科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型
全網(wǎng)唯一一套labview深度學(xué)習(xí)教程:tensorflow+目標(biāo)檢測:龍哥教你學(xué)視覺—LabVIEW深度學(xué)習(xí)教程
航空圖像壓縮系統(tǒng)的DSP設(shè)計及實現(xiàn)
航空圖像壓縮系統(tǒng)的DSP設(shè)計方案解析
基于深度卷積神經(jīng)網(wǎng)絡(luò)的航空器目標(biāo)檢測與識別
一種新的目標(biāo)分類特征深度學(xué)習(xí)模型
基于深度學(xué)習(xí)模型的點云目標(biāo)檢測及ROS實現(xiàn)
如何使用深度學(xué)習(xí)進(jìn)行視頻行人目標(biāo)檢測
探究深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用與展望
基于深度學(xué)習(xí)的圖像修復(fù)模型及實驗對比
雙向特征融合的數(shù)據(jù)自適應(yīng)SAR圖像艦船目標(biāo)檢測模型
基于深度學(xué)習(xí)的目標(biāo)檢測研究綜述
使用航空圖像和深度學(xué)習(xí)算法識別被野火破壞的結(jié)構(gòu)
簡述深度學(xué)習(xí)的基準(zhǔn)目標(biāo)檢測及其衍生算法
RetinaNet深度學(xué)習(xí)模型突破航空圖像目標(biāo)檢測難題
評論