99在这里有精品,九九99这里只有精品,九九热都是精品

你是否好奇，計算機是如何從一張高分辨率的衛(wèi)星或航拍圖像中，精準(zhǔn)識別出幾十個甚至上百個不同目標(biāo)的？這些目標(biāo)有的呈任意方向，有的尺寸差異極大，背景更是復(fù)雜多變。面對這樣的挑戰(zhàn)，一個名為RetinaNet的深度學(xué)習(xí)模型交出了亮眼的答卷——它讓One-stage檢測器超越了傳統(tǒng)Two-stage方法的精度，成為了航空圖像分析領(lǐng)域的重要工具。

DOTA數(shù)據(jù)集

航空圖像與普通圖像不同：

目標(biāo)方向任意（不再是“正”著的汽車）

目標(biāo)尺寸變化極大（從大型橋梁到小型車輛）

背景復(fù)雜（機場、港口、居民區(qū)混雜）

DOTA數(shù)據(jù)集（Dataset forObject deTection inAerial images）正是為此而生。它包含2806張高分辨率圖像，累計標(biāo)注了超過18萬個目標(biāo)，涵蓋飛機、船舶、車輛、港口、橋梁等18個類別。

值得注意的是，DOTA的標(biāo)注方式非常特殊——用四個點的坐標(biāo)表示一個旋轉(zhuǎn)框，而不是普通的水平矩形框。這是因為航空圖像中的目標(biāo)往往朝向任意方向，只有旋轉(zhuǎn)框才能精確貼合。

每一行標(biāo)注包含10個數(shù)值，前8個是旋轉(zhuǎn)矩形四個角的坐標(biāo)，第9個是類別，第10個表示識別難易程度。標(biāo)注格式為：

（x1, y1, x2, y2, x3, y3, x4, y4, category, 0/1）*0代表容易被檢測，1代表不容易被檢測

為了讓模型更魯棒，研究者們還對圖像進(jìn)行了數(shù)據(jù)增強，包括亮度調(diào)整、加噪聲、旋轉(zhuǎn)、鏡像、平移、裁剪等。這些操作不僅增加了數(shù)據(jù)多樣性，也讓模型更好地適應(yīng)真實場景。

RetinaNet：

One-stage首次超越Two-stage

在RetinaNet出現(xiàn)之前，目標(biāo)檢測領(lǐng)域有兩個陣營：

Two-stage（如Faster R-CNN）：

精度高，但速度慢

One-stage（如SSD）：

速度快，但精度往往不如前者

RetinaNet的突破在于：它讓One-stage在精度上超越了Two-stage方法。

核心秘訣就是Focal Loss（焦點損失）。

在結(jié)構(gòu)上，RetinaNet 沒有沿用特征金字塔網(wǎng)絡(luò)（FPN）的完整路徑，而是直接從 C3 層開始生成 P3 特征層，跳過了計算量較大的 C2；P6 也不是簡單的最大池化，而是通過卷積下采樣得到，特征層級更是一直延伸到 P7，覆蓋了從幾十像素到八百多像素的廣闊目標(biāo)尺度。

在 P3 到 P7 的每一層，RetinaNet 都為每個位置預(yù)先設(shè)置了 9 個錨框——3 種尺度搭配 3 種長寬比，確保無論目標(biāo)是大是小、是方是長，都能被“框”住。

*圖片來自于文章“光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用”

在預(yù)測器的設(shè)計上，RetinaNet 采用了一種極其簡潔卻高效的思路：用兩個并行的全卷積分支，一個負(fù)責(zé)分類，一個負(fù)責(zé)回歸，而且所有特征層共享同一套卷積權(quán)重。分類分支輸出“類別數(shù) × 錨框數(shù)”的通道，回歸分支則輸出“4 × 錨框數(shù)”的偏移量參數(shù)，這種結(jié)構(gòu)既保持了計算的高效性，又讓預(yù)測結(jié)果與每個錨框一一對應(yīng)。

*圖片來自于文章“光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用”

而在樣本匹配策略上，RetinaNet 同樣干凈利落——只要錨框與真實框的交并比（IoU）大于 0.5 就視為正樣本，小于 0.4 則為負(fù)樣本，介于中間的則直接忽略。正是這樣一套“結(jié)構(gòu)+預(yù)測+匹配”的組合，為后續(xù) Focal Loss 的發(fā)揮打下了堅實的基礎(chǔ)。

*圖片來自于文章“光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用”

Focal Loss：從“淹沒”到“聚焦”

RetinaNet真正的靈魂，是Focal Loss（焦點損失）。

問題：負(fù)樣本泛濫

在單階段檢測器中，錨框數(shù)量巨大（例如幾十萬個），但正樣本往往只有幾十個。即使采用正負(fù)樣本1:3的采樣策略，訓(xùn)練過程仍然被大量容易區(qū)分的負(fù)樣本主導(dǎo)。

解決方案：動態(tài)縮放

傳統(tǒng)的交叉熵?fù)p失（CE）對所有樣本一視同仁。Focal Loss引入了一個調(diào)制因子：

當(dāng)樣本容易區(qū)分（Pt接近1）時，(1-Pt)y接近0，損失被大幅壓低。

當(dāng)樣本難以區(qū)分（Pt較小）時，調(diào)制因子接近1，損失基本保留。

配合平衡因子?t，F(xiàn)ocal Loss同時解決了正負(fù)樣本不平衡和難易樣本不平衡兩大問題。

模型量化：讓RetinaNet“輕裝上陣”

當(dāng)模型訓(xùn)練完成，下一步就是部署。在光計算等硬件平臺上，模型需要從浮點精度轉(zhuǎn)換為定點精度，這個過程稱為模型量化。

工具：MOCA

MOCA是一套基于MQBench的量化工具，支持8/4/3/2bit的定點量化，并能夠?qū)С鲞m用于光計算硬件的ONNX模型。

QAT訓(xùn)練：低比特訓(xùn)練

QAT（量化感知訓(xùn)練）通過在訓(xùn)練過程中模擬量化誤差，讓模型提前適應(yīng)低比特表示。在RetinaNet的QAT訓(xùn)練中，研究者對比了不同輸入尺寸和光計算模擬器的效果：

1024×1024輸入：mAP較高，但計算量更大

512×512輸入：速度更快，精度略有下降

最終在光計算模擬器上的測試結(jié)果證明，量化后的RetinaNet仍能保持較高的檢測精度，同時大幅提升推理效率。

如果你對技術(shù)細(xì)節(jié)感興趣，歡迎閱讀原文。

參考文獻(xiàn)

[1] 曦智科技. 光計算在RetinaNet目標(biāo)檢測任務(wù)中的應(yīng)用[EB/OL]. 2026-04-02. https://www.xztech.ai/community/cases/1.

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

計算機

計算機

+關(guān)注

關(guān)注
19

文章
7847

瀏覽量
93544
目標(biāo)檢測

目標(biāo)檢測

+關(guān)注

關(guān)注
0

文章
235

瀏覽量
16559
曦智科技

曦智科技

+關(guān)注

關(guān)注
0

文章
45

瀏覽量
8129

原文標(biāo)題：讓無人機“慧眼識物”：RetinaNet如何攻克航空圖像目標(biāo)檢測難題？

文章出處：【微信號：曦智科技，微信公眾號：曦智科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

RetinaNet深度學(xué)習(xí)模型突破航空圖像目標(biāo)檢測難題

評論