日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測(cè)的擴(kuò)散模型

CVer ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-22 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴(kuò)散模型不但在生成任務(wù)上非常成功,這次在目標(biāo)檢測(cè)任務(wù)上,更是超越了成熟的目標(biāo)檢測(cè)器。

擴(kuò)散模型( Diffusion Model )作為深度生成模型中的新 SOTA,已然在圖像生成任務(wù)中超越了原 SOTA:例如 GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn),如計(jì)算機(jī)視覺(jué),NLP、分子圖建模、時(shí)間序列建模等。

近日,來(lái)自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè)。據(jù)了解,還沒(méi)有研究可以成功地將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè),可以說(shuō)這是第一個(gè)采用擴(kuò)散模型進(jìn)行目標(biāo)檢測(cè)的工作。

DiffusionDet 的性能如何呢?在 MS-COCO 數(shù)據(jù)集上進(jìn)行評(píng)估,使用 ResNet-50 作為骨干,在單一采樣 step 下,DiffusionDet 實(shí)現(xiàn) 45.5 AP,顯著優(yōu)于 Faster R-CNN (40.2 AP), DETR (42.0 AP),并與 Sparse R-CNN (45.0 AP)相當(dāng)。通過(guò)增加采樣 step 的數(shù)量,進(jìn)一步將 DiffusionDet 性能提高到 46.2 AP。此外,在 LVIS 數(shù)據(jù)集上,DiffusionDet 也表現(xiàn)良好,使用 swin - base 作為骨干實(shí)現(xiàn)了 42.1 AP。

26646820-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet: Diffusion Model for Object Detection

論文地址:https://arxiv.org/abs/2211.09788

項(xiàng)目地址(剛剛開(kāi)源):

https://github.com/ShoufaChen/DiffusionDet

該研究發(fā)現(xiàn)在傳統(tǒng)的目標(biāo)檢測(cè)里,存在一個(gè)缺陷,即它們依賴(lài)于一組固定的可學(xué)習(xí)查詢(xún)。然后研究者就在思考:是否存在一種簡(jiǎn)單的方法甚至不需要可學(xué)習(xí)查詢(xún)就能進(jìn)行目標(biāo)檢測(cè)?

為了回答這一問(wèn)題,本文提出了 DiffusionDet,該框架可以直接從一組隨機(jī)框中檢測(cè)目標(biāo),它將目標(biāo)檢測(cè)制定為從噪聲框到目標(biāo)框的去噪擴(kuò)散過(guò)程。這種從 noise-to-box 的方法不需要啟發(fā)式的目標(biāo)先驗(yàn),也不需要可學(xué)習(xí)查詢(xún),這進(jìn)一步簡(jiǎn)化了目標(biāo)候選,并推動(dòng)了檢測(cè) pipeline 的發(fā)展。

如下圖 1 所示,該研究認(rèn)為 noise-to-box 范式類(lèi)似于去噪擴(kuò)散模型中的 noise-to-image 過(guò)程,后者是一類(lèi)基于似然的模型,通過(guò)學(xué)習(xí)到的去噪模型逐步去除圖像中的噪聲來(lái)生成圖像。

267b6eee-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet 通過(guò)擴(kuò)散模型解決目標(biāo)檢測(cè)任務(wù),即將檢測(cè)看作圖像中 bounding box 位置 (中心坐標(biāo)) 和大小 (寬度和高度) 空間上的生成任務(wù)。在訓(xùn)練階段,將方差表(schedule)控制的高斯噪聲添加到 ground truth box,得到 noisy box。然后使用這些 noisy box 從主干編碼器(如 ResNet, Swin Transformer)的輸出特征圖中裁剪感興趣區(qū)域(RoI)。最后,將這些 RoI 特征發(fā)送到檢測(cè)解碼器,該解碼器被訓(xùn)練用來(lái)預(yù)測(cè)沒(méi)有噪聲的 ground truth box。在推理階段,DiffusionDet 通過(guò)反轉(zhuǎn)學(xué)習(xí)到的擴(kuò)散過(guò)程生成 bounding box,它將噪聲先驗(yàn)分布調(diào)整到 bounding box 上的學(xué)習(xí)分布。

方法概述

由于擴(kuò)散模型迭代地生成數(shù)據(jù)樣本,因此在推理階段需要多次運(yùn)行模型 f_θ。但是,在每一個(gè)迭代步驟中,直接在原始圖像上應(yīng)用 f_θ在計(jì)算上很困難。因此,研究者提出將整個(gè)模型分為兩部分,即圖像編碼器和檢測(cè)解碼器,前者只運(yùn)行一次以從原始輸入圖像 x 中提取深度特征表示,后者以該深度特征為條件,從噪聲框 z_t 中逐步細(xì)化框預(yù)測(cè)。

圖像編碼器將原始圖像作為輸入,并為檢測(cè)解碼器提取其高級(jí)特征。研究者使用 ResNet 等卷積神經(jīng)網(wǎng)絡(luò)和 Swin 等基于 Transformer 的模型來(lái)實(shí)現(xiàn) DiffusionDet。與此同時(shí),特征金字塔網(wǎng)絡(luò)用于為 ResNet 和 Swin 主干網(wǎng)絡(luò)生成多尺度特征圖。

檢測(cè)解碼器借鑒了 Sparse R-CNN,將一組 proposal 框作為輸入,從圖像編碼器生成的特征圖中裁剪 RoI 特征,并將它們發(fā)送到檢測(cè)頭以獲得框回歸和分類(lèi)結(jié)果。此外,該檢測(cè)解碼器由 6 個(gè)級(jí)聯(lián)階段組成。

訓(xùn)練

在訓(xùn)練過(guò)程中,研究者首先構(gòu)建了從真值框到噪聲框的擴(kuò)散過(guò)程,然后訓(xùn)練模型來(lái)反轉(zhuǎn)這個(gè)過(guò)程。如下算法 1 提供了 DiffusionDet 訓(xùn)練過(guò)程的偽代碼。

273d5d42-69b7-11ed-8abf-dac502259ad0.png

真值框填充。對(duì)于現(xiàn)代目標(biāo)檢測(cè)基準(zhǔn),感興趣實(shí)例的數(shù)量通常因圖像而異。因此,研究者首先將一些額外的框填充到原始真值框,這樣所有的框被總計(jì)為一個(gè)固定的數(shù)字 N_train。他們探索了幾種填充策略,例如重復(fù)現(xiàn)有真值框、連接隨機(jī)框或圖像大小的框。

框損壞。研究者將高斯噪聲添加到填充的真值框。噪聲尺度由如下公式(1)中的 α_t 控制,它在不同的時(shí)間步 t 中采用單調(diào)遞減的余弦調(diào)度。

274eb312-69b7-11ed-8abf-dac502259ad0.png

訓(xùn)練損失。檢測(cè)解碼器將 N_train 損壞框作為輸入,預(yù)測(cè) N_train 對(duì)類(lèi)別分類(lèi)和框坐標(biāo)的預(yù)測(cè)。同時(shí)在 N_train 預(yù)測(cè)集上應(yīng)用集預(yù)測(cè)損失(set prediction loss)。

推理

DiffusionDet 的推理過(guò)程是從噪聲到目標(biāo)框的去噪采樣過(guò)程。從在高斯分布中采樣的框開(kāi)始,該模型逐步細(xì)化其預(yù)測(cè),具體如下算法 2 所示。

275bd844-69b7-11ed-8abf-dac502259ad0.png

采樣步驟。在每個(gè)采樣步驟中,將上一個(gè)采樣步驟中的隨機(jī)框或估計(jì)框發(fā)送到檢測(cè)解碼器,以預(yù)測(cè)類(lèi)別分類(lèi)和框坐標(biāo)。在獲得當(dāng)前步驟的框后,采用 DDIM 來(lái)估計(jì)下一步驟的框。

框更新。為了使推理更好地與訓(xùn)練保持一致,研究者提出了框更新策略,通過(guò)用隨機(jī)框替換非預(yù)期的框以使它們恢復(fù)。具體來(lái)說(shuō),他們首先過(guò)濾掉分?jǐn)?shù)低于特定閾值的非預(yù)期的框,然后將剩余的框與從高斯分布中采樣的新隨機(jī)框連接起來(lái)。

一次解決(Once-for-all)。得益于隨機(jī)框設(shè)計(jì),研究者可以使用任意數(shù)量的隨機(jī)框和采樣步驟來(lái)評(píng)估 DiffusionDet。作為比較,以往的方法在訓(xùn)練和評(píng)估期間依賴(lài)于相同數(shù)量的處理框,并且檢測(cè)解碼器在前向傳遞中僅使用一次。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,研究者首先展示了 DiffusionDet 的 Once-for-all 屬性,然后將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上成熟的檢測(cè)器進(jìn)行比較。

DiffusionDet 的主要特性在于對(duì)所有推理實(shí)例進(jìn)行一次訓(xùn)練。一旦模型經(jīng)過(guò)訓(xùn)練,它就可以用于更改推理中框的數(shù)量和樣本步驟數(shù),如下圖 4 所示。DiffusionDet 可以通過(guò)使用更多框或 / 和更多細(xì)化步驟來(lái)實(shí)現(xiàn)更高的準(zhǔn)確度,但代價(jià)是延遲率更高。因此,研究者將單個(gè) DiffusionDet 部署到多個(gè)場(chǎng)景中,并在不重新訓(xùn)練網(wǎng)絡(luò)的情況下獲得所需的速度 - 準(zhǔn)確率權(quán)衡。

276e7d64-69b7-11ed-8abf-dac502259ad0.png

研究者將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上的檢測(cè)器進(jìn)行了比較,具體如下表 1 所示。他們首先將 DiffusionDet 的目標(biāo)檢測(cè)性能與以往在 MS-COCO 上的檢測(cè)器進(jìn)行了比較。結(jié)果顯示,沒(méi)有細(xì)化步驟的 DiffusionDet 使用 ResNet-50 主干網(wǎng)絡(luò)實(shí)現(xiàn)了 45.5 AP,以較大的優(yōu)勢(shì)超越了以往成熟的方法,如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且當(dāng)主干網(wǎng)絡(luò)的尺寸擴(kuò)大時(shí),DiffusionDet 顯示出穩(wěn)定的提升。

279bbc34-69b7-11ed-8abf-dac502259ad0.png

下表 2 中展示了在更具挑戰(zhàn)性的 LVIS 數(shù)據(jù)集上的結(jié)果,可以看到,DiffusionDet 使用更多的細(xì)化步驟可以獲得顯著的增益。

27ba672e-69b7-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:港大&騰訊提出DiffusionDet:第一個(gè)用于目標(biāo)檢測(cè)的擴(kuò)散模型

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    睿擎平臺(tái)AMP共享內(nèi)存:Linux 與 RT-Thread 高速數(shù)據(jù)交換

    AMP(AsymmetricMulti-Processing,非對(duì)稱(chēng)多處理)混合部署架構(gòu)中,Linux和RT-Thread運(yùn)行在同顆芯片的兩個(gè)不同核心上,如何高效地在兩個(gè)系統(tǒng)之間傳
    的頭像 發(fā)表于 04-22 18:09 ?331次閱讀
    睿擎平臺(tái)<b class='flag-5'>AMP</b>共享內(nèi)存:Linux 與 RT-Thread 高速數(shù)據(jù)交換

    種可跨不同領(lǐng)域的異常檢測(cè)通用模型UniOD介紹

    本研究提出種可跨不同領(lǐng)域、適用于特征維度各異且特征空間異構(gòu)的數(shù)據(jù)集的異常檢測(cè)通用模型。
    的頭像 發(fā)表于 03-18 09:09 ?572次閱讀
    <b class='flag-5'>一</b>種可跨不同領(lǐng)域的異常<b class='flag-5'>檢測(cè)</b>通用<b class='flag-5'>模型</b>UniOD介紹

    量子計(jì)算610μm長(zhǎng)程傳輸:解析6,100個(gè)原子陣列背后的G&amp;amp;H AOD

    G&amp;H AOD 4085為實(shí)現(xiàn)6,100個(gè)原子在中性原子量子計(jì)算不同功能區(qū)間的精準(zhǔn)調(diào)度提供了可能性。憑借15mm大孔徑與30MHz寬帶寬,動(dòng)態(tài)光鑷支撐起跨越 610 μm 的長(zhǎng)程高速傳輸。
    的頭像 發(fā)表于 03-11 09:54 ?233次閱讀
    量子計(jì)算610μm長(zhǎng)程傳輸:解析6,100<b class='flag-5'>個(gè)</b>原子陣列背后的G&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;H AOD

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    R&amp;SZNB3000以業(yè)界領(lǐng)先的測(cè)量速度、出色的擴(kuò)展能力及流射頻性能,為中端矢量網(wǎng)絡(luò)分析儀市場(chǎng)樹(shù)立了新標(biāo)桿。隨著高頻型號(hào)的加入,R&amp;SZNB3000將覆蓋更廣泛的應(yīng)用場(chǎng)景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?809次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    商湯絕影開(kāi)悟世界模型綜合能力位列中國(guó)第一

    2025年9月23日,全球知名增長(zhǎng)咨詢(xún)公司弗若斯特沙利文(Frost &amp; Sulllivan,簡(jiǎn)稱(chēng)“沙利文”)發(fā)布《2025年中國(guó)世界模型發(fā)展白皮書(shū)》報(bào)告。
    的頭像 發(fā)表于 09-29 14:13 ?1169次閱讀

    廣和通發(fā)布端側(cè)目標(biāo)檢測(cè)模型FiboDet

    為提升端側(cè)設(shè)備視覺(jué)感知與決策能力,廣和通全自研端側(cè)目標(biāo)檢測(cè)模型FiboDet應(yīng)運(yùn)而生。該模型基于廣和通在邊緣計(jì)算與人工智能領(lǐng)域的深度積累,面向工業(yè)、交通、零售等多個(gè)行業(yè)提供高性能、低功
    的頭像 發(fā)表于 09-26 13:39 ?1741次閱讀

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)集后直顯示數(shù)據(jù)正在解析,為什么?

    AIcube1.4目標(biāo)檢測(cè)模型導(dǎo)入yolotxt格式數(shù)據(jù)集后直顯示數(shù)據(jù)正在解析 數(shù)據(jù)有問(wèn)題,把數(shù)據(jù)情況說(shuō)的詳細(xì)點(diǎn)
    發(fā)表于 08-13 07:16

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類(lèi)音頻功率放大器

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類(lèi)音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?902次閱讀
    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類(lèi)音頻功率放大器

    【RA4L1-SENSOR】電壓檢測(cè)第一個(gè)程序增加 FreeRTOS顯示量程0-3300 mV和量程0-15000mV]

    續(xù)前【RA4L1-SENSOR】電壓檢測(cè)器3。第一個(gè)程序增加 LCD顯示量程0-3300 mV 大多數(shù)操作系統(tǒng)似乎能同時(shí)執(zhí)行多個(gè)程序。這稱(chēng)為多任務(wù)處理。隨著應(yīng)用程序變得越來(lái)越復(fù)雜,[單片機(jī)]裸機(jī)開(kāi)發(fā)
    發(fā)表于 07-11 10:53

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】在 VisionFive 2 上為目標(biāo)檢測(cè)準(zhǔn)備軟件環(huán)境并運(yùn)行 MobileNet-SSD 模型

    目標(biāo): 本教程將實(shí)現(xiàn)在 StarFive VisionFive 2 開(kāi)發(fā)板上為目標(biāo)檢測(cè)應(yīng)用準(zhǔn)備所需軟件環(huán)境,并最終運(yùn)行個(gè)基于 Mobile
    發(fā)表于 07-10 19:51

    Texas Instruments AMP-PDK-EVM子板開(kāi)發(fā)套件數(shù)據(jù)手冊(cè)

    Texas Instruments AMP-PDK-EVM子板開(kāi)發(fā)套件設(shè)計(jì)用于搭配AMP-PDK-EVM主板使用。子板套件選項(xiàng)適用于不同封裝型號(hào)。引腳數(shù)支持器件的關(guān)斷和非關(guān)斷型號(hào)。TI
    的頭像 發(fā)表于 07-09 14:15 ?1070次閱讀
    Texas Instruments <b class='flag-5'>AMP</b>-PDK-EVM子板開(kāi)發(fā)套件數(shù)據(jù)手冊(cè)

    新知|Verizon與AT&amp;amp;amp;T也可以手機(jī)直接連接衛(wèi)星了

    與Starlink星鏈合作的反擊。早些時(shí)候,T-Mobile宣布其手機(jī)直連衛(wèi)星服務(wù)開(kāi)放測(cè)試,任何用戶都可以申請(qǐng)測(cè)試,并在第一階段提供衛(wèi)星消息服務(wù)。AT&amp;T通過(guò)手機(jī)直連衛(wèi)星視頻通話早前,星鏈
    的頭像 發(fā)表于 06-19 07:07 ?1406次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    基于LockAI視覺(jué)識(shí)別模塊:C++目標(biāo)檢測(cè)

    是基于百度飛槳深度學(xué)習(xí)框架開(kāi)發(fā)的個(gè)高效的目標(biāo)檢測(cè)庫(kù),支持多種先進(jìn)的目標(biāo)檢測(cè)
    發(fā)表于 06-06 14:43

    馬斯克回歸“7×24硬核模式”,F(xiàn)SD與Optimus雙線狂飆

    這場(chǎng) &amp;quot;馬斯克式狂飆&amp;quot; 能否沖破技術(shù)瓶頸與市場(chǎng)質(zhì)疑?2025 年的得州街頭,或許會(huì)給出第一個(gè)答案。
    的頭像 發(fā)表于 05-27 16:18 ?783次閱讀

    多模塊配置!YU系列USB、Type-C連接器為工控機(jī)打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機(jī)是類(lèi)用于工業(yè)、野外等復(fù)雜惡劣環(huán)境的專(zhuān)用計(jì)算機(jī)設(shè)備,如何實(shí)現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關(guān)鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴(yán)苛環(huán)境適配性及長(zhǎng)期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?865次閱讀
    多模塊配置!YU系列USB、Type-C連接器為工控機(jī)打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案
    福泉市| 澜沧| 临邑县| 遂昌县| 湄潭县| 和林格尔县| 象州县| 张掖市| 舒兰市| 安阳市| 金门县| 定西市| 永济市| 平谷区| 内江市| 台中县| 巫溪县| 山阴县| 南康市| 沁阳市| 宜都市| 娄底市| 稷山县| 中牟县| 凤台县| 延吉市| 太和县| 萨嘎县| 四会市| 莱西市| 当雄县| 西丰县| 江安县| 台东市| 奇台县| 海阳市| 营口市| 靖边县| 罗田县| 石林| 祁东县|