日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Yolo系列模型的部署、精度對齊與int8量化加速

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-11-23 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Yolo系列模型的部署、精度對齊與int8量化加速

大家好,我是海濱。寫這篇文章的目的是為宣傳我在23年初到現(xiàn)在完成的一項(xiàng)工作---Yolo系列模型在TensorRT上的部署與量化加速,目前以通過視頻的形式在B站發(fā)布(不收費(fèi),只圖一個一劍三連)。

麻雀雖小但五臟俱全,本項(xiàng)目系統(tǒng)介紹了YOLO系列模型在TensorRT上的量化方案,工程型較強(qiáng),我們給出的工具可以實(shí)現(xiàn)不同量化方案在Yolo系列模型的量化部署,無論是工程實(shí)踐還是學(xué)術(shù)實(shí)驗(yàn),相信都會對你帶來一定的幫助。

B站地址(求關(guān)注和三連):https://www.bilibili.com/video/BV1Ds4y1k7yr/

Github開源地址(求star):https://github.com/thb1314/mmyolo_tensorrt/

當(dāng)時(shí)想做這個的目的是是為了總結(jié)一下目標(biāo)檢測模型的量化加速到底會遇到什么坑,只是沒想到不量化坑都會很多。

比如即使是以FP32形式推理,由于TensorRT算子參數(shù)的一些限制和TRT和torch內(nèi)部實(shí)現(xiàn)的不同,導(dǎo)致torch推理結(jié)果會和TensorRT推理結(jié)果天然的不統(tǒng)一,至于為什么不統(tǒng)一這里賣個關(guān)子大家感興趣可以看下視頻。

下面說一下我們這個項(xiàng)目做了哪些事情

YOLO系列模型在tensorrt上的部署與精度對齊

該項(xiàng)目詳細(xì)介紹了Yolo系列模型在TensorRT上的FP32的精度部署,基于mmyolo框架導(dǎo)出各種yolo模型的onnx,在coco val數(shù)據(jù)集上對齊torch版本與TensorRT版本的精度。

在此過程中我們發(fā)現(xiàn),由于TopK算子限制和NMS算子實(shí)現(xiàn)上的不同,我們無法完全對齊torch和yolo模型的精度,不過這種風(fēng)險(xiǎn)是可解釋且可控的。

詳解TensorRT量化的三種實(shí)現(xiàn)方式

TensorRT量化的三種實(shí)現(xiàn)方式包括trt7自帶量化、dynamic range api,trt8引入的QDQ算子。

Dynamic range api會在采用基于MQbench框架做PTQ時(shí)講解。

TensorRT引入的QDQ算子方式在針對Yolo模型的PTQ和QAT方式時(shí)都有詳細(xì)的闡述,當(dāng)然這個過程也沒有那么順利。

在基于PytorchQuantization導(dǎo)出的含有QDQ節(jié)點(diǎn)的onnx時(shí),我們發(fā)現(xiàn)盡管量化版本的torch模型精度很高,但是在TensorRT部署時(shí)精度卻很低,TRT部署收精度損失很嚴(yán)重,通過可視化其他量化形式的engine和問題engine進(jìn)行對比,我們發(fā)現(xiàn)是一些層的int8量化會出問題,由此找出問題量化節(jié)點(diǎn)解決。

詳解MQbench量化工具包在TensorRT上的應(yīng)用

我們研究了基于MQbench框架的普通PTQ算法和包括Adaround高階PTQ算法,且啟發(fā)于Adaround高階PTQ算法。

我們將torch版本中的HistogramObserver引入到MQBench中,activation采用HistogramObserverweight采用MinMaxObserver,在PTQ過程中,weight的校準(zhǔn)前向傳播一次,activation的校準(zhǔn)需要多次因此我們將weight的PTQ過程和activation的PTQ過程分開進(jìn)行,加速PTQ量化。實(shí)踐證明,我們采用上述配置的分離PTQ量化在yolov8上可以取得基本不掉點(diǎn)的int8量化精度。

針對YoloV6這種難量化模型,分別采用部分量化和QAT來彌補(bǔ)量化精度損失

在部分量化階段,我們采用量化敏感層分析技術(shù)來判斷哪些層最需要恢復(fù)原始精度,給出各種metric的量化敏感層實(shí)現(xiàn)。

在QAT階段,不同于原始Yolov6論文中蒸餾+RepOPT的方式,我們直接采用上述部分量化后的模型做出初始模型進(jìn)行finetune,結(jié)果發(fā)現(xiàn)finetune后的模型依然取得不錯效果。

針對旋轉(zhuǎn)目標(biāo)檢測,我們同樣給出一種端到端方案,最后的輸出就是NMS后的結(jié)果。通過將TensorRT中的EfficientNMS Plugin和mmcv中旋轉(zhuǎn)框iou計(jì)算的cuda實(shí)現(xiàn)相結(jié)合,給出EfficientNMS for rotated box版本,經(jīng)過簡單驗(yàn)證我們的TRT版本與Torch版本模型輸出基本對齊。

以上就是我們這個項(xiàng)目做的事情,歡迎各位看官關(guān)注b站和一劍三連。同時(shí),如果各位有更好的想法也歡迎給我們的git倉庫提PR。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4810

    瀏覽量

    98603
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52285
  • 精度
    +關(guān)注

    關(guān)注

    0

    文章

    274

    瀏覽量

    20835

原文標(biāo)題:Yolo系列模型的部署、精度對齊與int8量化加速

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    IMX8M Plus 板上部署立體視覺模型 CPU 回退錯誤 IMX8M Plus問題

    您好,我想在 IMX8M Plus 板上部署立體視覺模型。我已經(jīng)量化模型并將其轉(zhuǎn)換為 TFlite 架構(gòu),但是當(dāng)
    發(fā)表于 04-29 07:23

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】YOLO26 板端部署

    提供了一個模型系列,該模型系列在小對象上實(shí)現(xiàn)了更高的精度,提供了無縫部署,并且在CPU 上的運(yùn)行
    發(fā)表于 04-19 22:02

    量化模型在 iMX93 NPU 上運(yùn)行,但輸出不正確怎么解決

    良好的精度,但 int8 輸出似乎完全隨機(jī)。在對一些訓(xùn)練數(shù)據(jù)進(jìn)行測試后,應(yīng)該為正的幀的范圍是 -128 到 127,應(yīng)該為負(fù)的幀也是如此。我是否誤解了輸出,或者在轉(zhuǎn)換或量化模型時(shí)出了問
    發(fā)表于 03-18 07:53

    【瑞薩AI挑戰(zhàn)賽】手寫數(shù)字識別模型在RA8P1 Titan Board上的部署

    如下: 支持.onnx、.tflite、.pte等多種深度學(xué)習(xí)模型格式的直接轉(zhuǎn)換; 內(nèi)置量化功能,可完成模型INT8量化,降低
    發(fā)表于 03-15 20:42

    AWQ/GPTQ量化模型加載與顯存優(yōu)化實(shí)戰(zhàn)

    大語言模型(LLM)推理顯存需求呈指數(shù)級增長,70B參數(shù)的模型需要約140GB顯存(FP16),遠(yuǎn)超單卡GPU容量。量化技術(shù)通過降低模型參數(shù)精度
    的頭像 發(fā)表于 03-13 09:45 ?716次閱讀

    基于Arm平臺的端到端int8 Conformer模型部署

    在邊緣側(cè)運(yùn)行高質(zhì)量的語音與音頻模型頗具挑戰(zhàn),需滿足時(shí)延、內(nèi)存、功耗和模型大小等多方面的嚴(yán)苛約束。不同于云端部署,邊緣側(cè)系統(tǒng)通常離線運(yùn)行,需兼顧用戶隱私與可預(yù)測的實(shí)時(shí)性能。這些落地場景涵蓋端側(cè)語音轉(zhuǎn)文本、語音助手、語音控制的物聯(lián)網(wǎng)
    的頭像 發(fā)表于 02-24 10:23 ?453次閱讀
    基于Arm平臺的端到端<b class='flag-5'>int8</b> Conformer<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    專為邊緣而生:深度解析昆侖芯K100 AI加速卡,釋放128 TOPS極致能效

    昆侖芯K100邊緣AI加速卡以75W超低功耗實(shí)現(xiàn)128 TOPS的INT8算力,重新定義邊緣推理能效標(biāo)準(zhǔn)。其半高半長設(shè)計(jì)搭載8GB HBM內(nèi)存與256GB/s帶寬,支持INT8至FP3
    的頭像 發(fā)表于 12-14 11:12 ?3210次閱讀
    專為邊緣而生:深度解析昆侖芯K100 AI<b class='flag-5'>加速</b>卡,釋放128 TOPS極致能效

    部署量化YOLO模型

    YOLO物聯(lián)網(wǎng)聆思CSK6
    的頭像 發(fā)表于 12-14 07:47 ?1690次閱讀

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?3357次閱讀

    小白必讀:到底什么是FP32、FP16、INT8?

    網(wǎng)上關(guān)于算力的文章,如果提到某個芯片或某個智算中心的算力,都會寫:在FP32精度下,英偉達(dá)H100的算力大約為0.9PFlops。在FP16精度下,某智算中心的算力是6.7EFlops。在INT8
    的頭像 發(fā)表于 10-20 14:34 ?1701次閱讀
    小白必讀:到底什么是FP32、FP16、<b class='flag-5'>INT8</b>?

    如何進(jìn)行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓(xùn)練的YOLO模型
    發(fā)表于 08-14 06:03

    RK3576 Yolov11訓(xùn)練部署教程

    1.Yolo11簡介YOLO11系列YOLO家族中最先進(jìn)的(SOTA)、最輕量級、最高效的模型,其表現(xiàn)優(yōu)于其前輩。它由Ultralytic
    的頭像 發(fā)表于 07-25 15:22 ?1278次閱讀
    RK3576 Yolov11訓(xùn)練<b class='flag-5'>部署</b>教程

    計(jì)算精度對比:FP64、FP32、FP16、TF32、BF16、int8

    、BF16、int8以及混合精度等。本文將淺顯易懂地介紹這些精度計(jì)算方式及其差別。什么是精度?精度,是數(shù)據(jù)表示的一個重要參數(shù),它決定了數(shù)據(jù)的
    的頭像 發(fā)表于 06-26 11:09 ?3270次閱讀
    計(jì)算<b class='flag-5'>精度</b>對比:FP64、FP32、FP16、TF32、BF16、<b class='flag-5'>int8</b>

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進(jìn)行推理時(shí)出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯誤”,怎么解決?

    推理量化的 Llama 3.1 8B 模型時(shí)遇到錯誤: Runtime error: Bad cast from __int64 to unsigned
    發(fā)表于 06-25 07:20

    為什么無法在GPU上使用INT8INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4 和 int8,并在 GPU 上使用 OpenVINO? 運(yùn)行推理。 沒有可用的
    發(fā)表于 06-23 07:11
    景洪市| 镇宁| 蓝田县| 绍兴市| 柳河县| 中西区| 通州市| 龙胜| 中卫市| 合川市| 泗阳县| 白银市| 黑河市| 营口市| 廊坊市| 区。| 大丰市| 峡江县| 海盐县| 龙陵县| 佳木斯市| 黄石市| 渭南市| 环江| 长乐市| 阿鲁科尔沁旗| 林州市| 老河口市| 留坝县| 大理市| 富平县| 当阳市| 涪陵区| 原阳县| 中方县| 天长市| 凤翔县| 商河县| 合水县| 宁强县| 句容市|