日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在 NVIDIA NGC 上搞定模型自動(dòng)壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

NVIDIA英偉達(dá) ? 來源:未知 ? 2022-11-15 21:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

PaddleSlim 發(fā)布 AI 模型自動(dòng)壓縮的工具,帶來全新升級(jí) AI 模型一鍵自動(dòng)壓縮體驗(yàn)。歡迎廣大開發(fā)者使用 NVIDIA 與飛槳聯(lián)合深度適配的 NGC 飛槳容器在 NVIDIA GPU 上體驗(yàn)!

PaddleSlim 自動(dòng)壓縮工具,

30+CV、NLP 模型實(shí)戰(zhàn)

眾所周知,計(jì)算機(jī)視覺技術(shù)(CV)是企業(yè)人工智能應(yīng)用比重最高的領(lǐng)域之一。為降低企業(yè)成本,工程師們一直在探索各類模型壓縮技術(shù),來產(chǎn)出“更準(zhǔn)、更小、更快”的 AI 模型部署落地。而在自然語言處理領(lǐng)域(NLP)中,隨著模型精度的不斷提升,模型的規(guī)模也越來越大,例如以 BERT、GPT 為代表的預(yù)訓(xùn)練模型等,這成為企業(yè) NLP 模型部署落地的攔路虎。

針對(duì)企業(yè)落地模型壓縮迫切的需求,PaddleSlim 團(tuán)隊(duì)開發(fā)了一個(gè)低成本、高收益的 AI 模型自動(dòng)壓縮工具(ACT, Auto Compression Toolkit),無需修改訓(xùn)練源代碼,通過幾十分鐘量化訓(xùn)練,保證模型精度的同時(shí),極大的減小模型體積,降低顯存占用,提升模型推理速度,助力 AI 模型的快速落地!

使用 ACT 中的基于知識(shí)蒸餾的量化訓(xùn)練方法訓(xùn)練 YOLOv7 模型,與原始的 FP32 模型相比,INT8 量化后的模型減小 75%,在 NVIDIA GPU 上推理加速 5.90 倍。

99a61056-64e7-11ed-8abf-dac502259ad0.png ?表1 自動(dòng)壓縮工具在 CV 模型上的壓縮效果和推理加速

使用 ACT 中的結(jié)構(gòu)化稀疏和蒸餾量化方法訓(xùn)練 ERNIE3.0 模型,與原始的 FP32 對(duì)比,INT8 量化后的模型減小 185%,在 NVIDIA GPU 上推理加速 6.37 倍。

99d136b4-64e7-11ed-8abf-dac502259ad0.png

表2 自動(dòng)壓縮工具在 NLP 模型上的壓縮效果和推理加速

支持如此強(qiáng)大功能的核心技術(shù)是來源于 PaddleSlim 團(tuán)隊(duì)自研的自動(dòng)壓縮工具。自動(dòng)壓縮相比于傳統(tǒng)手工壓縮,自動(dòng)化壓縮的“自動(dòng)”主要體現(xiàn)在 4 個(gè)方面:解耦訓(xùn)練代碼、離線量化超參搜索、算法自動(dòng)組合和硬件感知。

99fc685c-64e7-11ed-8abf-dac502259ad0.png

圖1 傳統(tǒng)手工壓縮與自動(dòng)化壓縮工具對(duì)比

9a2637b8-64e7-11ed-8abf-dac502259ad0.png

圖2 傳統(tǒng)手工壓縮與自動(dòng)化壓縮工具代碼量對(duì)比

更多詳細(xì)文檔,請(qǐng)參考:

https://github.com/PaddlePaddle/PaddleSlim/tree/develop/example/auto_compression

PaddleSlim 研發(fā)團(tuán)隊(duì)詳解自動(dòng)壓縮工具 CV 模型和NLP模型兩日課回放,可以掃描下方二維碼,加入自動(dòng)壓縮技術(shù)官方交流群獲取。除此之外,入群福利還包括:深度學(xué)習(xí)學(xué)習(xí)資料、歷屆頂會(huì)壓縮論文、百度架構(gòu)師詳解自動(dòng)壓縮等。

9a789fe4-64e7-11ed-8abf-dac502259ad0.png

NGC 飛槳容器介紹

如果您希望體驗(yàn)自動(dòng)壓縮工具的新特性,歡迎使用 NGC 飛槳容器。NVIDIA 與百度飛槳聯(lián)合開發(fā)了 NGC 飛槳容器,將最新版本的飛槳與最新的 NVIDIA 的軟件棧(如 CUDA)進(jìn)行了無縫的集成與性能優(yōu)化,最大程度的釋放飛槳框架在 NVIDIA 最新硬件上的計(jì)算能力。這樣,用戶不僅可以快速開啟 AI 應(yīng)用,專注于創(chuàng)新和應(yīng)用本身,還能夠在 AI 訓(xùn)練和推理任務(wù)上獲得飛槳+NVIDIA 帶來的飛速體驗(yàn)。

最佳的開發(fā)環(huán)境搭建工具 - 容器技術(shù)。

  1. 容器其實(shí)是一個(gè)開箱即用的服務(wù)器。極大降低了深度學(xué)習(xí)開發(fā)環(huán)境的搭建難度。例如你的開發(fā)環(huán)境中包含其他依賴進(jìn)程(redis,MySQL,Ngnix,selenium-hub 等等),或者你需要進(jìn)行跨操作系統(tǒng)級(jí)別的遷移。

  2. 容器鏡像方便了開發(fā)者的版本化管理

  3. 容器鏡像是一種易于復(fù)現(xiàn)的開發(fā)環(huán)境載體

  4. 容器技術(shù)支持多容器同時(shí)運(yùn)行

9a94b31e-64e7-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飛槳容器針對(duì) NVIDIA GPU 加速進(jìn)行了優(yōu)化,并包含一組經(jīng)過驗(yàn)證的庫,可啟用和優(yōu)化 NVIDIA GPU 性能。此容器還可能包含對(duì) PaddlePaddle 源代碼的修改,以最大限度地提高性能和兼容性。此容器還包含用于加速 ETL(DALI,RAPIDS)、訓(xùn)練(cuDNN,NCCL)和推理(TensorRT)工作負(fù)載的軟件。

PaddlePaddle 容器具有以下優(yōu)點(diǎn):

  1. 適配最新版本的 NVIDIA 軟件棧(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系統(tǒng),更好的軟件兼容性

  3. 按月更新

  4. 滿足 NVIDIA NGC 開發(fā)及驗(yàn)證規(guī)范,質(zhì)量管理

通過飛槳官網(wǎng)快速獲取

9abbeaf6-64e7-11ed-8abf-dac502259ad0.png

環(huán)境準(zhǔn)備

使用 NGC 飛槳容器需要主機(jī)系統(tǒng)(Linux)安裝以下內(nèi)容:

  • Docker 引擎

  • NVIDIA GPU 驅(qū)動(dòng)程序

  • NVIDIA 容器工具包

有關(guān)支持的版本,請(qǐng)參閱 NVIDIA 框架容器支持矩陣NVIDIA 容器工具包文檔。

不需要其他安裝、編譯或依賴管理。無需安裝 NVIDIA CUDA Toolkit。

NGC 飛槳容器正式安裝:

要運(yùn)行容器,請(qǐng)按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中 Running A Container 一章中的說明發(fā)出適當(dāng)?shù)拿睿⒅付ㄗ?cè)表、存儲(chǔ)庫和標(biāo)簽。有關(guān)使用 NGC 的更多信息,請(qǐng)參閱 NGC 容器用戶指南。如果您有 Docker 19.03 或更高版本,啟動(dòng)容器的典型命令是:

9af1f420-64e7-11ed-8abf-dac502259ad0.png

*詳細(xì)安裝介紹 《NGC 飛槳容器安裝指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*詳細(xì)產(chǎn)品介紹視頻

【飛槳開發(fā)者說|NGC 飛槳容器全新上線 NVIDIA 產(chǎn)品專家全面解讀】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82


原文標(biāo)題:在 NVIDIA NGC 上搞定模型自動(dòng)壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4118

    瀏覽量

    99669

原文標(biāo)題:在 NVIDIA NGC 上搞定模型自動(dòng)壓縮,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    IMX8M Plus 板上部署立體視覺模型 CPU 回退錯(cuò)誤 IMX8M Plus問題

    您好,我想在 IMX8M Plus 板上部署立體視覺模型。我已經(jīng)量化了模型并將其轉(zhuǎn)換為 TFlite 架構(gòu),但是當(dāng)模型部署
    發(fā)表于 04-29 07:23

    技嘉與趨境科技聯(lián)合部署AMaaS平臺(tái) 推動(dòng)本地大模型應(yīng)用加速落地

    在生成式AI加速走向?qū)嶋H應(yīng)用的當(dāng)下,大模型部署正從“可體驗(yàn)”邁向“可落地、可管理、可應(yīng)用”。作為技嘉面向本地AI場(chǎng)景打造的重要產(chǎn)品,AI TOP ATOM具備強(qiáng)大的桌面級(jí)本地AI算力,搭載了
    的頭像 發(fā)表于 03-12 15:11 ?218次閱讀
    技嘉與趨境科技聯(lián)合<b class='flag-5'>部署</b>AMaaS平臺(tái) 推動(dòng)本地大<b class='flag-5'>模型</b>應(yīng)用<b class='flag-5'>加速</b>落地

    如何在NVIDIA Jetson AGX Thor上部署1200億參數(shù)大模型

    一期介紹了如何在 NVIDIA Jetson AGX Thor 使用 Docker 部署 vLLM 推理服務(wù),以及使用 Chatbox 作為前端調(diào)用 vLLM 運(yùn)行的
    的頭像 發(fā)表于 12-26 17:06 ?5303次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上<b class='flag-5'>部署</b>1200億參數(shù)大<b class='flag-5'>模型</b>

    NVIDIA Omniverse基于Container的部署推流方案

    為了讓客戶能夠高效安裝和部署 NVIDIA Omniverse 及 NVIDIA Isaac 平臺(tái),NVIDIA 現(xiàn)已推出簡單便捷的容器化部署
    的頭像 發(fā)表于 12-17 10:17 ?997次閱讀
    <b class='flag-5'>NVIDIA</b> Omniverse基于Container的<b class='flag-5'>部署</b>推流方案

    【NPU實(shí)戰(zhàn)】迅為RK3588玩轉(zhuǎn)YOLOv8:目標(biāo)檢測(cè)與語義分割一站式部署指南

    【NPU實(shí)戰(zhàn)】迅為RK3588玩轉(zhuǎn)YOLOv8:目標(biāo)檢測(cè)與語義分割一站式部署指南
    的頭像 發(fā)表于 12-12 14:30 ?6437次閱讀
    【NPU實(shí)戰(zhàn)】<b class='flag-5'>在</b>迅為RK3588<b class='flag-5'>上</b>玩轉(zhuǎn)<b class='flag-5'>YOLOv</b>8:目標(biāo)檢測(cè)與語義分割一站式<b class='flag-5'>部署</b>指南

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?1500次閱讀

    使用ROCm?優(yōu)化并部署YOLOv8模型

    ://github.com/ultralytics/ultralytics/tree/main YOLOv8模型的卓越性能使其多個(gè)領(lǐng)域具有廣泛的應(yīng)用前景,如自動(dòng)
    的頭像 發(fā)表于 09-24 18:32 ?1033次閱讀
    使用ROCm?優(yōu)化并<b class='flag-5'>部署</b><b class='flag-5'>YOLOv</b>8<b class='flag-5'>模型</b>

    vision board部署模型到openmv的代碼導(dǎo)致連接超時(shí)怎么解決?

    env終端中勾選了tiflte support后燒錄mdk到板子后就開始顯示連接不到 無法部署模型
    發(fā)表于 09-19 07:59

    Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫,加速 AI 數(shù)據(jù)中心部署與運(yùn)營

    [1]? 利用搭載 DGX GB200 系統(tǒng)的 NVIDIA DGX SuperPOD[2]?數(shù)字孿生系統(tǒng)實(shí)現(xiàn)了庫的重大擴(kuò)展 。借助 NVIDIA 高性能加速計(jì)算平臺(tái)的新模型,數(shù)據(jù)中
    的頭像 發(fā)表于 09-15 15:19 ?1693次閱讀

    基于瑞芯微RK3576的 yolov5訓(xùn)練部署教程

    5s、YOLOv5m、YOLOv5l、YOLOv5x 四個(gè)模型。YOLOv5 相比YOLOv4
    的頭像 發(fā)表于 09-11 16:43 ?3258次閱讀
    基于瑞芯微RK3576的 <b class='flag-5'>yolov</b>5訓(xùn)練<b class='flag-5'>部署</b>教程

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA NVIDIA Blackwell 架構(gòu)優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理
    的頭像 發(fā)表于 08-15 20:34 ?2543次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss<b class='flag-5'>模型</b><b class='flag-5'>部署</b>,實(shí)現(xiàn)150萬TPS推理

    求助,關(guān)于K230部署yolov8時(shí)遇到問題求解

    使用yolov8訓(xùn)練出來了一個(gè)十個(gè)類別的模型并且按照要求轉(zhuǎn)換成了.kmodel模型,部署到K230時(shí) 使用yolo大作戰(zhàn)里面的代碼提示我l
    發(fā)表于 08-12 07:26

    yolov5訓(xùn)練部署全鏈路教程

    5m、YOLOv5l、YOLOv5x四個(gè)模型。YOLOv5相比YOLOv4而言,檢測(cè)平均精度降
    的頭像 發(fā)表于 07-25 15:22 ?2073次閱讀
    <b class='flag-5'>yolov</b>5訓(xùn)練<b class='flag-5'>部署</b>全鏈路教程

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    下一步行動(dòng)。本文將一步步帶你本地服務(wù)器完成該模型部署,并搭建一個(gè)直觀的 Web 交互界面,親身體驗(yàn)前沿 AI 的“思考”過程。
    的頭像 發(fā)表于 07-09 10:17 ?1042次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2479次閱讀
    容城县| 泽州县| 商洛市| 黔西县| 嘉兴市| 辰溪县| 靖远县| 新源县| 聂荣县| 江西省| 泰顺县| 合山市| 平乡县| 桑植县| 龙井市| 湛江市| 平利县| 黄大仙区| 安多县| 孝义市| 建德市| 红河县| 双辽市| 临高县| 乐至县| 隆子县| 正安县| 长宁县| 百色市| 阿勒泰市| 安多县| 济阳县| 睢宁县| 禄劝| 柏乡县| 临沧市| 东阳市| 桂东县| 阳曲县| 长丰县| 和平县|