日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

電子設計 ? 來源: 電子設計 ? 作者: 電子設計 ? 2020-10-21 19:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你已經建立了你的深度學習推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。 你如何進一步加快你的模型的運行速度? 進入 NVIDIA模型分析器 ,一個收集模型計算需求的工具。

沒有這些信息,在理解在GPU上運行多少模型方面就存在知識差距。 通過收集冷熱儲存需求,您可以使用它們通知模型的調度,以獲得幾個好處:

最大化模型吞吐量—確保放置在每個GPU上的模型總和不超過可用內存和GPU利用率的特定閾值,例如100%。這樣可以最大限度地提高硬件的吞吐量。

優(yōu)化硬件使用—檢查GPU內存需求,以便在較少硬件上運行更多型號。您可以使用此數(shù)據(jù)來確定每個GPU可以加載的最大模型數(shù),而不是優(yōu)化吞吐量,從而減少所需的硬件,或者權衡吞吐量的權衡。

提高了可靠性—通過了解在GPU上加載的模型不會超出其能力,消除內存不足錯誤。

此外,還有兩個關鍵的非調度好處:

有效的模式—比較和對比不同的模型,將計算需求作為一個額外的數(shù)據(jù)點來衡量模型的性能。這有助于生成更輕量級的模型,并減少推理所需的內存量。

更好的硬件尺寸—使用內存需求確定運行模型所需的確切硬件數(shù)量。

總之,理解推理模型的計算要求提供了從模型創(chuàng)建和硬件大小到模型的可靠、高效運行的大量好處。 下面我們來看看ModelAnalyzer,看看它如何為最高性能的推理解決方案做出貢獻。

獲取模型分析器Docker容器

在使用推理服務器容器之前,必須安裝一些軟件,如Docker。 有關更多信息,請參見 安裝Docker和NVIDIA Docke 一節(jié)進去 NVIDIA Docker:GPU服務器應用程序部署容易.

模型分析器作為Helm圖表、Docker容器或獨立命令行接口運行。 對于本教程,您可以從源代碼the構建Docker容器 triton-inference-server/model_analyzer Github回購。

git clone https://github.com/triton-inference-server/model_analyzer.git
cd model_analyzer
docker build -t memory-analyzer

要為您的模型運行容器,請確保端口8000、8001和8002可用。 然后,運行以下命令,替換大寫參數(shù):

docker run -v /var/run/docker.sock:/var/run/docker.sock /
-v /ABSOLUTE/PATH/TO/MODELS:ABSOLUTE/PATH/TO/MODELS /
-v /ABSOLUTE/PATH/TO/EXPORT/DIRECTORY:/results --net=host /
memory-analyzer:ANALYZER-VERSION /
--batch BATCH-SIZES /
--concurrency CONCURRENCY-VALUES /
--model-names MODEL-NAMES /
--triton-version TRITON-VERSION /
--model-folder /ABSOLUTE/PATH/TO/MODELS /
--export --export-path /results/

這里有一個示例命令供參考:

docker run -v /var/run/docker.sock:/var/run/docker.sock /
-v /home/user/models: /home/user/models /
-v /home/user/results:/results --net=host /
memory-analyzer:latest /
--batch 1,2,4 /
--concurrency 1,2,4 /
--model-names chest_xray,covid19_xray/
--triton-version 20.02-py3 /
--model-folder /home/user/models /
--export --export-path /results/

容器完成后,每個模型、批處理大小和并發(fā)值的度量將導出到您選擇的目錄中。 信息是通過在系統(tǒng)運行時收集度量來收集的,因此在一個孤立的GPU或僅運行模型分析器的系統(tǒng)上運行它是理想的。

使用計算需求進行優(yōu)化

下面是如何使用這些度量來優(yōu)化系統(tǒng)性能。 我們討論了兩個使用醫(yī)學推斷模型的案例研究:

第一個案例研究探討了如何將間歇性運行的系統(tǒng)的硬件最小化,例如需要在最小硬件上運行許多模型的低成本醫(yī)療提供商。

第二個案例研究探討了使用最少的硬件來最大化這些相同模型的吞吐量,例如在一致的基礎上運行許多模型的大型急診室。

這兩個案例研究都是手動完成這些步驟的,因此我們最后討論了將模型元數(shù)據(jù)納入自動調度的下一步。 對于這兩項研究,為了簡化分析,我們使用總結的數(shù)據(jù),對每個模型使用2的模型批處理大小和4的并發(fā)。

馬克斯記憶用法(%) 馬克斯GPU使用(%) 最大GPU內存(MB)
0 9 309

表1。 只運行TritonServer的內存使用。

Model Batch 流率 馬克斯記憶用法(%) 馬克斯GPU使用(%) 最大GPU內存(MB)
classification_breast 2 4 1381.6推斷/秒 1 23 1461
classification_chest 2 4 172.4推斷/秒 11 56 5035
分類_瑪利亞 2 4 586推斷/秒 2 43 1851
節(jié)段_CT_Colon_Tumo 2 4 33.6推斷/秒 60 60 6955
segmentation_ct_胰腺 2 4 29.6推斷/秒 51 79 6955
節(jié)段_CT_脾 2 4 32推斷/秒 54 54 6955
肝段 2 4 28推斷/秒 53 76 11051
分段_MRI_腦_腫瘤 2 4 4推斷/秒 48 48 8579
分段_MRI_海馬 2 4 30.8推斷/秒 52 52 6955

表2。 每個運行模型的內存使用情況。

通常,有幾種潛在的方法:

每個GPU放置一個模型。 這意味著這9種型號的9個GPU。 例如,如果要在DGX上運行,這種方法將需要兩個不能充分利用的DGX。

把所有的模型放在一個GPU上。 這只需要一個GPU,但會導致“內存不足”錯誤。

在每個GPU上放置任意數(shù)量的模型。 這涉及到以前方法的問題。 如果每個GPU放置兩個模型,則只需要5個GPU。 然而,記憶錯誤仍然是一個風險,例如,如果你把肝臟分割和腦腫瘤分割模型放在一個GPU上。 同時,其他GPU沒有得到充分或最佳的利用,例如當您將乳房和胸部x射線分類放在一個GPU上時。

另一種選擇是什么?

案例研究:盡量減少間歇系統(tǒng)的硬件

想象一下,你有一個系統(tǒng),你知道它只會斷斷續(xù)續(xù)地出現(xiàn),所以你想在最少的硬件上安裝盡可能多的模型。 在這種情況下,GPU內存是瓶頸。 您可以為Triton Server減去309MB的內存,以單獨獲得模型的GPU內存,然后查看在GPU上的一個服務器上可以容納多少模型。

表3顯示,可以匹配的模型只使用四個16GB GPU與以下配置,這協(xié)調了最小的GPU可能為這些模型,需要53GB的內存。

GPU # 模特兒典型 帶有服務器的GPU內存(MB
1 分類_胸部,節(jié)段_CT_結腸_腫瘤 11681
2 classification_breast,segmentation_live 12203
3 分類_瘧疾,節(jié)段_MRI_海馬,節(jié)段_CT_脾 15143
4 節(jié)段_CT_胰腺,節(jié)段_MRI_腦_腫瘤 15225

表3。 最小硬件的示例配置。

使用這種配置,您的GPU數(shù)量最少,同時保證沒有內存錯誤。 這是一個很好的設置,用于間歇性地運行模型,當吞吐量不需要達到最大值時。

案例研究:最大限度地提高一致的、關鍵的系統(tǒng)的性能

對于此設置,最大吞吐量是優(yōu)先級,因此必須確保吞吐量不會因為所有模式的并發(fā)負載而下降。 查看所有指標,以確保內存利用率、GPU利用率和GPU內存總量不超過機器的計算資源。

As total GPU utilization adds up to 491% and would therefore require a minimum of five GPUs, compared to total memory utilization (332%, or four GPUs) or total GPU memory (52 GB, or four GPUs), GPU utilization is the bottleneck and a great place to start.

表4假設GPU利用率閾值為100%,并顯示了一個只有6個16GB GPU的示例配置。

GPU # 模特兒典型 內存使用(%) GPU使用(%) 帶有服務器的GPU內存(MB
1 節(jié)段_CT_Colon_Tumo 60 60 6955
2 肝段 54 76 11051
3 classification_chest,classification_breast 12 79 2939
4 segmentation_ct_pancreas 51 79 6955
5 級化_級,細分_級 56 97 8497
6 Segmentation_MRI_海馬,segmentation_mri_brain_tumo 100 100 15225

表4。 最大吞吐量的示例配置。

這與每個模型的批處理大小和并發(fā)值相同。 通過調整,使用不同的批處理大小和并發(fā)值來最大化吞吐量,內存和GPU利用率會有更高的變化,從而節(jié)省更多的資源。 此外,如果您的系統(tǒng)可以犧牲一些吞吐量,您可以使用更少的硬件,只需占用內存或GPU利用率的100。

進一步用例:自動調度

雖然這兩個案例研究顯示了優(yōu)化系統(tǒng)運行的手工操作,但最有可能的用例是將這些數(shù)據(jù)自動納入調度。 調度規(guī)則將放在計算需求之上,例如在模型運行時不要使用超過80%的GPU或80%的GPU內存。 這樣的規(guī)則是你的模式,模型的使用計算元數(shù)據(jù)收集。

有了計算機需求,您就可以確定什么對您最重要,并從硬件中獲得最大的性能。

結局推論

使用Triton Server工具Model Analyzer,您可以輕松高效地描述您的模型,使您能夠最大限度地提高硬件的性能。 無論您使用命令行接口、Docker容器還是Helm圖表,ModelAnalyzer都會收集模型的計算需求,允許您最大化性能并最小化運行模型所需的硬件。

正如將9個GPU減少到4個或6個GPU的案例研究所顯示的,將這些數(shù)據(jù)合并到您的調度中是非常強大的。 對數(shù)據(jù)的進一步探索提供了對批處理大小和并發(fā)如何影響模型的洞察,使您能夠使用Triton Server以最大的性能運行模型。

Model Analyzer 是開源的,在GitHub上可用。

關于作者

關于大衛(wèi)·亞斯特雷姆斯基
大衛(wèi)·亞斯特雷姆斯基是NVIDIA的軟件實習生,從事克拉拉部署工作。 他是一名碩士學位學生,在賓夕法尼亞大學學習計算機科學,對醫(yī)療AI充滿熱情,未來人人都能獲得高質量的醫(yī)療保健。


審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 分析儀
    +關注

    關注

    0

    文章

    1776

    瀏覽量

    54930
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110143
  • 深度學習
    +關注

    關注

    73

    文章

    5610

    瀏覽量

    124656
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優(yōu)化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供了新的途徑。
    的頭像 發(fā)表于 10-29 16:53 ?1697次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀

    利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發(fā)者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現(xiàn)了在 AI 網絡、存儲和安全等領域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?1248次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1518次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1166次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術提升AI<b class='flag-5'>推理性能</b>

    同步熱分析儀的聯(lián)用技術的應用

    同步熱分析儀是一款可同時測量樣品的tg和dsc信號的熱分析儀器,被廣泛應用在材料科學、高分子工程師、醫(yī)藥生物、能源等領域。隨著同步熱分析儀性能技術的不斷提升,同步熱
    的頭像 發(fā)表于 08-28 16:04 ?1138次閱讀
    同步熱<b class='flag-5'>分析儀</b>的聯(lián)用技術的應用

    利用矢量網絡分析儀測試大動態(tài)范圍微波器件的幾種方法

    利用矢量網絡分析儀對微波器件進行測試時,矢量網絡分析儀的測試動態(tài)范圍將影響被測微波器件(DUT)的測量范圍、測量精度和測量速度。只有矢量網絡分析儀的測試動態(tài)范圍大于被測微波器件的動態(tài)范
    的頭像 發(fā)表于 08-27 17:33 ?1949次閱讀
    <b class='flag-5'>利用</b>矢量網絡<b class='flag-5'>分析儀</b>測試大動態(tài)范圍微波器件的幾種方法

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2050次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構上優(yōu)化了這兩款全新的開放權重模型并實現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2542次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    功率分析儀最大峰值因數(shù)的真實含義

    某些功率分析儀將可測量峰值因數(shù)作為重要特點進行宣傳。例如:某高精度功率分析儀標稱最大可測量峰值因數(shù)為6,另一高精度功率分析儀則標稱最大可測量
    的頭像 發(fā)表于 08-04 18:11 ?1226次閱讀
    功率<b class='flag-5'>分析儀</b><b class='flag-5'>最大</b>峰值因數(shù)的真實含義

    PCIe協(xié)議分析儀能測試哪些設備?

    :提升數(shù)據(jù)中心的整體效率,降低CPU負載。 四、異構計算與擴展設備 多GPU系統(tǒng) 測試場景:利用PCIe協(xié)議分析儀模擬高負載的GPU間通信,測試PCIe交換機的性能和穩(wěn)定性。 應用價值:確保復雜多GPU
    發(fā)表于 07-25 14:09

    如何測試協(xié)議分析儀的實時響應效率?

    測試協(xié)議分析儀的實時響應效率需從硬件性能、軟件處理能力、協(xié)議解析精度和實際場景模擬四個維度綜合評估。以下是具體測試方法及步驟,結合工具與場景設計,幫助量化分析儀的實時性表現(xiàn):一、硬件性能
    發(fā)表于 07-24 14:19

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    網絡智能診斷平臺。通過對私有化網絡數(shù)據(jù)的定向訓練,信而泰打造了高性能、高可靠性的網絡診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案實現(xiàn)了網絡全流量深度解析能力與AI智能推理
    發(fā)表于 07-16 15:29

    模型推理顯存和計算量估計方法研究

    ,為實際應用提供了有益的參考。 未來,我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計算資源的需求,提高深度學習模型在實際應用中的
    發(fā)表于 07-03 19:43

    是德N9917A FieldFox手持分析儀 N9917B便攜式分析儀

    電壓表。 N9917A FieldFox 手持式微波分析儀 主要特性和功能 18 GHz 最大頻率 *隨身攜帶功能齊全的手持式分析儀:標準型號包括電纜和天線分析儀 *添加 VNA、頻譜
    的頭像 發(fā)表于 05-07 16:58 ?1610次閱讀
    慈溪市| 长乐市| 特克斯县| 牟定县| 泾源县| 兴隆县| 丰原市| 丹巴县| 博湖县| 汝南县| 阿城市| 宁蒗| 彭州市| 齐齐哈尔市| 朝阳区| 资源县| 莒南县| 南投县| 玉山县| 旬邑县| 哈尔滨市| 隆尧县| 宁远县| 游戏| 中阳县| 长岛县| 民和| 象山县| 曲周县| 辽阳县| 大理市| 遂宁市| 广宁县| 托里县| 石阡县| 淅川县| 潍坊市| 达日县| 濉溪县| 通江县| 东辽县|