日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-10-21 10:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級(jí)別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對(duì)研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core作為流行的大模型訓(xùn)練框架,提供了靈活高效的并行化策略;理解這些策略對(duì)顯存的影響,才能更好地規(guī)劃訓(xùn)練超參數(shù),在不 OOM (out of memory) 的情況下盡可能提升硬件使用效率。

顯存的組成與衡量方法:通過 torch 的顯存可視化工具捕捉一個(gè)典型的模型訓(xùn)練中的顯存占用。靜態(tài)顯存主要組成部分包括模型參數(shù)、梯度和優(yōu)化器的所占用的空間,及一些其他的系統(tǒng)開銷。設(shè)定 R 為參數(shù)重復(fù)次數(shù),則對(duì) bf16 訓(xùn)練來說每個(gè)參數(shù)占用的字節(jié)數(shù)為 6+12/R。對(duì)于Mixture of Experts (MoE)模型來說,由于 Megatron 支持 parallel folding,模型的模型會(huì)分為稠密部分和 MoE 部分,其中稠密部分的 R 為 DP*CP,MoE 部分的 R 為 EDP=n_GPU/PP/EP/ETP。

動(dòng)態(tài)顯存則是模型前向傳播過程中暫存的中間結(jié)果,用于反向傳播時(shí)計(jì)算梯度,通常被稱為激活 (Activation),絕大部分為 bf16 數(shù)據(jù)類型。

對(duì)顯存影響的關(guān)鍵超參數(shù):Megatron-Core 支持以下并行、重算維度,組合后可覆蓋當(dāng)下主流大模型訓(xùn)練需求。

ca6c8c4e-a81c-11f0-8c8f-92fbcf53809c.png

約束關(guān)系:`n_GPU / PP = TP×CP×DP = EP×ETP×EDP`,其中 `EDP` 為專家數(shù)據(jù)并行度。

除了完全不重算的情況之外,為了降低動(dòng)態(tài)顯存,Megatron-Core 0.14 提供

完全重算 (full) 和細(xì)粒度重算 (selective) 這兩檔重算。

顯存估計(jì)器的設(shè)計(jì):當(dāng)前 Megatron 基于 torch 實(shí)現(xiàn),所有模塊均派生自 torch.nn.Module,構(gòu)成訓(xùn)練 GPT 類模型的模塊。我們通過實(shí)現(xiàn)一個(gè)基類 MemEstimator 并基于此基類派生出所有需要的模塊類,根據(jù)每個(gè)模塊的顯存占用特點(diǎn)分別計(jì)算其中的參數(shù)量和激活量。然后復(fù)用 Megatron 中本身構(gòu)建模型的代碼,實(shí)現(xiàn)一個(gè) Megatron 模擬器,并可以展示出個(gè)層次的模塊數(shù)據(jù)量。

關(guān)鍵結(jié)論:選取 Qwen3 235B 和 DeepSeek v3 兩個(gè)時(shí)下流行的大模型,使用流行的配置開啟訓(xùn)練,并對(duì)比顯存估計(jì)的結(jié)果與真實(shí)的顯存占用。兩個(gè)模型的實(shí)際峰值與估計(jì)峰值相差均小于 2GB。

cac367bc-a81c-11f0-8c8f-92fbcf53809c.png

cb1d6672-a81c-11f0-8c8f-92fbcf53809c.png

通過對(duì)動(dòng)態(tài)顯存分析,只有 TP 和 CP 能降低激活量,EP 和 ETP 只會(huì)改變集群內(nèi)激活值的分布,無法降低激活量,PP 和 VPP 由于 1f1b 的流水線預(yù)熱機(jī)制,無法有效降低峰值激活量。對(duì)每一部分激活量,可以通過卸載到 CPU 或者重算的方式來降低顯存。Megatron-Core 0.13 當(dāng)前對(duì)卸載的支持還在開發(fā)中,但重算已經(jīng)支持。

Megatron-Core 0.13 現(xiàn)已支持通過 CPU 分擔(dān) optimizer 的顯存占用,并可以通過超參數(shù)設(shè)置卸載到 CPU 的比例,每個(gè)參數(shù)的 6 字節(jié) (bf16 參數(shù),fp32 梯度) 無法卸載,其余可以卸載。

用例分析:用戶目標(biāo)在 32 張 80GB 顯存的 GPU 上實(shí)現(xiàn) Qwen3-30B-A3B 的強(qiáng)化學(xué)習(xí)訓(xùn)練,序列長(zhǎng)度是 10k,用戶使用顯存估計(jì)器對(duì)并行配置進(jìn)行摸底。

Megatron 開發(fā)者可以通過顯存分析工具的 breakdown 視角,詳細(xì)察看每個(gè)模塊的激活量,通過權(quán)衡激活量和計(jì)算量尋找性價(jià)比高(激活量 / 計(jì)算量)的模塊的激活為其開發(fā)進(jìn)行重算或卸載功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11332

    瀏覽量

    225992
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5279

原文標(biāo)題:探索在大模型訓(xùn)練中使用 Megatron-Core 訓(xùn)練框架提高顯存使用效率

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    零基礎(chǔ)手寫大模型資料2026

    間通信開銷,通常采用NCCL等高效通信庫。 四、技術(shù)演進(jìn):從手寫原型到工業(yè)級(jí)模型 手寫大模型的核心價(jià)值在于理解技術(shù)本質(zhì),而工業(yè)級(jí)實(shí)現(xiàn)需解決更多工程問題:混合精度訓(xùn)練(FP16/FP32)可減少
    發(fā)表于 05-01 17:44

    HM博學(xué)谷狂野AI大模型第四期

    、 推理性能極致優(yōu)化:KV Cache 與顯存管理 在模型落地的商業(yè)場(chǎng)景中,推理速度與資源消耗是核心痛點(diǎn)。課程不只關(guān)注模型的“智商”,更關(guān)注其“效率”。通過對(duì)推理
    發(fā)表于 05-01 17:30

    AWQ/GPTQ量化模型加載與顯存優(yōu)化實(shí)戰(zhàn)

    大語言模型(LLM)推理顯存需求呈指數(shù)級(jí)增長(zhǎng),70B參數(shù)的模型需要約140GB顯存(FP16),遠(yuǎn)超單卡GPU容量。量化技術(shù)通過降低模型參數(shù)
    的頭像 發(fā)表于 03-13 09:45 ?733次閱讀

    模型服務(wù)為什么總是爆顯存

    模型服務(wù)報(bào) CUDA out of memory,很多現(xiàn)場(chǎng)第一反應(yīng)都是“模型太大,換更大的卡”。這個(gè)結(jié)論通常過于粗糙。生產(chǎn)里的顯存問題至少有五類來源:模型權(quán)重本身、KV Cache、
    的頭像 發(fā)表于 03-11 09:54 ?549次閱讀

    NVIDIA推出代理式AI藍(lán)圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運(yùn)營商能夠利用自有數(shù)據(jù)訓(xùn)練 AI 智能體,構(gòu)建自主網(wǎng)絡(luò)。
    的頭像 發(fā)表于 03-06 17:37 ?3112次閱讀

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發(fā)明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的頭像 發(fā)表于 12-13 10:12 ?1474次閱讀
    在Python中<b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> CUDA Tile簡(jiǎn)化GPU編程

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助
    的頭像 發(fā)表于 12-01 09:25 ?1486次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現(xiàn)已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應(yīng)用開發(fā)者都可以構(gòu)建并部署帶有先進(jìn)動(dòng)畫的高精度角色。NVIDIA 開源 Audio2Face 的訓(xùn)練
    的頭像 發(fā)表于 10-21 11:11 ?1038次閱讀
    <b class='flag-5'>NVIDIA</b>開源Audio2Face<b class='flag-5'>模型</b>及SDK

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    。 ? 借助全新的 NVIDIA Cosmos 世界基礎(chǔ)模型,開發(fā)者可以生成多樣化數(shù)據(jù),從而大規(guī)模加速物理 AI 模型訓(xùn)練。 ? 來自斯
    的頭像 發(fā)表于 09-30 09:52 ?3230次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源<b class='flag-5'>模型</b>與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南

    NVIDIA Isaac Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和
    的頭像 發(fā)表于 09-23 17:15 ?2660次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多GPU多節(jié)點(diǎn)<b class='flag-5'>訓(xùn)練</b>指南

    借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對(duì)豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長(zhǎng),已經(jīng)超出了在現(xiàn)實(shí)世界中通過人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過訓(xùn)練的生成式 AI 模型,能夠根據(jù)現(xiàn)實(shí)世界環(huán)境的動(dòng)態(tài),對(duì)未來的世界狀態(tài)進(jìn)行仿真、
    的頭像 發(fā)表于 09-23 15:30 ?1228次閱讀
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b>提升機(jī)器人<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>效率</b>

    Votee AI借助NVIDIA技術(shù)加速方言小語種LLM開發(fā)

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 數(shù)據(jù)處理軟件、NeMo Framework 模型訓(xùn)練框架及 Auto Configurator 優(yōu)化工
    的頭像 發(fā)表于 08-20 14:21 ?1047次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,為實(shí)際應(yīng)用提供了有益的參考。 未來,我們將繼續(xù)深入研究大模型推理的優(yōu)化方法,以降低顯存和計(jì)算資源的需求,提高深度學(xué)習(xí)模型在實(shí)際應(yīng)用中的性能。
    發(fā)表于 07-03 19:43

    NVIDIA GTC巴黎亮點(diǎn):全新Cosmos Predict-2世界基礎(chǔ)模型與CARLA集成加速智能汽車訓(xùn)練

    。這種向使用大模型的過渡大大增加了對(duì)用于訓(xùn)練、測(cè)試和驗(yàn)證的高質(zhì)量、基于物理學(xué)傳感器數(shù)據(jù)的需求。 為加速下一代輔助駕駛架構(gòu)的開發(fā),NVIDIA 發(fā)布了?NVIDIA Cosmos Pre
    的頭像 發(fā)表于 06-12 10:00 ?1241次閱讀
    田阳县| 娄底市| 绥化市| 临西县| 阳山县| 革吉县| 沅陵县| 澜沧| 什邡市| 台江县| 永顺县| 桂林市| 新平| 武义县| 航空| 九江县| 恩平市| 延寿县| 榆林市| 桐乡市| 浙江省| 阿克陶县| 成都市| 南木林县| 大洼县| 万盛区| 都兰县| 南通市| 保德县| 井陉县| 抚宁县| 仙游县| 容城县| 南康市| 丽江市| 台安县| 宜城市| 永康市| 博野县| 夹江县| 延吉市|