日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)H100 Transformer引擎加速AI訓(xùn)練 準(zhǔn)確而且高達(dá)6倍性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-01 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在當(dāng)今計(jì)算平臺上,大型 AI 模型可能需要數(shù)月來完成訓(xùn)練。而這樣的速度對于企業(yè)來說太慢了。

隨著一些模型(例如大型語言模型)達(dá)到數(shù)萬億參數(shù),AI、高性能計(jì)算和數(shù)據(jù)分析變得日益復(fù)雜。

NVIDIA Hopper 架構(gòu)從頭開始構(gòu)建,憑借強(qiáng)大的算力和快速的內(nèi)存來加速這些新一代 AI 工作負(fù)載,從而處理日益增長的網(wǎng)絡(luò)和數(shù)據(jù)集。

Transformer 引擎是全新 Hopper 架構(gòu)的一部分,將顯著提升 AI 性能和功能,并助力在幾天或幾小時(shí)內(nèi)訓(xùn)練大型模型。

使用 Transformer 引擎訓(xùn)練 AI 模型

Transformer 模型是當(dāng)今廣泛使用的語言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初針對自然語言處理用例而開發(fā),但因其通用性,現(xiàn)在逐步應(yīng)用于計(jì)算機(jī)視覺、藥物研發(fā)等領(lǐng)域。

與此同時(shí),模型大小不斷呈指數(shù)級增長,現(xiàn)在已達(dá)到數(shù)萬億個(gè)參數(shù)。由于計(jì)算量巨大,訓(xùn)練時(shí)間不得不延長到數(shù)月,而這樣就無法滿足業(yè)務(wù)需求。

Transformer 引擎采用 16 位浮點(diǎn)精度和新增的 8 位浮點(diǎn)數(shù)據(jù)格式,并整合先進(jìn)的軟件算法,將進(jìn)一步提升 AI 性能和功能。

AI 訓(xùn)練依賴浮點(diǎn)數(shù),浮點(diǎn)數(shù)是小數(shù),例如 3.14。TensorFloat32 (TF32) 浮點(diǎn)格式是隨 NVIDIA Ampere 架構(gòu)而面世的,現(xiàn)已成為 TensorFlow 和 PyTorch 框架中的默認(rèn) 32 位格式。

大多數(shù) AI 浮點(diǎn)運(yùn)算采用 16 位“半”精度 (FP16)、32 位“單”精度 (FP32),以及面向?qū)I(yè)運(yùn)算的 64 位“雙”精度 (FP64)。Transformer 引擎將運(yùn)算縮短為 8 位,能以更快的速度訓(xùn)練更大的網(wǎng)絡(luò)。

與 Hopper 架構(gòu)中的其他新功能(例如,在節(jié)點(diǎn)之間提供直接高速互連的 NVLink Switch 系統(tǒng))結(jié)合使用時(shí),H100 加速服務(wù)器集群能夠訓(xùn)練龐大網(wǎng)絡(luò),而這些網(wǎng)絡(luò)此前幾乎無法以企業(yè)所需的速度進(jìn)行訓(xùn)練。

更深入地研究 Transformer 引擎

Transformer 引擎采用軟件和自定義 NVIDIA Hopper Tensor Core 技術(shù),該技術(shù)旨在加速訓(xùn)練基于常見 AI 模型構(gòu)建模塊(即 Transformer)構(gòu)建的模型。這些 Tensor Core 能夠應(yīng)用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 計(jì)算。采用 FP8 的 Tensor Core 運(yùn)算在吞吐量方面是 16 位運(yùn)算的兩倍。

模型面臨的挑戰(zhàn)是智能管理精度以保持準(zhǔn)確性,同時(shí)獲得更小、更快數(shù)值格式所能實(shí)現(xiàn)的性能。Transformer 引擎利用定制的、經(jīng)NVIDIA調(diào)優(yōu)的啟發(fā)式算法來解決上述挑戰(zhàn),該算法可在 FP8 與 FP16 計(jì)算之間動(dòng)態(tài)選擇,并自動(dòng)處理每層中這些精度之間的重新投射和縮放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每層統(tǒng)計(jì)分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型精度的同時(shí)實(shí)現(xiàn)最佳性能。

與上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架構(gòu)還將每秒浮點(diǎn)運(yùn)算次數(shù)提高了三倍,從而在第四代 Tensor Core 的基礎(chǔ)上實(shí)現(xiàn)了進(jìn)一步提升。Hopper Tensor Core 與 Transformer 引擎和第四代 NVLink 相結(jié)合,可使 HPC 和 AI 工作負(fù)載的加速實(shí)現(xiàn)數(shù)量級提升。

加速 Transformer 引擎

AI 領(lǐng)域的大部分前沿工作都圍繞 Megatron 530B 等大型語言模型展開。下圖顯示了近年來模型大小的增長趨勢,業(yè)界普遍認(rèn)為這一趨勢將持續(xù)發(fā)展。許多研究人員已經(jīng)在研究用于自然語言理解和其他應(yīng)用的超萬億參數(shù)模型,這表明對 AI 計(jì)算能力的需求有增無減。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然語言理解模型仍在快速增長。

為滿足這些持續(xù)增長的模型的需求,高算力和大量高速內(nèi)存缺一不可。NVIDIA H100 Tensor Core GPU 兩者兼?zhèn)洌偌由?Transformer 引擎實(shí)現(xiàn)的加速,可助力 AI 訓(xùn)練更上一層樓。

通過上述方面的創(chuàng)新,就能夠提高吞吐量,將訓(xùn)練時(shí)間縮短 9 倍——從 7 天縮短到僅 20 個(gè)小時(shí):

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

與上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的訓(xùn)練吞吐量,從而可在合理的時(shí)間內(nèi)訓(xùn)練大型模型。

Transformer 引擎還可用于推理,無需進(jìn)行任何數(shù)據(jù)格式轉(zhuǎn)換。以前,INT8 是實(shí)現(xiàn)出色推理性能的首選精度。但是,它要求經(jīng)訓(xùn)練的網(wǎng)絡(luò)轉(zhuǎn)換為 INT8,這是優(yōu)化流程的一部分,而 NVIDIA TensorRT 推理優(yōu)化器可輕松實(shí)現(xiàn)這一點(diǎn)。

使用以 FP8 精度訓(xùn)練的模型時(shí),開發(fā)者可以完全跳過此轉(zhuǎn)換步驟,并使用相同的精度執(zhí)行推理操作。與 INT8 格式的網(wǎng)絡(luò)一樣,使用 Transformer 引擎的部署能以更小的內(nèi)存占用空間運(yùn)行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,響應(yīng)延遲為 1 秒,這表明它是適用于 AI 部署的上佳平臺:

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

對于低延遲應(yīng)用,Transformer 引擎還可將推理吞吐量提高 30 倍。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41326

    瀏覽量

    302721
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4116

    瀏覽量

    99662
  • H100
    +關(guān)注

    關(guān)注

    0

    文章

    33

    瀏覽量

    621

原文標(biāo)題:GTC22 | H100 Transformer 引擎大幅加速 AI 訓(xùn)練,在不損失準(zhǔn)確性的情況下提供高達(dá) 6 倍的性能

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    HM博學(xué)谷狂野AI大模型第四期

    ,為開發(fā)者提供了一把打開 AI 黑盒的鑰匙。從 Transformer 的矩陣運(yùn)算到分布式訓(xùn)練的工程調(diào)度,再到推理加速的極致優(yōu)化,這是一次從應(yīng)用層向底層原理的深度回歸。在
    發(fā)表于 05-01 17:30

    AI爆款應(yīng)用驅(qū)動(dòng)需求增長,英偉達(dá)H100租賃費(fèi)用飆升40%

    電子發(fā)燒友網(wǎng)綜合報(bào)道 近期,半導(dǎo)體研究機(jī)構(gòu)SemiAnalysis發(fā)布的“H100一年期租賃合約價(jià)格指數(shù)”顯示,英偉達(dá)四年前發(fā)布的H100芯片租賃費(fèi)用近半年飆升近40%。這款“老芯片”
    的頭像 發(fā)表于 04-05 07:05 ?1.3w次閱讀

    羅姆強(qiáng)勢入局AI服務(wù)器800VDC電源方案 原創(chuàng)

    % 。 AI 訓(xùn)練耗電量是網(wǎng)絡(luò)搜索的 10 以上 。 AI 服務(wù)器 GPU 性能增長的同時(shí)功率持續(xù)飆升。以
    的頭像 發(fā)表于 12-13 00:25 ?8750次閱讀

    羅姆強(qiáng)勢入局AI服務(wù)器800VDC電源方案

    的10以上。 ? AI服務(wù)器GPU性能增長的同時(shí)功率持續(xù)飆升。以英偉達(dá)為例,其GPU的TDP熱設(shè)計(jì)功耗從
    的頭像 發(fā)表于 12-12 15:42 ?5402次閱讀
    羅姆強(qiáng)勢入局<b class='flag-5'>AI</b>服務(wù)器800VDC電源方案

    突發(fā)!特朗普批準(zhǔn)英偉達(dá)H200芯片對華出口,抽成25%

    一種“妥協(xié)”。此前,英偉達(dá)一直希望向中國銷售其更先進(jìn)的Blackwell系列芯片,但美政府目前仍明確表示不贊成。H200芯片性能雖低于Blackwell,但強(qiáng)于此前已獲準(zhǔn)對華出口的
    的頭像 發(fā)表于 12-09 17:58 ?1795次閱讀

    英偉達(dá) Q3 狂攬 308 億

    廠商季度合計(jì) 500 億美元資本支出中,約 30% 流向了英偉達(dá)。 新一代 Blackwell 芯片已全面投產(chǎn),Q3 交付 1.3 萬個(gè) GPU 樣品,H200 GPU 理論性能
    的頭像 發(fā)表于 11-20 18:11 ?1398次閱讀

    黃仁勛:英偉達(dá)AI芯片訂單排到2026年 英偉達(dá)上季營收加速增長62%再超預(yù)期

    AI芯片總龍頭英偉達(dá)的財(cái)報(bào)終于帶來了驚喜;英偉達(dá)公司發(fā)布財(cái)報(bào)數(shù)據(jù)顯示,上季營收加速增長62%;再
    的頭像 發(fā)表于 11-20 11:36 ?1493次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    Transformer 模型 通過簡化Transformer 模型而不影響其收斂性能和下游任務(wù)性能加速GPU中的
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片的需求和挑戰(zhàn)

    的我我們講解了這幾種芯片的應(yīng)用場景,設(shè)計(jì)流程、結(jié)構(gòu)等。 CPU: 還為我們講解了一種算法:哈希表算法 GPU: 介紹了英偉達(dá)H100GPU芯片。使用了一下關(guān)鍵技術(shù): ①張量核
    發(fā)表于 09-12 16:07

    英偉達(dá) H100 GPU 掉卡?做好這五點(diǎn),讓算力穩(wěn)如泰山!

    H100服務(wù)器停工一天損失的算力成本可能比維修費(fèi)還高。今天,我們給大家總結(jié)一套“防掉卡秘籍”,從日常管理到環(huán)境把控,手把手教你把掉卡風(fēng)險(xiǎn)壓到最低。一、供電是“生命線”,這3點(diǎn)必須盯緊H100滿載功耗
    的頭像 發(fā)表于 09-05 11:03 ?1513次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> <b class='flag-5'>H100</b> GPU 掉卡?做好這五點(diǎn),讓算力穩(wěn)如泰山!

    英偉達(dá)被傳暫停生產(chǎn)H20芯片 外交部回應(yīng)

    韓國三星電子、美國安靠科技、富士康等關(guān)鍵零部件供應(yīng)商。 據(jù)悉,美國安靠科技(Amkor)負(fù)責(zé)H20芯片的封裝,而三星電子負(fù)責(zé)提供高帶寬的內(nèi)存芯片。 業(yè)界人士分析稱,一方面英偉達(dá)H20芯
    的頭像 發(fā)表于 08-22 15:58 ?3073次閱讀

    搞定英偉達(dá) H100 ECC 報(bào)錯(cuò):從原理到維修,一步到位解煩憂

    最近,捷智算GPU維修室收到了不少H100服務(wù)器需要維修,故障問題集中為ECC報(bào)錯(cuò)。為了幫大家更好地認(rèn)識和了解情況,下面就詳細(xì)分享一下ECC報(bào)錯(cuò)系統(tǒng)化排查方法和維修流程。一、ECC報(bào)錯(cuò)
    的頭像 發(fā)表于 08-14 18:05 ?2743次閱讀
    搞定<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> <b class='flag-5'>H100</b> ECC 報(bào)錯(cuò):從原理到維修,一步到位解煩憂

    H20中國區(qū)賣爆!英偉達(dá)緊急向臺積電加訂30萬塊

    性能上相當(dāng)于英偉達(dá)另一款主流GPU芯片H100的20%左右。 ? 盡管如此,在美國解禁對H20芯片的出口后,需求仍然超出了想象。據(jù)路透社報(bào)
    的頭像 發(fā)表于 07-30 08:08 ?3559次閱讀

    GPU 維修干貨 | 英偉達(dá) GPU H100 常見故障有哪些?

    上漲,英偉達(dá)H100GPU憑借其強(qiáng)大的算力,成為AI訓(xùn)練、高性能計(jì)算領(lǐng)域的核心硬件。然而,隨著使
    的頭像 發(fā)表于 05-05 09:03 ?3444次閱讀
    GPU 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> GPU <b class='flag-5'>H100</b> 常見故障有哪些?
    雅安市| 怀化市| 枝江市| 塘沽区| 山阴县| 简阳市| 怀宁县| 武鸣县| 秦皇岛市| 湖口县| 迭部县| 新邵县| 东山县| 自贡市| 渝北区| 府谷县| 浠水县| 宁波市| 宜良县| 陈巴尔虎旗| 平塘县| 隆林| 牡丹江市| 盱眙县| 永安市| 边坝县| 囊谦县| 东丽区| 张掖市| 浪卡子县| 乐山市| 乌拉特中旗| 保亭| 延庆县| 东台市| 临海市| 金坛市| 武乡县| 五台县| 太白县| 蛟河市|