日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Blackwell平臺帶來性能躍升

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2024-11-19 14:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Blackwell 完成的每一項測試,都為各項 AI 應用樹立了訓練性能新標桿。

對于使用文本、計算機代碼、蛋白質鏈、摘要、視頻甚至 3D 圖形的生成式 AI 應用,它們需要數(shù)據(jù)中心規(guī)模的加速計算來高效地訓練其背后的大語言模型(LLM)。

在 MLPerf Training 4.1 行業(yè)基準測試中,NVIDIA Blackwell 平臺在所有參與測試的工作負載上都取得了令人贊嘆的測試結果。在 LLM 基準測試中,每塊 GPU 的性能提高了 2.2 倍,其中包括 Llama 2 70B 微調(diào)和 GPT-3 175B 預訓練。

此外,NVIDIA 提交的 NVIDIA Hopper 平臺測試結果繼續(xù)在所有基準測試上保持了規(guī)模級的記錄,包括使用 11,616 塊 Hopper GPU 進行的 GPT-3 175B 基準測試。

Blackwell 帶來性能躍升

這是 NVIDIA 首次向 MLCommons 聯(lián)盟提交 Blackwell 的訓練測試結果,其結果突顯了該架構是如何提高生成式 AI 訓練性能的。MLCommons 聯(lián)盟為業(yè)內(nèi)公司創(chuàng)建了標準化、公正且經(jīng)過嚴格的同行評審的測試。

例如,Blackwell 架構包括新的核函數(shù),它們可以更高效地使用 Tensor Core。這些核函數(shù)執(zhí)行優(yōu)化的專用數(shù)學運算,例如矩陣乘,是許多深度學習算法的主要計算。

Blackwell 擁有更高的每塊 GPU 計算吞吐量以及更大、更快的高帶寬內(nèi)存,使其能夠在更少的 GPU 上運行 GPT-3 175B 基準測試,同時實現(xiàn)出色的每塊 GPU 性能。

通過利用容量更大、帶寬更高的 HBM3e 內(nèi)存,僅僅 64 塊 Blackwell GPU 就能夠運行 GPT-3 LLM 基準測試,并且不損失每塊 GPU 性能。使用 Hopper 進行相同的基準測試時則需要 256 塊 GPU。

在提交 Blackwell 的訓練測試結果之前,NVIDIA 還提交了 MLPerf Inference 4.1 推理測試結果。在該測試中,Blackwell 的 LLM 推理性能比 Hopper 高出 4 倍。測試結果顯示,通過利用 Blackwell 架構的 FP4 精度以及 NVIDIA QUASAR 量化系統(tǒng),Blackwell 在滿足基準測試的精度要求的同時展現(xiàn)出了強大的性能。

持續(xù)優(yōu)化

經(jīng)過持續(xù)的軟件開發(fā),NVIDIA 平臺在各種框架、模型和應用的訓練和推理方面獲得了性能提升和功能改進。

在本輪提交的 MLPerf 訓練測試結果中,當使用 GPT-3 175B 進行訓練時,Hopper 的每塊 GPU 訓練性能比上次提交該基準測試時提高了 1.3 倍。

NVIDIA 還提交了 GPT-3 175B 基準測試的大規(guī)模測試結果,該測試使用了 11,616 塊 Hopper GPU,這些 GPU 通過 NVIDIA NVLink 和 NVSwitch 高帶寬 GPU 間通信以及 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡連接在一起。

自去年以來,NVIDIA Hopper GPU 在 GPT-3 175B 基準測試中的規(guī)模和性能提升了三倍多。此外,在 Llama 2 70B LoRA 微調(diào)基準測試中,NVIDIA 在使用相同數(shù)量的 Hopper GPU 的情況下將性能提高了 26%,這體現(xiàn)了軟件方面的持續(xù)優(yōu)化。

NVIDIA 持續(xù)優(yōu)化加速計算平臺的努力,使其 MLPerf 測試結果得以不斷提升——提高了容器化軟件的性能,為使用現(xiàn)有平臺的合作伙伴和客戶帶來更強大的算力,并讓他們從平臺投資中獲得更高的回報。

攜手合作

NVIDIA 的合作伙伴——包括華碩、Azure、思科、戴爾、富士通、Giga Computing、Lambda Labs、聯(lián)想、Oracle Cloud、云達科技和超微等系統(tǒng)制造商和云服務提供商——也在最新一輪 MLPerf 測試中提交了令人印象深刻的測試結果。

作為 MLCommons 的創(chuàng)始成員,NVIDIA 認為,行業(yè)標準的基準測試和基準測試最佳實踐對于 AI 計算而言至關重要。通過獲取經(jīng)過同行評審、精簡的 AI 和 HPC 各個平臺的對比信息,企業(yè)可以跟上最新的 AI 計算創(chuàng)新步伐,并獲得有助于指導其重大平臺投資決策的關鍵數(shù)據(jù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110139
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5283

    瀏覽量

    136096
  • 計算機
    +關注

    關注

    19

    文章

    7841

    瀏覽量

    93491
  • LLM
    LLM
    +關注

    關注

    1

    文章

    350

    瀏覽量

    1397

原文標題:巔峰的訓練性能:Blackwell 在 MLPerf 測試中將訓練性能帶到新高度

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    羅氏正與NVIDIA深化合作以加速藥物研發(fā)突破

    作為醫(yī)療領域的領導企業(yè),羅氏正踐行“先行一步,滿足患者未來需求”,通過在全球部署超過 3,500 塊 NVIDIA Blackwell GPU,并將其深度嵌入整個價值鏈,實現(xiàn)研發(fā)效率、下一代診斷技術與制造能力的全面躍升
    的頭像 發(fā)表于 03-25 09:50 ?4023次閱讀

    NVIDIA cuDF和cuVS獲全球領先數(shù)據(jù)平臺采用

    企業(yè)每年產(chǎn)生數(shù)百 ZB (Zettabyte) 的數(shù)據(jù),并在爭相將這些信息轉化為洞察。NVIDIA cuDF 和 cuVS 作為基于 NVIDIA CUDA-X 構建的加速數(shù)據(jù)庫,正在被各行業(yè)的數(shù)據(jù)平臺所應用,
    的頭像 發(fā)表于 03-19 15:46 ?486次閱讀

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計算、網(wǎng)絡和軟件領域的最新突破,將推理 token 成本降至 NVIDIA Blackwell
    的頭像 發(fā)表于 01-14 09:14 ?894次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升級迭代產(chǎn)品,其各項核心指標均針對 GPU 加速工作流的高性能
    的頭像 發(fā)表于 01-06 09:51 ?4297次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU的深度評測

    NVIDIA RTX PRO 4000 Blackwell GPU性能測試

    作為 NVIDIA 專業(yè)顯卡產(chǎn)品線中單槽性能的巔峰之作,NVIDIA RTX PRO 4000 Blackwell 在各項核心指標上均實現(xiàn)對前代 N
    的頭像 發(fā)表于 12-29 15:30 ?1915次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> GPU<b class='flag-5'>性能</b>測試

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,將基于 NVIDIA Blackwell 架構的強大代理式與生成式 AI 能力帶到更多桌面和
    的頭像 發(fā)表于 12-24 10:32 ?1128次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB <b class='flag-5'>Blackwell</b> GPU現(xiàn)已全面上市

    NVIDIA擴大與微軟合作推動AI超級工廠建設

    在 Microsoft Ignite 大會上,NVIDIA 擴大與微軟的合作,包括在由 NVIDIA Blackwell 平臺驅動的全新 Microsoft Fairwater AI
    的頭像 發(fā)表于 12-01 09:52 ?1021次閱讀

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應用正在使用 AI 加速,而無論工作站的大小或形態(tài)如何,都有越來越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?7120次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU<b class='flag-5'>性能</b>測試

    通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優(yōu)化推理性能。該
    的頭像 發(fā)表于 10-29 16:53 ?1689次閱讀

    Supermicro開始大批量交付NVIDIA Blackwell Ultra系統(tǒng)和機架即插即用數(shù)據(jù)中心級解決方案

    Supermicro, Inc.(納斯達克股票代碼:SMCI)是人工智能、云、存儲和 5G/邊緣的整體 IT 解決方案提供商,今天宣布其 NVIDIA Blackwell Ultra 解決方案已全面
    的頭像 發(fā)表于 09-17 17:00 ?1082次閱讀

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構 GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,
    的頭像 發(fā)表于 08-28 11:02 ?4426次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU測試分析

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    醫(yī)療、萬集科技、優(yōu)必選、銀河通用、宇樹科技、眾擎機器人和智元機器人等公司已經(jīng)率先使用 Jetson Thor。 ·基于 NVIDIA Blackwell 的 Jetson Thor,較上一代產(chǎn)品
    發(fā)表于 08-26 09:28 ?1364次閱讀
    基于 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機器人時代的到來

    NVIDIA桌面GPU系列擴展新產(chǎn)品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程、內(nèi)容創(chuàng)作和 3D 可視化等應用的
    的頭像 發(fā)表于 08-18 11:50 ?1675次閱讀

    OpenAI與NVIDIA共同開發(fā)全新開放模型

    NVIDIA 為 gpt-oss-120b 帶來業(yè)界領先性能,在單個 NVIDIA Blackwell 系統(tǒng)上實現(xiàn)每秒 150 萬個 Tok
    的頭像 發(fā)表于 08-12 15:11 ?1750次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?3616次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延遲場景中的<b class='flag-5'>性能</b>紀錄
    和龙市| 株洲县| 株洲市| 青岛市| 桦甸市| 筠连县| 理塘县| 梨树县| 东兴市| 东明县| 米易县| 赤壁市| 东辽县| 安丘市| 东乌| 勐海县| 木里| 东至县| 樟树市| 会泽县| 思南县| 兴义市| 平远县| 苍溪县| 江永县| 彝良县| 古蔺县| 大英县| 盐城市| 宜阳县| 阜阳市| 武定县| 临猗县| 越西县| 永修县| 盈江县| 恭城| 呼伦贝尔市| 鞍山市| 中方县| 祁阳县|