日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達(dá)Blackwell可支持10萬億參數(shù)模型AI訓(xùn)練,實時大語言模型推理

Carol Li ? 來源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-09-04 09:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報道(文/李彎彎)在近日的Hot Chips 2024大會上,英偉達(dá)公布了下一代GPU架構(gòu)Blackwell的更多細(xì)節(jié)信息,以及未來的產(chǎn)品路線圖。

英偉達(dá)Blackwell是通用計算全棧矩陣的終極解決方案,由多個英偉達(dá)芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。

英偉達(dá)稱,Blackwell擁有6項革命性技術(shù),可支持多達(dá)10萬億參數(shù)的模型進(jìn)行AI訓(xùn)練和實時大語言模型(LLM)推理。

NVIDIA Blackwell 的技術(shù)特點

NVIDIA Blackwell 架構(gòu)是NVIDIA于2024年3月在NVIDIA GTC大會上發(fā)布的全新架構(gòu),是NVIDIA繼Hopper架構(gòu)之后推出的全新架構(gòu),旨在推動生成式AI和加速計算領(lǐng)域的發(fā)展。Blackwell架構(gòu)擁有六項革命性技術(shù),這些技術(shù)共同構(gòu)成了其強大的計算能力和高效性。

一、它是全球最強大的芯片,擁有2080億個晶體管,這確保了芯片具有極高的計算能力和復(fù)雜性。它采用臺積電4納米工藝制造,提高了芯片的集成度,降低了功耗和發(fā)熱量。配備192GB的HBM3E顯存,極大提升了芯片的數(shù)據(jù)處理能力和效率。

第二代Transformer引擎,結(jié)合Blackwell Tensor Core技術(shù)和TensorRT-LLM及NeMo Megatron框架中的英偉達(dá)先進(jìn)動態(tài)范圍管理算法,Blackwell通過新的4位浮點AI支持雙倍的計算和模型大小推理能力。

第五代NVLink,為每個GPU提供了突破性的1.8TB/s雙向吞吐量,確保最復(fù)雜LLM之間多達(dá)576個GPU之間的無縫高速通信。

四、RAS引擎,Blackwell支持的GPU包含一個專用引擎,實現(xiàn)可靠性、可用性和服務(wù)性。此外,Blackwell架構(gòu)還增加了芯片級功能,利用基于AI的預(yù)防性維護(hù)進(jìn)行診斷和預(yù)測可靠性問題,從而延長系統(tǒng)正常運行時間并提高大規(guī)模部署AI的彈性。

五、安全人工智能,先進(jìn)的機(jī)密計算功能可在不影響性能的情況下保護(hù)AI模型和客戶數(shù)據(jù),并支持新的本機(jī)接口加密協(xié)議,進(jìn)一步增強了芯片的安全性。

六、解壓縮引擎,專用解壓縮引擎支持最新格式,加快數(shù)據(jù)庫查詢,提供數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的最高性能。

生態(tài)系統(tǒng)方面,Blackwell不僅是系統(tǒng)的核心芯片,更是一個全新的平臺。它涵蓋了從CPU和GPU計算到用于互連的不同類型的網(wǎng)絡(luò),是通用計算全棧矩陣的終極解決方案。

Blackwell架構(gòu)將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算機(jī)輔助藥物設(shè)計、量子計算和生成式AI等領(lǐng)域?qū)崿F(xiàn)突破。

NVIDIA已經(jīng)展示了基于Blackwell架構(gòu)的GPU GB200 NVL72等產(chǎn)品,該產(chǎn)品專為萬億參數(shù)AI而設(shè)計,對大語言模型(LLM)推理性能提升高達(dá)30倍。隨著AI模型尺寸的增加,在多個GPU上拆分工作負(fù)載勢在必行。而Blackwell足夠強大,可以在一個GPU中處理專家模型。

相比Hopper架構(gòu)的優(yōu)勢

NVIDIA Blackwell架構(gòu)相比其上一個NVIDIA Hopper架構(gòu)具有多方面的優(yōu)勢。NVIDIA Hopper架構(gòu)是NVIDIA在2022年推出的GPU架構(gòu),該架構(gòu)旨在取代之前的NVIDIA Ampere架構(gòu),并為新一代工作負(fù)載提供強大的加速計算平臺。

Hopper架構(gòu)采用了先進(jìn)的臺積電4N工藝制造,集成了超過800億個晶體管,這為高性能計算提供了堅實的基礎(chǔ)。

Hopper架構(gòu)通過Transformer引擎推進(jìn)了Tensor Core技術(shù)的發(fā)展,旨在加速AI模型訓(xùn)練。Transformer引擎能夠應(yīng)用混合的FP8和FP16精度,以大幅加速Transformer模型的AI計算。

與上一代相比,Hopper架構(gòu)在TF32、FP64、FP16和INT8精度的每秒浮點運算(FLOPS)上提高了3倍。這種性能提升使得Hopper在處理大規(guī)模AI模型時更加高效。

Hopper架構(gòu)引入了第四代NVLink技術(shù),可通過NVIDIA DGX和HGX服務(wù)器擴(kuò)展多GPU輸入和輸出(IO),每個GPU的雙向傳輸速率可達(dá)900GB/s,比PCIe 5.0的帶寬高7倍。

第三代NVIDIA NVSwitch支持SHARP網(wǎng)絡(luò)計算技術(shù),打破了該技術(shù)只能通過InfiniBand提供的傳統(tǒng)限制。這使得Hopper架構(gòu)在處理大規(guī)模HPC和AI工作負(fù)載時能夠?qū)崿F(xiàn)更高的互連效率和通信帶寬。

相比較而言,晶體管數(shù)量與計算能力方面,Blackwell架構(gòu)GPU擁有2080億個晶體管,比Hopper架構(gòu)的GPU多出顯著數(shù)量,這直接提升了其計算能力。

Blackwell架構(gòu)的單個芯片計算能力達(dá)到了20 petaFLOPS,這使其在處理大規(guī)模AI模型時具有更高的實時性能和效率。

內(nèi)存與帶寬方面,Blackwell架構(gòu)配備了更大的HBM3e內(nèi)存(如192GB)和更高的顯存帶寬(如8TB/s),相比Hopper架構(gòu),這進(jìn)一步增強了數(shù)據(jù)處理和傳輸?shù)乃俣取?br />
寫在最后

NVIDIA Blackwell架構(gòu)相比其上一個架構(gòu)在性能、計算能力、技術(shù)創(chuàng)新、特性增強以及生態(tài)系統(tǒng)與應(yīng)用拓展等方面均具有顯著優(yōu)勢。應(yīng)用方面,Blackwell架構(gòu)將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算機(jī)輔助藥物設(shè)計、量子計算和生成式AI等領(lǐng)域?qū)崿F(xiàn)突破。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136105
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41326

    瀏覽量

    302719
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4116

    瀏覽量

    99662
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI Ceph 分布式存儲教程資料大模型學(xué)習(xí)資料2026

    。如何構(gòu)建高性能、高吞吐、高擴(kuò)展的 AI 分布式存儲系統(tǒng),已成為解鎖大模型基建能力的核心科技命題。這不僅關(guān)乎數(shù)據(jù)存得下、讀得快,更直接決定了 GPU 集群的利用率與模型
    發(fā)表于 05-01 17:35

    HM博學(xué)谷狂野AI模型第四期

    在生成式 AI 浪潮席卷全球的今天,大語言模型(LLM)已成為技術(shù)圈的顯學(xué)。然而,絕大多數(shù)開發(fā)者仍停留在“調(diào)用者”的層面——通過 API 發(fā)送 Prompt,接收文本回復(fù)。這種“黑盒”式的應(yīng)用開發(fā)
    發(fā)表于 05-01 17:30

    黑馬-Java+AI新版V16零基礎(chǔ)就業(yè)班百度云網(wǎng)盤下載+Java+AI全棧開發(fā)工程師

    生態(tài)的傳統(tǒng)優(yōu)勢發(fā)揮 AI 應(yīng)用的性能瓶頸往往不在模型推理,而在上游的數(shù)據(jù)準(zhǔn)備與特征工程。這正是 Java 生態(tài)的傳統(tǒng)強項。借助 Kafka、RabbitMQ 構(gòu)建實時特征管道,利用
    發(fā)表于 05-01 11:29

    AI模型微調(diào)企業(yè)項目實戰(zhàn)課

    業(yè)、守規(guī)矩、完全掌控的專屬 AI 底座,已經(jīng)成為頭部企業(yè)的隱性共識。 二、 核心破局:微調(diào)——用極低成本撬動專業(yè)能力 很多企業(yè)對“自主訓(xùn)練模型”存在誤解,認(rèn)為這需要像頂級科技巨頭那
    發(fā)表于 04-16 18:48

    【瑞薩AI挑戰(zhàn)賽】手寫數(shù)字識別模型在RA8P1 Titan Board上的部署

    訓(xùn)練多分類模型,實現(xiàn)手寫字母、漢字的識別; 邊緣計算拓展:利用開發(fā)板的以太網(wǎng)接口,將識別結(jié)果上傳至邊緣服務(wù)器,實現(xiàn)多設(shè)備的協(xié)同推理與數(shù)據(jù)管理。 RA8P1 Titan Board開發(fā)板為嵌入式
    發(fā)表于 03-15 20:42

    技嘉與趨境科技聯(lián)合部署AMaaS平臺 推動本地大模型應(yīng)用加速落地

    CPU+GPU一體封裝設(shè)計的NVIDIA GB10 Grace Blackwell芯片,其具備1千萬億次/秒(浮點運算)AI 性能、128GB 統(tǒng)一內(nèi)存,
    的頭像 發(fā)表于 03-12 15:11 ?217次閱讀
    技嘉與趨境科技聯(lián)合部署AMaaS平臺 推動本地大<b class='flag-5'>模型</b>應(yīng)用加速落地

    英偉達(dá)電話會看Agentic AI推理與FPGA價值

    2026年2月,英偉達(dá)發(fā)布2026財年Q4財報:營收681億美元,同比增長73%,數(shù)據(jù)中心業(yè)務(wù)增長75%——預(yù)期中的超預(yù)期。更值得關(guān)注的,是電話會中反復(fù)出現(xiàn)的幾個關(guān)鍵詞:Agentic AI、
    的頭像 發(fā)表于 03-04 17:07 ?1323次閱讀
    從<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>電話會看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與FPGA價值

    訓(xùn)練推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓(xùn)練所需的算力投入。一個萬億參數(shù)模型
    的頭像 發(fā)表于 02-05 16:07 ?1057次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到<b class='flag-5'>推理</b>:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報道,在人工智能迅猛發(fā)展的當(dāng)下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類AI
    的頭像 發(fā)表于 02-03 17:15 ?3306次閱讀

    邁向吉瓦級AI工廠的能源變革:英偉達(dá)Rubin平臺電源架構(gòu)解析

    隨著人工智能(AI)模型參數(shù)量突破萬億級別,從大語言模型(LLM)的
    的頭像 發(fā)表于 01-15 17:42 ?1012次閱讀
    邁向吉瓦級<b class='flag-5'>AI</b>工廠的能源變革:<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>Rubin平臺電源架構(gòu)解析

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。一旦模型訓(xùn)練并保存,就可以用于對新圖像進(jìn)行
    發(fā)表于 10-22 07:03

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1517次閱讀

    ?Groq LPU 如何讓萬億參數(shù)模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何讓萬億參數(shù)模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技? 最近,Moonshot AI 的千億參數(shù)模型
    的頭像 發(fā)表于 08-07 10:01 ?1359次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI模型。其核心優(yōu)勢在于強大的
    發(fā)表于 07-16 15:29

    模型推理顯存和計算量估計方法研究

    過程中需要占用大量顯存,導(dǎo)致推理速度變慢,甚至無法進(jìn)行。 計算量過大:大模型的計算量較大,導(dǎo)致推理速度慢,難以滿足實時性要求。 為了解決這些問題,本文將針對大
    發(fā)表于 07-03 19:43
    金塔县| 洞头县| 邵阳市| 延长县| 买车| 扎赉特旗| 娱乐| 安顺市| 始兴县| 开原市| 黄陵县| 通许县| 大丰市| 乃东县| 当阳市| 改则县| 蒙阴县| 仙桃市| 会东县| 湘西| 抚宁县| 包头市| 奉贤区| 南川市| 昌江| 达拉特旗| 鹤壁市| 浦城县| 辽宁省| 衡山县| 张家港市| 阳原县| 呼玛县| 木里| 广宁县| 昌宁县| 大洼县| 镇平县| 余姚市| 鹤峰县| 稻城县|