日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Spectrum-X網(wǎng)絡平臺助力提升AI存儲性能

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-02-15 11:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 工廠依靠的不僅僅是計算網(wǎng)。當然,連接 GPU 的東西向網(wǎng)絡對于 AI 應用的性能至關重要,而連接高速存儲陣列的存儲網(wǎng)也不容忽視。存儲性能在運行 AI 業(yè)務過程中的多個階段中發(fā)揮著關鍵作用,包括訓練過程中的 Checkpoint 操作、推理過程中的檢索增強生成(RAG)等。

為了滿足這些需求,NVIDIA 和存儲生態(tài)合作伙伴正在將NVIDIA Spectrum-X 網(wǎng)絡平臺擴展到數(shù)據(jù)存儲網(wǎng),從而帶來更高的性能和更快的實現(xiàn) AI 的時間。由于 Spectrum-X 動態(tài)路由技術能夠緩解網(wǎng)絡中的流量沖突并增加有效帶寬,從而使存儲性能遠高于 RoCE v2,RoCE v2 是大多數(shù)數(shù)據(jù)中心用于 AI 計算網(wǎng)和存儲網(wǎng)的以太網(wǎng)網(wǎng)絡協(xié)議。

Spectrum-X 將讀取帶寬加速了高達 48%,寫入帶寬加速了高達 41%。帶寬的增加可以更快地完成 AI 工作流中與存儲相關的操作,從而縮短訓練業(yè)務的完成時間,并降低推理過程中的 Token 分配延遲。

Spectrum-X 的主要存儲合作伙伴

隨著 AI 工作負載的規(guī)模和復雜性不斷增加,存儲解決方案也必須不斷發(fā)展,以跟上現(xiàn)代 AI 工廠的需求。DDN、VAST Data?和WEKA?等領先的存儲供應商正與 NVIDIA 合作,利用 Spectrum-X 集成和優(yōu)化其解決方案,為 AI 存儲網(wǎng)帶來先進的功能。

Spectrum-X 對 Israel-1 超級計算機的大規(guī)模影響

NVIDIA 已經(jīng)搭建了生成式 AI 超級計算機 Israel-1,用于對各種 AI 網(wǎng)絡解決方案進行預測試和驗證以優(yōu)化 Spectrum-X 性能和簡化網(wǎng)絡部署。這使 Israel-1 成為測試 Spectrum-X 如何影響存儲工作負載的良好平臺,展示了網(wǎng)絡在現(xiàn)實的超級計算機運行狀態(tài)下對存儲性能的影響。

為了了解 Spectrum-X 對存儲網(wǎng)絡的影響,Israel-1 團隊測量了從 NVIDIA HGX ?GPU 服務器客戶端訪問存儲時的讀寫帶寬。該測試(Flexible I/O Tester 基準測試)在將網(wǎng)絡配置為標準 RoCE v2 網(wǎng)絡的情況下執(zhí)行一次,然后在啟用 Spectrum-X 的動態(tài)路由和擁塞控制后重新運行。

這些測試使用了不同數(shù)量的 GPU 服務器作為客戶端運行,覆蓋了從 40 個 GPU 到 800 個 GPU。在所有的測試中,Spectrum-X 都表現(xiàn)得更好。讀帶寬提升幅度在 20%到 48%之間,寫帶寬提升幅度在 9%到 41%之間,這些結果與 DDN、VAST?和 WEKA?等生態(tài)合作伙伴測到的加速性能一致。

存儲網(wǎng)絡性能對于 AI 性能至關重要

要想知道 Spectrum-X 為何會帶來如此大的影響,需要先了解存儲在 AI 業(yè)務中的重要性。AI 性能不僅僅受大語言模型(LLM)每一步完成時間的影響,還與許多其他因素有關。例如,由于模型訓練通常需要幾天、幾周或幾個月才能完成,因此設置 Checkpoint 或保存部分訓練模型的中間結果到存儲非常重要,通常需要每隔幾個小時操作一次。這意味著,萬一系統(tǒng)出現(xiàn)問題,訓練進度不會丟失。

對于具有數(shù)十億至數(shù)萬億參數(shù)的模型,這些 Checkpoint 的狀態(tài)變得越來越大,現(xiàn)在最大型 LLM 模型會生成高達數(shù) TB 的數(shù)據(jù),保存數(shù)據(jù)或恢復數(shù)據(jù)會產(chǎn)生多條“大象流”,這些突發(fā)的大象流,可能會淹沒交換機的緩沖和鏈路,所以網(wǎng)絡必須保證為訓練工作負載提供最佳利用率。

檢索增強生成(RAG)是另一個存儲網(wǎng)可以影響工作負載性能的例子,借助 RAG,LLM 與不斷增長的知識庫相結合,為模型添加特定領域的上下文,從而提供更快的響應時間,而無需額外的模型訓練或微調。RAG 的工作原理是獲取額外的內(nèi)容或知識,并將其嵌入到向量數(shù)據(jù)庫中,從而使其成為可搜索到的知識庫。

輸入推理提示時,系統(tǒng)會解析(嵌入)提示并搜索數(shù)據(jù)庫,檢索到的內(nèi)容會向提示添加上下文,以幫助 LLM 制定最佳答案。向量數(shù)據(jù)庫是多維的,可能非常龐大,尤其是由圖像和視頻組成的知識庫。

這些數(shù)據(jù)庫通過存儲網(wǎng)連接到推理節(jié)點,網(wǎng)絡必須確保快速通信以盡可能降低延遲。對于多租戶生成式 AI 工廠而言,這一點變得尤為重要,因為這些工廠每秒要處理大量的查詢。

存儲中動態(tài)路由和擁塞控制的應用

Spectrum-X 平臺引入了 InfiniBand 網(wǎng)絡上的關鍵創(chuàng)新技術,例如RoCE Adaptive Routing(動態(tài)路由)和RoCE Congestion Control(擁塞控制)。NVIDIA 通過采用這些創(chuàng)新技術并將其與存儲網(wǎng)相結合,提高了存儲工作負載的性能和網(wǎng)絡利用率。

動態(tài)路由

為了消除大象流之間的碰撞并減輕 Checkpoint 過程中產(chǎn)生的網(wǎng)絡流量,動態(tài)路由可以對于網(wǎng)絡上的流進行逐包的動態(tài)負載平衡,Spectrum-4 以太網(wǎng)交換機根據(jù)實時擁塞狀況來選擇擁塞最低的路徑。由于數(shù)據(jù)包被噴灑到整個網(wǎng)絡中,到達目的地時它們可能會出現(xiàn)亂序,在傳統(tǒng)的以太網(wǎng)下,這將需要重新傳輸許多數(shù)據(jù)包。

借助 Spectrum-X,接收端主機里的 SuperNIC 或數(shù)據(jù)處理器(DPU)知道數(shù)據(jù)包的正確順序,可以在主機內(nèi)存中按序放置數(shù)據(jù)包,從而使動態(tài)路由對應用程序透明。這可提高網(wǎng)絡利用率,為 Checkpoint、數(shù)據(jù)獲取等實現(xiàn)更高的有效帶寬以及提供可預測、一致的結果。

擁塞控制

Checkpoints 和其它存儲操作通常會導致 Incast 擁塞,也稱為多對一擁塞。當多個客戶端嘗試向單個存儲節(jié)點寫入數(shù)據(jù)時,就會出現(xiàn)這種情況。Spectrum-X 引入了一種基于遙測的擁塞控制技術,使用交換機中硬件遙測技術來通知 SuperNIC 或 DPU,以降低發(fā)送端的數(shù)據(jù)注入速率(即 RDMA 寫和讀)。從而防止出現(xiàn)擁塞熱點,這些熱點可能會反向傳播,導致相鄰作業(yè)或進程受到擁塞的不公平影響。

增強彈性

由于 AI 工廠通常由大量交換機、線纜和收發(fā)器組成,任何鏈路中斷都可能導致網(wǎng)絡性能的大幅下降,因此網(wǎng)絡彈性對于維護基礎設施的健康至關重要。Spectrum-X 全局動態(tài)路由可在鏈路中斷時實現(xiàn)優(yōu)化、快速的重新收斂,從而充分利用存儲網(wǎng)。

NVIDIA 全棧集成

除了 Spectrum-X 為存儲網(wǎng)帶來的創(chuàng)新之外,NVIDIA 還提供并推薦使用多種 SDK、庫和軟件產(chǎn)品,以加速存儲到 GPU 數(shù)據(jù)通路,其中包括但不限于以下內(nèi)容:

NVIDIA Air:一款基于云的網(wǎng)絡仿真工具,用于對交換機、SuperNIC 和存儲進行建模,可加速 Day 0、Day 1 和 Day 2 對于存儲網(wǎng)的操作。

NVIDIA Cumulus Linux:基于自動化部署和 API 構建的網(wǎng)絡操作系統(tǒng),可確保大規(guī)模網(wǎng)絡的平穩(wěn)運營和管理。

NVIDIA DOCA:面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存儲、安全等方面提供出色的可編程性和性能。

NVIDIA NetQ:一款網(wǎng)絡驗證工具集,集成了交換機遙測技術,可提供網(wǎng)絡的實時可見性。

NVIDIA GPUDirect Storage:一項在存儲和 GPU 顯存之間建立直接數(shù)據(jù)路徑的技術,可提高數(shù)據(jù)傳輸效率。

開始使用 Spectrum-X

隨著模型越來越大,數(shù)據(jù)走向更多的多模態(tài),存儲將一直是生成式 AI 訓練和操作的關鍵要素。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110144
  • 網(wǎng)絡平臺

    關注

    0

    文章

    20

    瀏覽量

    8231
  • AI
    AI
    +關注

    關注

    91

    文章

    41370

    瀏覽量

    302750

原文標題:NVIDIA Spectrum-X 網(wǎng)絡平臺和合作伙伴提升 AI 存儲性能達 48%

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA與電信領導企業(yè)共建AI網(wǎng)格

    AT&T、T-Mobile、Comcast、Spectrum 等公司正在使用 NVIDIA AI 基礎設施構建 AI 網(wǎng)格,Personal AI
    的頭像 發(fā)表于 04-10 16:16 ?350次閱讀

    Supermicro率先發(fā)布NVIDIA BlueField-4 STX存儲服務器,提升AI推理性能

    ? Supermicro憑借其基于NVIDIA STX AI存儲參考架構打造的上下文內(nèi)存(CMX)存儲服務器,進一步彰顯其行業(yè)領先地位。 BlueField-4 STX
    的頭像 發(fā)表于 03-19 15:46 ?195次閱讀
    Supermicro率先發(fā)布<b class='flag-5'>NVIDIA</b> BlueField-4 STX<b class='flag-5'>存儲</b>服務器,<b class='flag-5'>提升</b><b class='flag-5'>AI</b>推理<b class='flag-5'>性能</b>

    NVIDIA加速計算平臺助力從地球到太空的AI應用

    NVIDIA 今日宣布,其最新一代加速計算平臺正在開啟太空創(chuàng)新的新時代,將為軌道數(shù)據(jù)中心 (ODC)、地理空間信息收集以及自主太空運行提供 AI 算力。
    的頭像 發(fā)表于 03-18 14:44 ?583次閱讀

    NVIDIA攜手合作伙伴基于AI-RAN平臺構建未來AI原生無線網(wǎng)絡

    實地試驗、新的性能基準測試、日益增長的運營商采納率,以及合作伙伴基于 NVIDIA 平臺構建的創(chuàng)新成果,共同印證了行業(yè)正加速邁向 AI 原生 5G 與 6G
    的頭像 發(fā)表于 03-09 16:36 ?1113次閱讀

    NVIDIA Spectrum-X以太網(wǎng)硅光技術助力AI工廠網(wǎng)絡創(chuàng)新

    NVIDIA 將率先為 AI 工廠引入采用光電一體封裝 (CPO) 的優(yōu)化以太網(wǎng)網(wǎng)絡,通過 NVIDIA Spectrum-X 以太網(wǎng)硅光
    的頭像 發(fā)表于 01-14 09:06 ?923次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>以太網(wǎng)硅光技術<b class='flag-5'>助力</b><b class='flag-5'>AI</b>工廠<b class='flag-5'>網(wǎng)絡</b>創(chuàng)新

    NVIDIA BlueField-4數(shù)據(jù)處理器重塑新型AI原生存儲基礎設施

    NVIDIA 宣布,NVIDIA BlueField?-4 數(shù)據(jù)處理器作為全棧 NVIDIA BlueField 平臺的一部分,為 NVIDIA
    的頭像 發(fā)表于 01-09 10:33 ?657次閱讀

    NVIDIA擴大與微軟合作推動AI超級工廠建設

    在 Microsoft Ignite 大會上,NVIDIA 擴大與微軟的合作,包括在由 NVIDIA Blackwell 平臺驅動的全新 Microsoft Fairwater AI
    的頭像 發(fā)表于 12-01 09:52 ?1028次閱讀

    NVIDIA Spectrum-X 以太網(wǎng)交換機助力 Meta 和 Oracle 加速網(wǎng)絡性能

    基于?NVIDIA Spectrum-X 以太網(wǎng)交換機的 AI 數(shù)據(jù)中心網(wǎng)絡。 Meta 和 Oracle 正將 Spectrum-X 以太
    的頭像 發(fā)表于 10-14 10:26 ?2114次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b> 以太網(wǎng)交換機<b class='flag-5'>助力</b> Meta 和 Oracle 加速<b class='flag-5'>網(wǎng)絡</b><b class='flag-5'>性能</b>

    NVIDIA AI網(wǎng)絡閃耀2025云棲大會

    2025 云棲大會于 9 月 24 日至 9 月 26 日舉辦,NVIDIA 作為大會巔峰合作伙伴參與 2025 云棲大會。本文將帶您回顧 NVIDIA AI 網(wǎng)絡在本屆云棲大會上的精
    的頭像 發(fā)表于 10-13 11:19 ?1433次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1169次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術<b class='flag-5'>提升</b><b class='flag-5'>AI</b>推理<b class='flag-5'>性能</b>

    NVIDIA在Hot Chips 2025大會展示創(chuàng)新技術

    本周在加利福尼亞州帕洛阿爾托(Palo Alto)舉行的 Hot Chips 大會上,NVIDIA 專家詳細介紹了 NVIDIA NVLink 和Spectrum-X 以太網(wǎng)技術、Blackwell 以及 CUDA 如何為全球數(shù)
    的頭像 發(fā)表于 08-27 12:52 ?2081次閱讀

    NVIDIA推出Spectrum-XGS以太網(wǎng)技術

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太網(wǎng)。這項跨區(qū)域擴展(scale-across)技術可將多個分布式數(shù)據(jù)中心組合成一個十億瓦級 AI 超級工廠。
    的頭像 發(fā)表于 08-27 12:51 ?1505次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    合作案例,成為AI數(shù)據(jù)中心升級的關鍵推動者。 一、技術實力:AI光模塊的研發(fā)與量產(chǎn)先鋒 睿海光電作為全球AI光模塊的領先品牌,專注于為數(shù)據(jù)中心、超算中心及智算中心提供高性能
    發(fā)表于 08-13 19:01

    NVIDIA助力CoreWeave云平臺性能升級

    AI 變革正在重塑數(shù)據(jù)中心格局,亟需能夠提供更靈活、高性價比的計算和數(shù)據(jù)能力的平臺。為了滿足這些需求,作為推動 AI 變革的超大規(guī)模云服務提供商,CoreWeave 致力于開發(fā)一種用于加速計算工作負載的云
    的頭像 發(fā)表于 07-23 10:49 ?1520次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>CoreWeave云<b class='flag-5'>平臺</b><b class='flag-5'>性能</b>升級

    全球各大品牌利用NVIDIA AI技術提升運營效率

    歐萊雅、LVMH 集團和雀巢利用 NVIDIA 加速的智能體 AI 和物理 AI,大幅提升產(chǎn)品設計、營銷及物流等方面的運營效率。
    的頭像 發(fā)表于 06-19 14:36 ?1381次閱讀
    邛崃市| 咸丰县| 海原县| 邳州市| 多伦县| 江西省| 万安县| 利辛县| 利川市| 南汇区| 和田市| 哈尔滨市| 石泉县| 新化县| 宁津县| 湟中县| 东兰县| 闻喜县| 邛崃市| 皋兰县| 荥阳市| 高要市| 福海县| 安溪县| 石门县| 马鞍山市| 辽中县| 呼玛县| 乐都县| 汉川市| 鄂托克旗| 普陀区| 会理县| 绥化市| 琼中| 廉江市| 阆中市| 从江县| 华宁县| 阿合奇县| 天祝|