日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Spectrum-X助力IBM為AI Cloud提供高性能底座

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2024-05-08 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在混合云與 AI 的時代,企業(yè)和組織需要創(chuàng)建、分析和保存海量的數(shù)據(jù),在分布式的應(yīng)用環(huán)境中會形成各種各樣的數(shù)據(jù)孤島,導致復(fù)雜系統(tǒng)難以管理,成本不斷增加。為了能夠更快速地從數(shù)據(jù)中獲得所需的洞察力,其底層的信息架構(gòu)必須支持混合云、大數(shù)據(jù)和人工智能(AI)工作負載以及傳統(tǒng)應(yīng)用,同時確保安全性、可靠性、數(shù)據(jù)效率和高性能,還需要能夠無縫擴展來應(yīng)對非結(jié)構(gòu)化數(shù)據(jù)的飛速增長。

IBM Storage Scale 作為一種高性能的并行數(shù)據(jù)存儲解決方案,可以幫助用戶更快速地獲得所需的計算或分析結(jié)果,管理快速擴展的數(shù)據(jù)和基礎(chǔ)架構(gòu),同時確保數(shù)據(jù)安全性并降低總體存儲成本。

36e6907c-0c74-11ef-a297-92fbcf53809c.png

圖1:AI 與混合云對數(shù)據(jù)存儲的需求

面對生成式 AI 的爆炸式發(fā)展,GPU 集群的運算性能至關(guān)重要,不僅需要更高的 GPU 的計算能力和更快的存儲,同時需要專用的網(wǎng)絡(luò)基礎(chǔ)設(shè)施來確保多個節(jié)點并行的最佳性能。NVIDIA 開發(fā)了業(yè)界首款面向 AI 的以太網(wǎng)網(wǎng)絡(luò)平臺 - Spectrum-X ,旨在增強 AI 云的性能和效率。Spectrum-X 平臺的核心是 NVIDIA Spectrum-4 以太網(wǎng)交換機、NVIDIA BlueField-3 SuperNIC/DPU、NVIDIA DOCA 軟件棧及交換機軟件棧NVIDIA LinkX 高品質(zhì)互連設(shè)備,這種組合構(gòu)成了 AI 加速計算網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)。NVIDIA 將 BlueField-3 SuperNIC 和 DPU 集成到其面向 AI 訓練、推薦及推理等各種系統(tǒng)中,不僅滿足以太網(wǎng)在多租戶云上的各種需求,同時保證了 AI 集群最好的運算及存儲性能。

3704076a-0c74-11ef-a297-92fbcf53809c.png

圖2:NVIDIA Spectrum-X 平臺介紹

在 AI 云存儲平臺的選擇上,IBM Storage Scale 可提供經(jīng)過驗證的企業(yè)級數(shù)據(jù)平臺。IBM Storage Scale 源自 GPFS,有超過 30 年的研發(fā)歷史,在全球有大量成功部署的經(jīng)驗,廣泛應(yīng)用在業(yè)界超大規(guī)模和需求嚴苛的應(yīng)用環(huán)境,包括過去幾十年間全球性能最強的人工智能和高性能計算環(huán)境。

為了滿足不同類型應(yīng)用的數(shù)據(jù)訪問需求,IBM Storage Scale 能夠?qū)⑽募?、大?shù)據(jù)分析、對象和容器應(yīng)用的接口集成到一個統(tǒng)一的向外擴展的存儲解決方案之中。它可為所有這些數(shù)據(jù)提供一個統(tǒng)一的命名空間,實現(xiàn)協(xié)議互通,并通過直觀的圖形用戶界面(GUI)提供單點管理。通過對最終用戶透明的存儲策略,可對數(shù)據(jù)進行分層、壓縮或遷移到磁帶或云端,以降低成本;數(shù)據(jù)還可以分層到高性能數(shù)據(jù)存儲介質(zhì),包括服務(wù)器緩存,進而降低延遲、提升性能。遠程站點的智能數(shù)據(jù)緩存可確保借助活動文件管理(AFM)功能以本地讀/寫性能在地域分散的各個站點之間提供數(shù)據(jù),不需要復(fù)制全部數(shù)據(jù),減少數(shù)據(jù)傳遞的網(wǎng)絡(luò)開銷。

3723cd2a-0c74-11ef-a297-92fbcf53809c.png

圖3:IBM Storage Scale 概覽

對于 AI 集群應(yīng)用來說,為了滿足不斷提高的算力和各種基礎(chǔ)模型對更大參數(shù)規(guī)模的需要,也需要更高速的數(shù)據(jù)訪問能力,避免因為存力不足導致的低效 I/O使得 GPU 無用武之地。由多臺服務(wù)組成的 GPU 服務(wù)器集群需要數(shù)百 GBps 到數(shù) TBps 的高速數(shù)據(jù)存儲才能滿足其對存力的需求;此外,為了提升 GPU 的應(yīng)用效率,NVIDIA 開發(fā)了 GPUDirect Storage 技術(shù),可以通過 RDMA 高速網(wǎng)絡(luò)直接將數(shù)據(jù)從外部存儲傳輸至 GPU 顯存上,能有效減輕 CPU I/O 的瓶頸,提升 GPU 訪問數(shù)據(jù)的帶寬并大幅縮短通信延遲;此外,對于 AI 應(yīng)用來說,從數(shù)據(jù)攝入到生產(chǎn)推理,每個環(huán)節(jié)都需要利用不同工具實現(xiàn)海量數(shù)據(jù)處理,并且這是一個不斷重復(fù)的流程。用戶需要構(gòu)建的端到端的高速數(shù)據(jù)管道,簡化流程并實現(xiàn)數(shù)據(jù)安全、高效的流動。

經(jīng)過充分優(yōu)化的 IBM Storage Scale System 可以充分發(fā)揮并行架構(gòu)和高速網(wǎng)絡(luò)的優(yōu)勢,加速各種 AI 工作負載應(yīng)用,具備以下優(yōu)勢:

極致性能:提供業(yè)界領(lǐng)先的文件讀寫性能,目前單個 SSS 模塊可提供超過 310 GB/s 的文件訪問帶寬和 13M IOPS,可擴展到上千個模塊滿足更高性能和容量的需求,同時內(nèi)置的 Decluster RAID 技術(shù)可以最小化各種硬件故障對性能的影響;

認證支持:IBM Storage Scale 是 NVIDIA 官方認證支持 GPUDirect Storage 的存儲技術(shù),能夠避免 GPU 的 I/O 瓶頸,幫助用戶加速各種 AI 業(yè)務(wù) 和數(shù)據(jù)密集型應(yīng)用,同時大幅度提升寶貴 GPU 資源的利用率;

全局訪問:IBM Storage Scale 提供的全局數(shù)據(jù)平臺訪問能力,支持多種應(yīng)用訪問協(xié)議互通(如對象、容器、HDFS 等等)和不同存儲環(huán)境,實現(xiàn)數(shù)據(jù)的整合和調(diào)度,結(jié)合其它存儲設(shè)備(包括磁帶)實現(xiàn)分層存儲,降低數(shù)據(jù)總體擁有成本,提升端到端的數(shù)據(jù)處理效率;

安全彈性:提供端到端的全面數(shù)據(jù)安全彈性解決方案,包括完善的數(shù)據(jù)高可用和容災(zāi)解決方案,以及用于實現(xiàn)網(wǎng)絡(luò)安全彈性的 Safeguarded Copy 和安全日志審計能力。

374743a4-0c74-11ef-a297-92fbcf53809c.png

圖4:單個 IBM SSS 6000 模塊性能實測結(jié)果

為了充分發(fā)揮 IBM Storage Scale 高帶寬、低時延的優(yōu)勢,通常用戶會采用支持 RDMA 的網(wǎng)絡(luò)來進行數(shù)據(jù)訪問,包括 InfiniBand 網(wǎng)絡(luò)RoCE(RDMA over Converged Ethernet)網(wǎng)絡(luò)。NVIDIA Spectrum-X 平臺具備 NVIDIA 獨有的 Adapt Routing 等專門面向 AI 的以太網(wǎng)網(wǎng)絡(luò)優(yōu)化技術(shù),可以在大規(guī)模集群中充分發(fā)揮出存儲系統(tǒng)的高帶寬的性能,為客戶打造高性能且穩(wěn)定運行的 AI 集群提供穩(wěn)定的網(wǎng)絡(luò)基礎(chǔ)。

以 AI 集群的數(shù)據(jù)業(yè)務(wù)流為例,數(shù)據(jù)從 GPU 顯存到網(wǎng)絡(luò)存儲服務(wù)器的網(wǎng)絡(luò)路徑會經(jīng)過 GPU 集群上存儲平面的 Leaf 交換機到 Spine 交換機,再到 Leaf 交換機,最后連接到存儲服務(wù)器;AI 存儲業(yè)務(wù)是典型的大象流,傳統(tǒng)的以太網(wǎng)交換機是基于流為粒度的負載分擔,不難看出 GPU 集群內(nèi)的 Leaf 層交換機和 Spine 交換機之間會有多條等價路徑,包括 Leaf 到不同 Spine 的等價路徑,也包括同一 Leaf 到 Spine 內(nèi)多條鏈路的等價路徑,但是由于寫數(shù)據(jù)流 Hash key 值高度一致,導致,在 Leaf 層交換機不能將流充分的分配到不同的等價路徑上,這樣的技術(shù)對于目前大規(guī)模 AI 集群內(nèi)的存儲業(yè)務(wù)來說會影響存儲數(shù)據(jù)流的傳輸帶寬,即便存儲系統(tǒng)本身性能強大,也會因為網(wǎng)絡(luò)成為瓶頸而不能發(fā)揮出應(yīng)有的性能;而當采用 Adapt Routing 技術(shù)之后,由于是基于數(shù)據(jù)包為粒度的轉(zhuǎn)發(fā)機制,無論存儲數(shù)據(jù)流的數(shù)量大小,都可以均勻的將流量轉(zhuǎn)發(fā)到所有等價路徑上,從而消除網(wǎng)絡(luò)上的瓶頸,最大化的利用存儲系統(tǒng)的性能,提升存儲帶寬、降低存儲平面時延。這對基于以太網(wǎng)絡(luò)構(gòu)建 AI 集群極為重要。

3765c7e8-0c74-11ef-a297-92fbcf53809c.png

圖5:開啟 AR 和關(guān)閉 AR 的轉(zhuǎn)發(fā)路徑對比

為了展示 Spectrum-X 平臺在存儲領(lǐng)域內(nèi)的實際效果,如下圖所示,搭建一個 Demo 環(huán)境用于模擬 AI 存儲應(yīng)用的典型場景,采用 4 臺搭載 NVIDIA BlueField-3 的服務(wù)器,兩臺計算節(jié)點配備 BlueField-3 DPU,兩臺存儲節(jié)點配備 BlueField-3 SuperNIC,采用 6 臺搭載 Spectrum-4 交換芯片的 SN5600 交換機組成典型的兩層 Spine-Leaf 胖樹網(wǎng)絡(luò);并且,BlueField DPU 和 SuperNIC 均為為雙端口卡,每個端口連接到不同的 Leaf 交換機上,保證存儲平面的高可靠,同時開啟端口 Bonding,使得可以最大化利用端口性能。測試覆蓋 2 打 1 和 2 打 2 兩種場景,構(gòu)造 RDMA 流量進行測試。

3791b7f4-0c74-11ef-a297-92fbcf53809c.png

圖6:Spectrum-X 存儲 AR 測試 Topo

在 2 打 1 和 2 打 2 的場景下,兩個計算節(jié)點同時發(fā)送流量給一個或 2 個存儲節(jié)點,模擬典型的存儲寫場景,對交換網(wǎng)絡(luò)的影響。在測試過程中,分別開啟 Adapt Routing 和關(guān)閉 Adapt Routing,收集接受端網(wǎng)絡(luò)帶寬,用于對比性能差異,測試如數(shù)據(jù)下圖所示,可以清楚看到,開啟 Adapt Routing 之后無論是 2 打 1,還是 2 打 2 場景,接受端網(wǎng)絡(luò)帶寬都已經(jīng)接近物理帶寬 95% 以上。在沒有開啟 Adapt Routing 測試用例,流量在交換機之間網(wǎng)絡(luò)帶寬利用率大幅下降,最終測試的帶寬不足開啟 Adapt Routing 的一半。從而可以看出,采用了 Adapt Routing 技術(shù)的 Spectrum-X 平臺可以有效的解決存儲網(wǎng)絡(luò)內(nèi)帶寬瓶頸,充分發(fā)揮存儲系統(tǒng)的性能,從而提升 AI 集群整體的效能。

37ae4270-0c74-11ef-a297-92fbcf53809c.png

圖7:2 打 1 和 2 打 2 場景下開啟 Adapt Routing

和 關(guān)閉 Adapt Routing 的帶寬對比

通過和 NVIDIA 網(wǎng)絡(luò)團隊的合作,采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平臺實現(xiàn)軟件定義的數(shù)據(jù)基礎(chǔ)架構(gòu),使得搭建在 Spectrum-X 平臺上 IBM 的 Storage Scale 不僅可以面向云上應(yīng)用提供基于以太網(wǎng)存儲生態(tài)的多種服務(wù),同時也可以大幅提升存儲的性能,發(fā)揮出 IBM 的 Storage Scale 高吞吐大帶寬的性能優(yōu)勢,滿足 AI 時代云上高性能存儲數(shù)據(jù)的要求。解決新一代以數(shù)據(jù)為中心的基礎(chǔ)設(shè)施所面臨的挑戰(zhàn)和技術(shù)瓶頸,為 AI 云應(yīng)用提供高性能的底座,幫助客戶在混合云和 AI 時代實現(xiàn)競爭優(yōu)勢。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110144
  • 以太網(wǎng)交換機
    +關(guān)注

    關(guān)注

    0

    文章

    152

    瀏覽量

    15183
  • 數(shù)據(jù)存儲
    +關(guān)注

    關(guān)注

    5

    文章

    1038

    瀏覽量

    53020
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50376

    瀏覽量

    267096
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9099

    瀏覽量

    144102

原文標題:NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA與Google Cloud攜手推進代理式與物理AI發(fā)展

    企業(yè)可以使用 NVIDIA Vera Rubin 驅(qū)動的 A5X 實例 (可擴展至近 100 萬個 Rubin GPU)、Google Distributed Cloud 上的 Gemini、機密
    的頭像 發(fā)表于 04-27 15:35 ?420次閱讀

    NVIDIA與電信領(lǐng)導企業(yè)共建AI網(wǎng)格

    AT&T、T-Mobile、Comcast、Spectrum 等公司正在使用 NVIDIA AI 基礎(chǔ)設(shè)施構(gòu)建 AI 網(wǎng)格,Personal AI
    的頭像 發(fā)表于 04-10 16:16 ?350次閱讀

    IBM宣布擴大與NVIDIA的合作

    近日, IBM(紐約證券交易所代碼: IBM)在 GTC 2026大會上宣布,將擴大與 NVIDIA 的合作,旨在推動 GPU 原生數(shù)據(jù)分析、智能文檔處理、本地及受監(jiān)管環(huán)境的基礎(chǔ)設(shè)施部署,以及云與咨詢服務(wù),
    的頭像 發(fā)表于 03-20 16:40 ?2422次閱讀

    NVIDIA Spectrum-X以太網(wǎng)硅光技術(shù)助力AI工廠網(wǎng)絡(luò)創(chuàng)新

    NVIDIA 將率先為 AI 工廠引入采用光電一體封裝 (CPO) 的優(yōu)化以太網(wǎng)網(wǎng)絡(luò),通過 NVIDIA Spectrum-X 以太網(wǎng)硅光技術(shù),
    的頭像 發(fā)表于 01-14 09:06 ?923次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>以太網(wǎng)硅光技術(shù)<b class='flag-5'>助力</b><b class='flag-5'>AI</b>工廠網(wǎng)絡(luò)創(chuàng)新

    NVIDIA 收購開源工作負載管理提供商 SchedMD

    NVIDIA 將持續(xù)提供 SchedMD 的廠商中立的開源 Slurm 軟件,確保其在高性能計算(HPC)和 AI 領(lǐng)域的廣泛可用性。 NVIDIA
    的頭像 發(fā)表于 12-16 18:24 ?1504次閱讀

    瑞聲科技豆包AI手機提供核心感知能力支撐

    12月1日,字節(jié)跳動旗下AI助手豆包與中興通訊宣布:搭載豆包手機助手技術(shù)預(yù)覽版的工程樣機nubia(努比亞)M153發(fā)售。作為這款創(chuàng)新AI手機的重要參與者,AAC以自研的高性能X軸線性
    的頭像 發(fā)表于 12-09 10:18 ?1074次閱讀

    NVIDIA擴大與微軟合作推動AI超級工廠建設(shè)

    在 Microsoft Ignite 大會上,NVIDIA 擴大與微軟的合作,包括在由 NVIDIA Blackwell 平臺驅(qū)動的全新 Microsoft Fairwater AI 超級工廠中部署新一代
    的頭像 發(fā)表于 12-01 09:52 ?1028次閱讀

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應(yīng)用

    搜索和調(diào)用外部 AI 模型的 SQL 原生 API。NVIDIA 與微軟共同將 SQL Server 2025 與 NVIDIA Nemotron RAG 開放模型集合無縫連接,這使您能夠在云端或本地環(huán)境中基于自己的數(shù)據(jù)構(gòu)建
    的頭像 發(fā)表于 12-01 09:31 ?1098次閱讀
    使用<b class='flag-5'>NVIDIA</b> Nemotron RAG和Microsoft SQL Server 2025構(gòu)建<b class='flag-5'>高性能</b><b class='flag-5'>AI</b>應(yīng)用

    NVIDIA DGX Spark助力構(gòu)建自己的AI模型

    作為個人 AI 超級計算機,世界各地的 AI 研究人員、數(shù)據(jù)科學家和學生提供 NVIDIA Grace Blackwell 平臺的強大功
    的頭像 發(fā)表于 11-21 09:25 ?1601次閱讀
    <b class='flag-5'>NVIDIA</b> DGX Spark<b class='flag-5'>助力</b>構(gòu)建自己的<b class='flag-5'>AI</b>模型

    NVIDIA Spectrum-X 以太網(wǎng)交換機助力 Meta 和 Oracle 加速網(wǎng)絡(luò)性能

    Facebook 開放交換系統(tǒng)平臺。 Oracle 采用 Spectrum-X 以太網(wǎng)交換機構(gòu)建十億瓦級(Giga-Scale)AI 超級計算機。 NVIDIA 宣布 Meta 和 Oracle 將升級
    的頭像 發(fā)表于 10-14 10:26 ?2114次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b> 以太網(wǎng)交換機<b class='flag-5'>助力</b> Meta 和 Oracle 加速網(wǎng)絡(luò)<b class='flag-5'>性能</b>

    NVIDIA在Hot Chips 2025大會展示創(chuàng)新技術(shù)

    本周在加利福尼亞州帕洛阿爾托(Palo Alto)舉行的 Hot Chips 大會上,NVIDIA 專家詳細介紹了 NVIDIA NVLink 和Spectrum-X 以太網(wǎng)技術(shù)、Blackwell 以及 CUDA 如何為全球數(shù)
    的頭像 發(fā)表于 08-27 12:52 ?2081次閱讀

    NVIDIA推出Spectrum-XGS以太網(wǎng)技術(shù)

    NVIDIA 今日宣布推出 NVIDIA Spectrum-XGS 以太網(wǎng)。這項跨區(qū)域擴展(scale-across)技術(shù)可將多個分布式數(shù)據(jù)中心組合成一個十億瓦級 AI 超級工廠。
    的頭像 發(fā)表于 08-27 12:51 ?1506次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    合作案例,成為AI數(shù)據(jù)中心升級的關(guān)鍵推動者。 一、技術(shù)實力:AI光模塊的研發(fā)與量產(chǎn)先鋒 睿海光電作為全球AI光模塊的領(lǐng)先品牌,專注于數(shù)據(jù)中心、超算中心及智算中心
    發(fā)表于 08-13 19:01

    IBM Spectrum LSF如何助力半導體企業(yè)應(yīng)對AI時代的高性能芯片需求

    上萬個作業(yè),可能會瞬間擠爆計算資源。那如何把成千上萬個作業(yè)有序的調(diào)度到大規(guī)模的集群中呢?這時候,就得請出 HPC(高性能計算)調(diào)度界的“大宗師”—— IBM Spectrum LSF!
    的頭像 發(fā)表于 05-27 15:18 ?1176次閱讀

    NVIDIA推出AI平臺DGX Cloud Lepton

    CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nebius、Nscale、SoftBank Corp. 和 Yotta Data Services DGX Cloud Le
    的頭像 發(fā)表于 05-22 09:42 ?1217次閱讀
    金门县| 黔江区| 共和县| 潮州市| 紫金县| 合作市| 五原县| 基隆市| 徐汇区| 玉溪市| 佳木斯市| 崇州市| 西青区| 塘沽区| 康马县| 北流市| 泽普县| 永定县| 饶平县| 阜新| 江西省| 武清区| 大足县| 昭平县| 万年县| 略阳县| 永定县| 措勤县| 新丰县| 南靖县| 凌海市| 呼玛县| 卢氏县| 达尔| 江口县| 华安县| 汉阴县| 新竹县| 衡阳市| 铁岭县| 弥渡县|