中文字幕在线中,九九久视频在线观看

生成式 AI、大語言模型和高性能計算呈指數(shù)級增長，這對數(shù)據(jù)中心基礎設施提出了前所未有的要求。傳統(tǒng)服務器架構難以滿足現(xiàn)代加速計算在功率密度、散熱需求和快速迭代周期方面的要求。

本文介紹了NVIDIA MGX的優(yōu)勢，這是一種用于加速計算的模塊化參考架構，它正在重新定義企業(yè)和云服務提供商構建可擴展 AI 工廠的方式。

為何模塊化架構如今至關重要？

借助 NVIDIA MGX，合作伙伴可以像搭積木那樣設計多種系統(tǒng)，從而節(jié)省開發(fā)成本并縮短產(chǎn)品上市時間。NVIDIA MGX 支持多代產(chǎn)品以及數(shù)百種 GPU、DPU、CPU、存儲和網(wǎng)絡的組合方案，適用于 AI、HPC 和數(shù)字孿生等領域。

當前推動 NVIDIA MGX 廣泛應用的三大趨勢包括：

功率密度與散熱：現(xiàn)代 AI 計算的高要求促使功率密度不斷提高，并推動液冷基礎設施越來越普及。例如，NVIDIA Blackwell GPU 需要單機架功率最高可達 120 千瓦的全機架級解決方案，來滿足由此產(chǎn)生的多項技術要求。MGX 通過液冷匯流排和歧管來滿足這些需求，即使在 1400A 的負載下仍能將冷卻液溫差控制在 15°C 以內(nèi)，從而能夠在不影響性能或可靠性的情況下實現(xiàn)高密度的機架級部署。

異構工作負載支持：企業(yè)需要在同一數(shù)據(jù)中心內(nèi)管理日益多樣化的工作負載，包括使用 72-GPU NVIDIA GB200 NVL72 集群的 AI 后訓練、需要測試時擴展的推理任務以及數(shù)字孿生模擬。MGX 的模塊化混搭兼容性使企業(yè)能夠針對特定工作負載定制基礎設施，而且無需重新設計整個機架。

供應鏈敏捷性：MGX 支持在工廠內(nèi)預集成約 80% 的組件，包括匯流排、冷板和電源線束。這簡化了構建過程，使 ODM 廠商能夠?qū)⒉渴鹬芷趶?12 個月縮短到 90 天以內(nèi)。

基于這些趨勢，像 MGX 這樣標準化且穩(wěn)定的架構能夠確?？煽?、兼容的服務器部署，使之在不犧牲互操作性的前提下，滿足不斷發(fā)展的性能需求。這種穩(wěn)定性對企業(yè)實現(xiàn)基礎設施投資的前瞻性布局至關重要，同時還保留了適應新興工作負載和技術的靈活性。

龐大的 MGX 生態(tài)系統(tǒng)讓企業(yè)可以靈活地選購多樣化的組件并避免供應商鎖定，這能夠最大限度地降低投資風險、縮短交貨時間并減少不確定性。由于合作伙伴能夠自由地在廣泛的認證組件中進行選擇，MGX 使組織在優(yōu)化其數(shù)據(jù)中心構建時能夠降低成本、提高性能和供應鏈彈性。

基于標準的模塊化 MGX 設計簡化了集成過程，消除了對定制解決方案的需求，從而實現(xiàn)了快速、成本可控的部署和更具靈活性的擴展。這種方法不僅加快了上市時間，還簡化了后續(xù)維護和升級，使企業(yè)能夠根據(jù)需求增長和技術發(fā)展情況高效地擴展 AI 工廠。

MGX 機架系統(tǒng)內(nèi)部構造

NVIDIA MGX 機架系統(tǒng)圍繞兩大核心模塊構建：計算托盤和 NVLink 交換機托盤。每個計算托盤都配備了強大的 CPU 和 GPU 組合，例如 NVIDIA Grace CPU 與 NVIDIA Blackwell GPU 的搭配。它們?yōu)?AI 訓練、推理和模擬工作負載提供核心加速計算性能。NVLink 交換機托盤則提供高速、低延遲的互連結構，將這些計算托盤連接在一起，實現(xiàn) GPU 到 GPU 的無縫通信和整個機架的高效擴展。

然而，完整的 MGX 機架系統(tǒng)還遠不止計算和交換機托盤。為了滿足現(xiàn)代 AI 工廠對規(guī)模和效率的運行要求，該系統(tǒng)還依賴強大的機械、電氣和管道（冷卻）基礎設施，包括：

機械組件：模塊化 MGX 機架本身為高密度數(shù)據(jù)中心部署提供了所需的結構完整性和可維護性。電源架支架將電源架固定在機架內(nèi)，而滑軌則便于機架式設備的安裝和維護。

電氣組件：在電力輸送與連接方面，MGX 54V 匯流排和 MGX 1400A 匯流排在整個機架內(nèi)高效地分配電力，支持 HPC 負載。33 kW 電源架為系統(tǒng)提供充足的電力，而 MGX 電源線束可以靈活地連接電源架和匯流排。MGX 高速電纜保障高速數(shù)據(jù)傳輸，確保計算托盤和交換機托盤之間保持最優(yōu)的通信。

管道或冷卻組件：MGX 冷板為 GPU 提供高效液冷，維持其最佳運行溫度。MGX 44RU 歧管用于管理機架內(nèi)的冷卻液分配。MGX NVQD（NVIDIA 快換接頭）和 MGX UQD（通用快換接頭）等快換接頭實現(xiàn)液冷管線的快速安全連接，簡化維護并最大限度地減少停機時間。

這種模塊化方法可以顯著節(jié)省時間，因為標準組件可以在工廠預安裝，并通過即插即用的電源和冷卻裝置在現(xiàn)場集成。

NVIDIA GB200 NVL72 和 GB300 NVL72 系統(tǒng)中的 MGX 組件是基礎架構，用于管理功率密度和熱負載，使這些液冷機架級平臺能夠提供前所未有的 AI 性能。通過將先進的液冷 MGX 架構集成到 Blackwell 計算節(jié)點中，NVIDIA 滿足了 GB200 NVL72 的單機架 120 千瓦的能耗需求，而 GB300 NVL72 的 72 個 Blackwell Ultra GPU 則需要更高的散熱協(xié)調(diào)能力，以實現(xiàn)其高達 50 倍的 AI 推理輸出提升。

這種設計理念需要機械工程團隊（優(yōu)化冷卻液分配）、電源專家（高效電壓調(diào)節(jié)）與制造合作伙伴（實現(xiàn)前端可維護性）之間的緊密協(xié)作。所有這些都通過 NVIDIA 的芯片級 NVLink 互連技術統(tǒng)一起來，該技術將 36 個 Grace CPU 和 72-144 個 GPU 綁定到一個統(tǒng)一的計算域中。這種聯(lián)合設計的解決方案比前代 NVIDIA Hopper 集群的能效提升了 25 倍，展現(xiàn)了 MGX 的系統(tǒng)集成如何將原始算力轉化為可擴展的 AI 基礎設施。

變革 AI 工廠的設計與部署

NVIDIA MGX 為整個數(shù)據(jù)中心生態(tài)系統(tǒng)帶來了切實的好處。

對于系統(tǒng)制造商來說，通過共享參考設計，MGX 使每個平臺的研發(fā)成本降低了 200 萬至 400 萬美元，并使團隊能夠一次性認證整個 NVIDIA 軟件棧，其中包括 NVIDIA CUDA-X、NVIDIA AI Enterprise 和 NVIDIA Omniverse。

對于數(shù)據(jù)中心運營商來說，能夠使用一致的電源和冷卻接口，實現(xiàn)從 8-GPU 節(jié)點無縫擴展到 144-GPU 機架，同時由于電源效率高達 94% 且冷卻管道系統(tǒng)可重復使用，總體擁有成本降低了 50%。

對于 AI 工作負載來說，MGX 使各組織能夠利用 NVLink 交換機在 72-GPU 的統(tǒng)一的計算域上訓練參數(shù)量高達 1.8 萬億的模型，并在 72 節(jié)點機架上部署延遲波動小于 5 毫秒的推理集群。

開始使用

NVIDIA MGX 不僅僅是一項機架標準，更是 AI 工廠時代的基礎。隨著 200 多家生態(tài)系統(tǒng)合作伙伴已采用 MGX 組件，企業(yè)由此獲得了通往未來 exascale 級 AI 的路徑。隨著 NVIDIA Blackwell、NVIDIA Rubin 等不斷突破計算邊界，MGX 模塊化架構確保了 AI 工廠能夠隨著芯片創(chuàng)新的不斷發(fā)展，并通過模塊化升級路徑來保護數(shù)據(jù)中心投資。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5696

瀏覽量
110142
交換機

交換機

+關注

關注
23

文章
2937

瀏覽量
104907
數(shù)據(jù)中心

數(shù)據(jù)中心

+關注

關注
18

文章
5780

瀏覽量
75215
AI

AI

+關注

關注
91

文章
41326

瀏覽量
302722

原文標題：NVIDIA MGX 為 AI 工廠奠定堅實的模塊化基礎

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關注！文章轉載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

NVIDIA MGX變革AI工廠設計與部署

評論