加速網(wǎng)絡(luò)將 CPU、GPU、DPU(數(shù)據(jù)處理器)或 SuperNIC 組合到專為設(shè)計用于優(yōu)化網(wǎng)絡(luò)工作負載的加速計算網(wǎng)絡(luò)架構(gòu)。它使用專用硬件來卸載要求嚴苛的任務(wù),以增強服務(wù)器功能。隨著 AI 和其他新工作負載的復(fù)雜性和規(guī)模不斷增加,對加速網(wǎng)絡(luò)的需求變得至關(guān)重要。
數(shù)據(jù)中心作為新的計算單元,隨著網(wǎng)絡(luò)服務(wù)對 CPU 壓力的增加,現(xiàn)代工作負載對網(wǎng)絡(luò)基礎(chǔ)設(shè)施提出了新的挑戰(zhàn)。網(wǎng)絡(luò)基礎(chǔ)設(shè)施需要具備敏捷性、自動化和可編程性的框架,并配備加速器和卸載功能,這些是充分發(fā)揮人工智能技術(shù)潛力和推動創(chuàng)新的關(guān)鍵。
本文將探討加速網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)中心中的優(yōu)勢和實施策略,并重點介紹其在提升性能、可擴展性和效率方面的作用。
加速您的網(wǎng)絡(luò)
網(wǎng)絡(luò)加速需要優(yōu)化網(wǎng)絡(luò)的各個方面,包括處理器、網(wǎng)卡(NIC)、交換機、線纜、光纖通信和網(wǎng)絡(luò)加速軟件。利用無損網(wǎng)絡(luò)、遠程直接內(nèi)存訪問(RDMA)、動態(tài)路由、擁塞控制、性能隔離和網(wǎng)絡(luò)計算,將幫助企業(yè)充分發(fā)揮現(xiàn)代應(yīng)用程序(包括 AI)的潛力。
通過合理控制數(shù)據(jù)注入速率,可以顯著提高共享網(wǎng)絡(luò)的效率。在處理大規(guī)模數(shù)據(jù)流時,實施動態(tài)路由算法的以太網(wǎng)交換機能夠動態(tài)負載均衡整個網(wǎng)絡(luò)中的數(shù)據(jù),避免擁塞并降低延遲。交換機的多路徑和數(shù)據(jù)包分發(fā)技術(shù)可以進一步提升網(wǎng)絡(luò)效率,確保數(shù)據(jù)及時到達,并最大程度減少瓶頸。這些技術(shù)有助于防止交換機與 NIC 或 DPU 之間的數(shù)據(jù)沖突,而流量隔離技術(shù)通過防止一個數(shù)據(jù)流對其他數(shù)據(jù)流產(chǎn)生負面影響,從而確保數(shù)據(jù)的及時交付。
另一種優(yōu)化技術(shù)是部署 SuperNIC 和 DPU。SuperNIC 是一種適用于 AI 云數(shù)據(jù)中心的網(wǎng)絡(luò)加速器,可在 GPU 服務(wù)器之間提供可靠、無縫的連接。DPU 是一種新興的處理器類別,可實現(xiàn)增強、加速的網(wǎng)絡(luò)。在 SuperNIC 和 DPU 的幫助下,可以從主機處理器中卸載工作負載,以加速通信,從而使數(shù)據(jù)中心能夠應(yīng)對不斷增長的數(shù)據(jù)移動需求。
要實現(xiàn)加速網(wǎng)絡(luò),請考慮以下技術(shù)。
加速服務(wù)
工作負載經(jīng)歷了重大的范式轉(zhuǎn)變,過渡到去中心化,通過容器和微分段分割工作負載。這導(dǎo)致服務(wù)器之間的網(wǎng)絡(luò)帶寬(東西向流量)大幅增加。
AI 工作負載是一個分布式計算問題,需要使用多個互連的服務(wù)器或節(jié)點。這會給網(wǎng)絡(luò)和 CPU 帶來巨大壓力。工作負載的去中心化需要重新檢查網(wǎng)絡(luò)基礎(chǔ)設(shè)施,從而通過添加加速器使 CPU 和 GPU 擺脫處理網(wǎng)絡(luò)、存儲和安全服務(wù)的負擔(dān)。這使得 CPU 能夠?qū)W⒂趹?yīng)用程序工作負載。加速可確保這些節(jié)點之間的高速、低時延數(shù)據(jù)傳輸,并實現(xiàn)高效的工作負載分配和更快的模型訓(xùn)練。
網(wǎng)絡(luò)抽象
向高度虛擬化數(shù)據(jù)中心和云模型的轉(zhuǎn)變正在給傳統(tǒng)網(wǎng)絡(luò)帶來壓力。傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)的設(shè)計并不是為了支持當(dāng)今虛擬化工作負載的動態(tài)特性。網(wǎng)絡(luò)抽象(包括網(wǎng)絡(luò)疊加)可以在物理網(wǎng)絡(luò)之上運行多個獨立的、分離的虛擬化網(wǎng)絡(luò)層。這些對于提供靈活性、擴展性和加速至關(guān)重要。但是,如果實施不當(dāng),它們可能會阻礙網(wǎng)絡(luò)流量。
網(wǎng)絡(luò)優(yōu)化
收集和處理的大量數(shù)據(jù)已將工作負載推向以數(shù)據(jù)為中心的時代。大型數(shù)據(jù)集的可用性與機器學(xué)習(xí)和生成式 AI 等技術(shù)進步相結(jié)合,增加了對更多數(shù)據(jù)的需求,以滿足學(xué)習(xí)算法的需求。這種數(shù)據(jù)爆炸式增長的后果是需要移動、處理、檢索和存儲大型數(shù)據(jù)集。
無損網(wǎng)絡(luò)可以保證準(zhǔn)確的數(shù)據(jù)傳輸,而不會造成任何丟失或損壞,對于移動、處理、檢索和存儲這些大型數(shù)據(jù)集至關(guān)重要。RDMA 技術(shù)通過在不涉及 CPU 的情況下實現(xiàn)內(nèi)存位置之間的直接數(shù)據(jù)傳輸來提高網(wǎng)絡(luò)性能。無損網(wǎng)絡(luò)和 RDMA 的結(jié)合可以優(yōu)化數(shù)據(jù)傳輸效率,減少 CPU 和 GPU 空閑時間,從而實現(xiàn)高效的數(shù)據(jù)移動,以滿足現(xiàn)代應(yīng)用程序的需求。
端到端堆棧優(yōu)化
現(xiàn)代工作負載具有獨特的網(wǎng)絡(luò)流量模式。傳統(tǒng)工作負載生成的流量模式具有多流、小數(shù)據(jù)包和低方差?,F(xiàn)代應(yīng)用程序的流量涉及大數(shù)據(jù)包、少量流和高方差,包括大象流和流量模式的頻繁變化。
動態(tài)路由算法用于動態(tài)負載均衡在整個網(wǎng)絡(luò)中的數(shù)據(jù),從而防止這些新流量模式的擁塞和高時延。顯式擁塞通知(ECN)等擁塞控制機制還可確保高效的數(shù)據(jù)流并最大限度地減少性能下降。為此,必須使用優(yōu)化的端到端堆棧來構(gòu)建網(wǎng)絡(luò),以加速新的流量模式。
網(wǎng)絡(luò)計算
現(xiàn)代工作負載的大型數(shù)據(jù)集需要對高度并行化的算法進行超快速處理,這使其更加復(fù)雜。隨著計算需求的增加,網(wǎng)絡(luò)計算通過提供基于硬件的集合通信操作加速,有效地將集合操作從 CPU 卸載到網(wǎng)絡(luò)。這一功能顯著提高了分布式 AI 模型訓(xùn)練的性能,減少了通信開銷,并加速了模型收斂。從而消除了在端點之間多次發(fā)送數(shù)據(jù)的需求,并加速了網(wǎng)絡(luò)性能。
網(wǎng)絡(luò)加速可降低 CPU 利用率,為 CPU 處理應(yīng)用程序工作負載留出更多容量。它還可以減少抖動以改善數(shù)據(jù)流,并提供更高的整體吞吐量,從而更快地處理更多數(shù)據(jù)。
總 結(jié)
網(wǎng)絡(luò)加速技術(shù)不斷發(fā)展,并變得更加專業(yè)。最新的演進將解決 AI 工作負載問題,這些工作負載需要一致、可預(yù)測的性能以及能夠運行多租戶環(huán)境的計算和能效。
審核編輯:黃飛
-
cpu
+關(guān)注
關(guān)注
68文章
11339瀏覽量
226021 -
交換機
+關(guān)注
關(guān)注
23文章
2938瀏覽量
104909 -
光纖通信
+關(guān)注
關(guān)注
20文章
516瀏覽量
46876 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5788瀏覽量
75217 -
數(shù)據(jù)處理器
+關(guān)注
關(guān)注
0文章
27瀏覽量
8915
原文標(biāo)題:借助加速網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)中心現(xiàn)代化
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
曦智科技探討AI數(shù)據(jù)中心三大擴展策略
華為受邀出席2026互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)高峰論壇
跳線架在數(shù)據(jù)中心的應(yīng)用與優(yōu)化策略
村田開始提供《優(yōu)化下一代數(shù)據(jù)中心 AI 服務(wù)器的供電網(wǎng)絡(luò)技術(shù)指南》 助力數(shù)據(jù)中心電力穩(wěn)定化
提高數(shù)據(jù)中心效率:探索PDU的作用
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
人工智能數(shù)據(jù)中心的光纖布線策略
CPO技術(shù)加速未來數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展
睿海光電:400G光模塊技術(shù)創(chuàng)新與AI數(shù)據(jù)中心變革
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級
加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?
數(shù)據(jù)中心和通信網(wǎng)絡(luò)有什么區(qū)別
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
數(shù)據(jù)中心液冷技術(shù)和風(fēng)冷技術(shù)的比較
數(shù)據(jù)中心加速網(wǎng)絡(luò)技術(shù)優(yōu)勢與實施策略
評論