日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何構建及優(yōu)化GPU云網絡

奇異摩爾 ? 來源:奇異摩爾 ? 2024-11-06 16:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

并從計算節(jié)點成本優(yōu)化、集群網絡與拓撲的選擇等方面論述如何構建及優(yōu)化GPU云網絡。

Part 1:Compute Fabric 計算節(jié)點的選型

計算節(jié)點作為AI算力中心的核心組成部分,其成本在建設報價中占據極大比重。初始獲取的HGX H100物料清單(BoM)通常采用頂級配置,價格不菲。

值得注意的是,HGX與NVIDIA的系統(tǒng)品牌DGX不同,它作為一個授權平臺,允許合作伙伴根據需求定制GPU系統(tǒng)。針對這一特點,我們可以從以下幾方面著手,合理優(yōu)化成本,以適應業(yè)務實際需求;

默認 HGX H100 機箱 物料報價清單

ebe36ee2-9bed-11ef-a511-92fbcf53809c.png

來源:SemiAnalysis

選擇中端CPU

LLM大型語言模型訓練主要依賴于GPU的密集計算能力,對CPU的工作負載要求不高。CPU在此過程中承擔的角色較為簡單,包括但不限于使用PyTorch進行GPU進程控制、網絡初始化、存儲操作以及虛擬機管理程序的運行。選取一款中端性能的CPU例如Intel CPU,可以確保NCCL性能和虛擬化支持方面表現更為出色,且系統(tǒng)錯誤率較低。

RAM 降級到 1 TB RAM 同樣是計算節(jié)點中相對昂貴的部分。許多標準產品都具有 2TB 的 CPU DDR 5 RAM,但常規(guī)的AI工作負載根本不受 CPU RAM 限制,可以考慮減配。 刪除 Bluefield-3 DPU

Bluefield-3 DPU最初是為傳統(tǒng) CPU 云開發(fā)的,賣點在于卸載CPU負載,讓CPU用于業(yè)務出租,而不是運行網絡虛擬化。結合實際情況,奔著GPU算力而來的客戶無論如何都不會需要太多的 CPU 算力,使用部分 CPU 核心進行網絡虛擬化是可以接受的。此外Bluefield-3 DPU 相當昂貴,使用標準 ConnectX 智能網卡完全可滿足網絡性能所需。綜合考慮前述幾項成本的優(yōu)化,已經可為單個服務器降低約5%的成本。在擁有 128 個計算節(jié)點的 1024 H100 集群中,這個比率背后的金額已經相當可觀。

英偉達官網對Bluefiled-3和CX智能網卡的應用解釋:BlueField-3 適用于對數據處理和基礎設施服務有較高要求的場景,如云計算、數據中心等;ConnectX-7 則更適合需要高速網絡連接的應用,如高性能計算、人工智能網絡等。

減少單節(jié)點智能網卡數量(請謹慎選擇)

標準物料清單中,每臺 H100 計算服務器配備八個 400G CX-7 NIC,單服務器的總帶寬達到 3,200Gb/s。如果只使用四塊網卡,后端計算網的帶寬將會減少 50%。這種調整顯而易見可以節(jié)約資金,但多少會也對部分AI工作負載性能造成不利影響。

AI智能網卡Smart NIC主要解決的問題是網絡傳輸上無法線性傳輸數據問題,以及卸載更適合在網絡上執(zhí)行的業(yè)務,更適用于對網絡傳輸要求較高的AI網絡基礎設施。智能網卡作為后端網絡的重要組件,配合其他硬件設備(交換機與光模塊等)共同解決大規(guī)模網絡擁塞死鎖、丟包及亂序等一系列網絡傳輸的問題。因此,我們不建議在AI工作負載網絡下減少智能網卡的數目以達到避免網絡傳輸故障的可能。

Kiwi SmartNIC 產品介紹

Kiwi小編將于近期為大家講述AI智能網卡與DPU的主要區(qū)別,敬請期待。

Part 2:集群網絡的選型

集群網絡是繼Compute計算節(jié)點之后的第二大成本來源。本文舉例的 NVIDIA H100 集群有三種不同的網絡: 后端網絡(計算網,InfiniBand 或 RoCEv2):用于將 GPU 之間的通信從數十個機架擴展到數千個機架。該網絡可以使 InfiniBand 或 Spectrum-X 以太網,也可以使用其他供應商的以太網。 前端網絡(業(yè)務管理和存儲網絡): 用于連接互聯網、SLURM/Kubernetes 和網絡存儲以加載訓練數據和Checkpoint。該網絡通常以每 GPU 25-50Gb/s 的速度運行,滿配八卡的情況每臺GPU服務器的帶寬將達到 200-400Gb/s。

帶外管理網絡 :用于重新映像操作系統(tǒng)、監(jiān)控節(jié)點健康狀況(如風扇速度、溫度、功耗等)。服務器上的BMC、機柜電源、交換機、液冷裝置等通常連接到此網絡以監(jiān)控和控制服務器和各種其他 IT 設備。

ebeefb7c-9bed-11ef-a511-92fbcf53809c.png

來源:Marvell ,AI集群網絡

默認 HGX H100 集群網絡物料報價清單

ec0ad536-9bed-11ef-a511-92fbcf53809c.png

來源:SemiAnalysis

計算網絡:RoCEv2替代IB

與以太網解決方案相比,NVIDIA 提供的InfiniBand無疑更昂貴,但部分客戶會認為以太網性能相對偏低,這主要是因為以太網需要進行必要的無損網絡參數配置并且針對性調優(yōu)才能發(fā)揮集合通信庫的性能。

然而,不過從對業(yè)務性能的影響角度看,目前在萬卡以下的AI網絡技術背景下使用IB或是RoCEv2作為后端計算網并沒有太多差異。這兩類網絡在千卡級別的集群規(guī)模下經過調優(yōu)都可以實現相對無損的網絡傳輸。以下圖示主要基于大規(guī)模集群條件下IB和RoCEv2的共同點與差異點。

ec1e43be-9bed-11ef-a511-92fbcf53809c.png

IB VS RoCEv2主要區(qū)別

與此同時,隨著遠程直接內存訪問(RDMA)被普遍應用,現在越來越多的關注點轉向了將開放標準、廣泛采用以太網用于大規(guī)模算力網絡場景。與InfiniBand相比,以太網降低了成本和復雜性,并且沒有可擴展性的限制。

AMD近期提及以太網據最新實例統(tǒng)計,在后端網絡,相比InfiniBand,以太網RoCEv2是更好的選擇,具有低成本、高度可擴展的優(yōu)勢,可將TCO節(jié)省超過50%,能夠擴展100萬張GPU。而InfiniBand至多能擴展48000張GPU。

無論是在AI訓推的測試場景,還是頭部云廠商已有的組網案例中,AI以太網都有了大量成功案例可供參考。據統(tǒng)計,在全球 TOP500 的超級計算機中,RoCE和IB的占比相當。以計算機數量計算,IB 占比為 47.8%, RoCE 占比為 39%; 而以端口帶寬總量計算,IB占比為 39.2%,RoCE 為 48.5%。目前包括奇異摩爾在內的AI產業(yè)鏈成員相信有著開放生態(tài)的高速以太網將會得到快速發(fā)展。

前端網絡:合理降低帶寬速率

NVIDIA 和一些OEM/系統(tǒng)集成商通常會在服務器提供 2x200GbE 前端網絡連接,并使用 Spectrum Ethernet SN4600 交換機部署網絡。我們知道,這張網絡僅用于進行存儲和互聯網調用以及傳輸基于 SLURM,Kubernetes 等管理調度平臺的帶內管理流量,并不會用于時延敏感和帶寬密集型的梯度同步。每臺服務器 400G 的網絡連接在常規(guī)情況下將遠超實際所需,其中存在一些成本壓縮空間。

帶外管理網絡:選用通用的以太網交換機

NVIDIA 默認物料清單一般包括 Spectrum 1GbE 交換機,價格昂貴。帶外管理網絡用到的技術比較通用,選擇市場上成本更優(yōu)的 1G 以太網交換機完全夠用。

Part 3:計算網絡拓撲的架構優(yōu)化

GPU集群計算網將承載并行計算過程中產生的各類集合通信(all-reduce,all-gather 等),流量規(guī)模和性能要求與傳統(tǒng)云網絡完全不同。

NVIDIA 推薦的網絡拓撲是一個具有無阻塞連接的兩層胖樹網絡,理論上任意節(jié)點對都應該能同時進行線速通信。但由于存在鏈路擁塞、不完善的自適應路由和額外跳數的帶來的通信延遲,真實場景中無法達到理論最優(yōu)狀態(tài),需要對其進行性能優(yōu)化。

軌道優(yōu)化(Rail-optimized)架構

舉例來說:Nvidia的DGX H100服務器集成了八個通過NVSwitches連接的H100 GPU,實現了7.2 TBps的無阻塞內部帶寬。而GB200 NVL72計算機則更進一步,以每GPU 14.4 TBps的速度將72個B200超級芯片通過第五代NVLink技術連接在機架內。(相關閱讀:預計OCP成員全球市場影響力突破740億美元——OCP 2024 Keynote 回顧)

這里將這些具備TB級內部帶寬的平臺統(tǒng)稱為高帶寬域”HBD”。Rail優(yōu)化網絡作為一種先進的互聯架構被廣泛應用。然而,盡管Rail優(yōu)化網絡在降低局部通信延遲方面表現出色,但它依然依賴于Spine交換機層來連接各個Rail交換機,形成完全二分法的Clos網絡拓撲。這種設計確保了不同HB域中的GPU能以TB級別速率進行高效通信。

ec5b74b4-9bed-11ef-a511-92fbcf53809c.png

(Source:https://arxiv.org/html/2307.12169v4)

軌道優(yōu)化網絡的主要優(yōu)勢是減少網絡擁塞。因為用于 AI 訓練的 GPU 會定期并行底發(fā)送數據,通過集合通信來在不同GPU之間交換梯度并更新參數。如果來自同一服務器的所有 GPU 都連接到同一個 ToR 交換機,當它們將并行流量發(fā)送到網絡,使用相同鏈路造成擁塞的可能性會非常高。如果追求極致的成本優(yōu)化,可以試用一種Raily-Only單層軌道交換機網絡。

Raily-Only單層軌道交換機網絡

Meta在近期就發(fā)表過類似的文章,提出了一種革命性思路-拋棄交換機Spine層。

ec7ffbb8-9bed-11ef-a511-92fbcf53809c.png

(Source:https://arxiv.org/html/2307.12169v4)

相較于傳統(tǒng)的Rail-optimized GPU集群,Rail-only網絡保留了HB域和Rail交換機,但巧妙地移除了Spine交換機。這一變革確保了同一網絡內的GPU對之間的帶寬保持不變,同時實現了網絡Fabric的精簡與成本的降低。具體來說,通過移除Spine交換機并重新配置Rail交換機與GPU之間的鏈路,他們構建了一個專用且獨立的Clos網絡,每個Rail獨立運行。由于Rail交換機擁有富余的下行端口直接連接GPU,相較于Rail-optimized網絡,Rail-only設計顯著減少了所需交換機的數量,從而降低了整體網絡成本。

在Rail-only網絡中,不同HBD域之間的直接連通性被移除,但數據仍可通過HBD域內的轉發(fā)實現跨域通信。例如, GPU 1(Domain 1)向GPU 2(Domain 2)發(fā)送消息時,首先通過第一個HBD域到達Domain 2的某個GPU,再經網絡傳輸至最終目的地。

確定合適的超額訂閱率 軌道優(yōu)化拓撲的另一個好處可以超額訂閱(Oversubscription)。在網絡架構設計的語境下,超額訂閱指的是提供更多的下行容量;超額訂閱率即下行容量(到服務器/存儲)和上行帶寬(到上層Spine交換機)的比值,在 Meta 的 24k H100 集群里這個比率甚至已經來到夸張的7:1。

通過設計超額訂閱,我們可以通過突破無阻塞網絡的限制進一步優(yōu)化成本。這點之所以可行是因為 8 軌的軌道優(yōu)化拓撲里,大多數流量傳輸發(fā)生在 pod 內部,跨 pod 流量的帶寬要求相對較低。結合足夠好的自適應路由能力和具備較大緩沖空間的交換機,我們可以規(guī)劃一個合適的超額訂閱率以減少上層Spine交換機的數量。

但值得注意的是,無論是IB還是RoCEv2,當前還沒有一個完美的方案規(guī)避擁塞風險,兩者應對大規(guī)模集合通信流量時均有所不足,故超額訂閱不宜過于激進?,F階段如果是選用基于以太網的AI網絡方案, 仍推薦1:1的無阻塞網絡設計。

多租戶隔離

參考傳統(tǒng)CPU云的經驗,除非客戶長期租用整個GPU集群,否則每個物理集群可能都會有多個并發(fā)用戶,所以GPU云算力中心同樣需要隔離前端以太網和計算網絡,并在客戶之間隔離存儲?;谝蕴W實現的多租戶隔離和借助云管平臺的自動化部署已經有大量成熟的方案。如采用InfiniBand方案,多租戶網絡隔離是使用分區(qū)密鑰 (pKeys) 實現的:客戶通過 pKeys 來獲得獨立的網絡,相同 pKeys 的節(jié)點才能相互通信......

關于我們

AI網絡全棧式互聯架構產品及解決方案提供商

奇異摩爾,成立于2021年初,是一家行業(yè)領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創(chuàng)新性地構建了統(tǒng)一互聯架構——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。

我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale out網絡的AI原生智能網卡、面向南向Scale up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。

奇異摩爾的核心團隊匯聚了來自全球半導體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯產品研發(fā)和管理經驗,致力于推動技術創(chuàng)新和業(yè)務發(fā)展。團隊擁有超過50個高性能網絡及Chiplet量產項目的經驗,為公司的產品和服務提供了強有力的技術保障。我們的使命是支持一個更具創(chuàng)造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創(chuàng)新為驅動力,技術探索新場景,生態(tài)構建新的半導體格局,為高性能AI計算奠定穩(wěn)固的基石。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5283

    瀏覽量

    136099
  • AI
    AI
    +關注

    關注

    91

    文章

    41315

    瀏覽量

    302694
  • 云網絡
    +關注

    關注

    0

    文章

    50

    瀏覽量

    9705
  • 算力
    +關注

    關注

    2

    文章

    1697

    瀏覽量

    16838

原文標題:成本優(yōu)化?網絡拓撲擇優(yōu)?一文剖析如何構建并優(yōu)化AI算力云網絡

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Visionfive 2 缺少文件img-gpu-powervr-bin-1.17.6210866.tar.gz怎么解決?

    您好,我開始按照 SDK 快速入門指南構建鏡像。 我失敗了 WGEThttp://sources.buildroot.net/img-gpu
    發(fā)表于 03-11 07:08

    臺驅動板 PWM 載波優(yōu)化設計

    ,本文從載波參數優(yōu)化、調制策略升級、硬件適配設計、抗干擾強化四個維度,提出一套完整的 PWM 載波優(yōu)化方案,解決傳統(tǒng)設計中存在的轉矩脈動大、電磁噪聲強、效率偏低等問題,為高性能臺驅動板開發(fā)提供技術支撐。
    的頭像 發(fā)表于 03-06 14:57 ?337次閱讀

    深化阿里生態(tài)合作 優(yōu)化治理能力再獲權威認可

    前言2026年2月5日,阿里上海大區(qū)合作伙伴年度頒獎儀式圓滿舉辦,科技憑借在優(yōu)化治理領域的深厚技術積淀、豐富的行業(yè)落地成果與卓越的
    的頭像 發(fā)表于 02-09 17:29 ?1195次閱讀
    深化阿里<b class='flag-5'>云</b>生態(tài)合作 <b class='flag-5'>云</b><b class='flag-5'>優(yōu)化</b>治理能力再獲權威認可

    網絡跳線:細節(jié)決定成敗的網絡構建

    構建一個高效、穩(wěn)定的網絡環(huán)境時,我們往往會關注到大型的網絡設備、復雜的網絡架構或是先進的網絡技術,而往往忽略了那些看似微不足道卻至關重要的
    的頭像 發(fā)表于 01-09 10:10 ?396次閱讀

    為什么說uCentral是構建開放網絡的開源利器?

    uCentral是TIP主導的開源網絡管理系統(tǒng),其核心uCentral Controller通過開放協議實現設備集中管控與自動化運維。該系統(tǒng)支持配置下發(fā)、狀態(tài)監(jiān)控和閉環(huán)自愈,在數據中心場景中要求底層交換機具備NETCONF/YANG、VXLAN等開放接口能力,為構建智能
    的頭像 發(fā)表于 11-28 18:33 ?1430次閱讀
    為什么說uCentral是<b class='flag-5'>構建</b>開放<b class='flag-5'>網絡</b>的開源利器?

    科技SD-WAN解決方案 — 構建安全、高效、智能的網基石

    核心價值主張:重塑企業(yè)網絡,讓連接驅動增長在數字化轉型的浪潮中,您的企業(yè)是否正面臨網絡架構的挑戰(zhàn)?分支機構互聯不暢、應用訪問延遲、網絡安全威脅頻發(fā)、運維成本持續(xù)攀升……這些
    的頭像 發(fā)表于 11-12 11:03 ?872次閱讀
    <b class='flag-5'>云</b>邊<b class='flag-5'>云</b>科技SD-WAN解決方案 — <b class='flag-5'>構建</b>安全、高效、智能的<b class='flag-5'>云</b>網基石

    構建智能網基座:萬店級連鎖藥店網絡架構升級實踐

    前言隨著計算、大數據、人工智能等技術在各行各業(yè)的深度應用,企業(yè)網絡架構正面臨著前所未有的變革壓力。醫(yī)藥零售行業(yè)作為具有強監(jiān)管、多分支、高并發(fā)特性的典型場景,其網絡升級需求尤為迫切。藥品監(jiān)管政策
    的頭像 發(fā)表于 11-12 09:59 ?782次閱讀
    <b class='flag-5'>構建</b>智能<b class='flag-5'>云</b>網基座:萬店級連鎖藥店<b class='flag-5'>網絡</b>架構升級實踐

    構建基石:深入理解OpenStack網絡(Neutron)核心服務

    簡單來說,OpenStack 是一個開源的計算管理平臺項目,它允許你使用一套軟件來構建和管理你自己的私有或公有。你可以把它想象成開源的、可以自己掌控的 Amazon Web Se
    的頭像 發(fā)表于 11-11 10:41 ?1344次閱讀
    <b class='flag-5'>構建</b><b class='flag-5'>云</b>基石:深入理解OpenStack<b class='flag-5'>網絡</b>(Neutron)核心服務

    構建CNN網絡模型并優(yōu)化的一般化建議

    通過實踐,本文總結了構建CNN網絡模型并優(yōu)化的一般化建議,這些建議將會在構建高準確率輕量級CNN神經網絡模型方面提供幫助。 1)避免單層神
    發(fā)表于 10-28 08:02

    礦井下通信新突破:翎智能低軌衛(wèi)星物聯網終端構建煤礦智能感知網絡

    在煤礦智能化轉型的關鍵階段,礦井下通信技術長期面臨"信號盲區(qū)多、時延高、抗災能力弱"等痛點。翎智能推出的低軌衛(wèi)星物聯網終端通過技術創(chuàng)新,實現了礦井下通信的三大突破性升級,構建
    的頭像 發(fā)表于 09-26 22:39 ?1032次閱讀
    礦井下通信新突破:<b class='flag-5'>云</b>翎智能低軌衛(wèi)星物聯網終端<b class='flag-5'>構建</b>煤礦智能感知<b class='flag-5'>網絡</b>

    NVIDIA如何優(yōu)化AI工廠的網絡可靠性與功耗

    隨著 AI 重新定義計算格局,網絡已成為構建未來數據中心發(fā)展的關鍵支柱。大語言模型的訓練性能不僅取決于計算資源,更受到底層網絡敏捷性、容量和智能程度的影響。行業(yè)正從傳統(tǒng)以 CPU 為中心的基礎架構,邁向緊耦合的、
    的頭像 發(fā)表于 09-04 11:23 ?1631次閱讀
    NVIDIA如何<b class='flag-5'>優(yōu)化</b>AI工廠的<b class='flag-5'>網絡</b>可靠性與功耗

    Lambda采用Supermicro NVIDIA Blackwell GPU服務器集群構建人工智能工廠

    大批量 Supermicro GPU 優(yōu)化服務器(包括基于 NVIDIA Blackwell 的系統(tǒng)),以擴展其人工智能基礎設施并向客戶交付高性能計算系統(tǒng)。此次合作于今年 6 月率先在俄亥俄州哥倫布市的 Cologix COL4 ScalelogixSM 數據中心啟動,為
    的頭像 發(fā)表于 08-30 16:55 ?960次閱讀

    PCIe協議分析儀能測試哪些設備?

    網絡數據包的傳輸效率。 應用價值:優(yōu)化數據中心和計算環(huán)境中的網絡性能,減少延遲。 智能網卡(DPU) 測試場景:測試DPU與主機的PCIe互連,驗證其卸載
    發(fā)表于 07-25 14:09

    硅谷GPU服務器是什么意思?使用指南詳解

    硅谷GPU服務器本質上是一種IaaS(基礎設施即服務)產品,它將物理服務器上的GPU資源通過虛擬化技術分割成可彈性調配的服務。與普通CPU
    的頭像 發(fā)表于 06-16 09:41 ?751次閱讀

    提升AI訓練性能:GPU資源優(yōu)化的12個實戰(zhàn)技巧

    在人工智能與機器學習技術迅速發(fā)展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優(yōu)化GPU資源分配不僅能顯著提升模型訓練速度,還能實現計算成本的有效控制。根據AI基礎設施聯盟2024年發(fā)布
    的頭像 發(fā)表于 05-06 11:17 ?1698次閱讀
    提升AI訓練性能:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優(yōu)化</b>的12個實戰(zhàn)技巧
    沧州市| 安图县| 开原市| 康马县| 锦屏县| 碌曲县| 山东省| 溆浦县| 沙雅县| 清原| 原阳县| 衡水市| 江北区| 县级市| 巴中市| 张北县| 南京市| 佛坪县| 鄂尔多斯市| 津南区| 新营市| 石柱| 滦南县| 康保县| 澄迈县| 理塘县| 中方县| 繁昌县| 金湖县| 柳州市| 牙克石市| 河东区| 湄潭县| 乌兰察布市| 西贡区| 安溪县| 昭通市| 保康县| 涞源县| 胶州市| 墨竹工卡县|