日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

動態(tài)感知+智能決策,一文解讀 AI 場景組網(wǎng)下的動態(tài)智能選路技術

星融元Asterfusion ? 2025-06-20 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能AI),特別是大規(guī)模模型訓練和推理,正以前所未有的方式重塑數(shù)據(jù)中心網(wǎng)絡。傳統(tǒng)的“盡力而為”網(wǎng)絡架構(gòu),在處理海量、突發(fā)的AI數(shù)據(jù)洪流時捉襟見肘。AI模型對網(wǎng)絡性能的嚴苛要求——高帶寬、低延遲、零丟包——迫使網(wǎng)絡必須進行一場深刻的智能進化,從被動的基礎設施轉(zhuǎn)變?yōu)槔斫鈽I(yè)務、感知狀態(tài)、智能決策的“AI感知網(wǎng)絡”。

AI業(yè)務訴求:對傳統(tǒng)網(wǎng)絡架構(gòu)的挑戰(zhàn)

AI集群(如GPU/TPU服務器)間的通信呈現(xiàn)出典型的“大象流”特征,流量總量巨大、并發(fā)連接少、單條流帶寬極高(可達數(shù)百Gbps)。這與傳統(tǒng)數(shù)據(jù)中心中“數(shù)量多、帶寬小”的“老鼠流”模式截然不同。傳統(tǒng)均衡技術失效,逐流ECMP依賴Hash算法在少量大流上極易導致嚴重負載不均,特定路徑擁塞而其他路徑閑置。Flowlet 對路徑時延差異敏感,配置參數(shù)(如Gap值)難以適應動態(tài)變化的網(wǎng)絡環(huán)境,全局信息缺失導致效果打折。逐包ECMP亂序問題嚴重,嚴重影響GPU計算效率。AI訓練任務(如AllReduce)具有全局同步特性。任何一條關鍵路徑上的擁塞、丟包或高延遲,都會導致整個計算集群“空等”,顯著拖慢任務完成時間(Job Completion Time, JCT),直接影響業(yè)務效率和資源成本。

RoCE交換機(SONiC-Based)選用的動態(tài)智能選路創(chuàng)新方案結(jié)合了逐流 ECMP 均衡和基于子流 flowlet 均衡提出動態(tài)WCMP(Weighted Cost Multipath)和基于flowlet 的 ALB(Auto Load Balancing),下面將介紹具體相關技術。

網(wǎng)絡智能進化:為AI而生的核心技術

網(wǎng)絡態(tài)勢實時感知:高精度測量的基石

  • ASIC硬件級統(tǒng)計(百毫秒級):? 直接讀取交換機芯片寄存器,獲取端口/隊列的帶寬利用率、緩存占用等關鍵指標,通過SONiC控制面以亞秒級精度匯聚分析。
wKgZPGhL1YWAdsMxAABivehbs5M780.png
  • 帶內(nèi)網(wǎng)絡遙測INT(納秒級):? 采用HDC(高延遲捕獲)技術。當數(shù)據(jù)包在交換機內(nèi)部經(jīng)歷超過設定閾值的延遲時,該數(shù)據(jù)包的前150字節(jié)及關鍵元數(shù)據(jù)(入口/出口端口、精確時延)會被復制并發(fā)送給分析器(如交換機CPU)。這提供了前所未有的微突發(fā)流量和隊列擁塞的洞察能力。
wKgZO2hL1hqAR6TSAAAtyi-_KRQ388.png

動態(tài)智能選路技術在星融元交換機上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報文實現(xiàn)高精度測量交換機轉(zhuǎn)發(fā)時延,并將時延信息作為路徑質(zhì)量評價因子,提高路徑質(zhì)量評價精度。

wKgZPGhL1nKAcNx4AABn9b6Zis0759.png

命令行配置 HDC 功能控制INT進程運行,之后通過 socket 連接進行收包循環(huán),將收取到的報文進行解析并將關鍵信息(出入端口、轉(zhuǎn)發(fā)時延等)寫入數(shù)據(jù)庫。

全局路徑智能評估與同步

感知到的數(shù)據(jù)需要轉(zhuǎn)化為對整網(wǎng)路徑質(zhì)量的統(tǒng)一認知。

  • BGP擴展社區(qū)屬性傳遞路徑質(zhì)量:? 創(chuàng)新性地擴展BGP協(xié)議(數(shù)據(jù)中心廣泛部署的底層路由協(xié)議),定義新的Path Bandwidth Extended Community屬性。該屬性攜帶一個綜合評估路徑質(zhì)量的浮點數(shù)值(單位GB/s),通過BGP Update報文在整網(wǎng)擴散。

路徑質(zhì)量同步算法邏輯如下圖所示:

wKgZPGhVBbmANW0nAABhhkxqwi8922.png

動態(tài)智能選路技術將兩層 Leaf-Spine 組網(wǎng)中的交換機端口分為了三類:Leaf 上行口、Leaf 下行口和 Spine口,每種類型端口賦予不同的計算系數(shù),且每種端口的計算系數(shù)可配。

  • 異常路徑主動剔除:? 設定質(zhì)量閾值。綜合質(zhì)量過低的路徑(如擁塞嚴重、時延過高)被判定為“異常路徑”并暫時剔除,避免其拖累整體性能,待其恢復后重新引入。
wKgZO2hVBdGAOq-kAABu32D086w993.png

智能負載決策與執(zhí)行:動態(tài)WCMP + Flowlet ALB

基于實時感知的全局路徑視圖,執(zhí)行層實現(xiàn)精細化流量調(diào)度:

動態(tài)WCMP(加權多路徑):?

  • 核心思想:? 不再是ECMP的“平均主義”,而是根據(jù)每條路徑的實時綜合質(zhì)量動態(tài)計算權重(如質(zhì)量比38:80對應權重比3:7)。
  • 效果:? 將流量按比例引導到當前最優(yōu)的路徑上,最大化利用可用帶寬,避免擁塞熱點。權重隨網(wǎng)絡狀態(tài)變化而動態(tài)調(diào)整。
wKgZO2hVBgKAXsAGAACAdxa2Oso511.png

基于Flowlet的自動負載均衡(ALB):?

  • 作為ECMP的智能增強器:? 在ECMP選定的下一跳組內(nèi),ASIC芯片實時監(jiān)測組內(nèi)各出端口的瞬時負載和隊列時延。
  • 微秒級智能調(diào)度:? 當一個Flowlet(具有自然間隙的數(shù)據(jù)包子流)到達時,ALB將其動態(tài)分配到組內(nèi)當前負載最輕或時延最低的物理端口上。高負載/高時延端口會被臨時跳過。
  • 故障自愈:? 支持端口級Fail-over,鏈路故障時自動觸發(fā)流量重分布。
wKgZPGhVBiSASY3eAAAxI2tEW_0441.png

多租戶支持:網(wǎng)絡虛擬化(VRF)

AI云平臺需要支持多租戶隔離。

  • VRF隔離:? 為不同用戶/租戶分配獨立VRF路由表。
  • 基于源IP的流量分類:? 利用ASIC的PRE-ACL能力,根據(jù)GPU網(wǎng)段源IP自動將流量劃入對應的租戶VRF進行查表轉(zhuǎn)發(fā),確保租戶間嚴格隔離。
wKgZO2hVBkiAIVbnAACBZTbez4M451.png

智能網(wǎng)絡賦能AI業(yè)務場景

化解流量洪峰:動態(tài)WCMP的威力

  • 場景:? 256 x 400G GPU集群,1:1收斂比Leaf-Spine架構(gòu)。Server1 GPU1 -> Server17 GPU1的大象流。
  • 傳統(tǒng)ECMP困境:? Hash沖突可能導致所有大象流涌向同一Spine,造成Leaf1上行口擁塞丟包,拖慢整個訓練任務
wKgZPGhVBl6AC_tAAACvsFfQlc4650.png

動態(tài)智能選路方案:?

  1. Server17 GPU1的BGP路由攜帶Leaf17->GPU1質(zhì)量宣告。
  2. Spine疊加自身->Leaf17質(zhì)量后宣告給Leaf1。
  3. Leaf1疊加自身->Spine質(zhì)量,匯總所有到GPU1路徑的質(zhì)量。
  4. Leaf1剔除劣質(zhì)路徑,基于剩余路徑質(zhì)量動態(tài)計算WCMP權重(如3:7)。
  5. 流量按最優(yōu)比例分發(fā)到多條Spine路徑,避免單點擁塞,保障大象流順暢。

業(yè)務價值:? 防止關鍵路徑擁塞,穩(wěn)定JCT,提升GPU集群整體利用率。

Flowlet ALB優(yōu)化ECMP

  • 場景:? 在Leaf1到Spine的ECMP組內(nèi),某條鏈路突發(fā)微擁塞導致時延升高。
wKgZPGhVBrKAUtopAACy58Yo5oI449.png

Flowlet ALB作用?

  1. ASIC實時檢測到該出端口負載/時延超標。
  2. 后續(xù)到達的Flowlet被自動引導至組內(nèi)其他負載正常/時延低的端口。
  3. 擁塞端口被暫時“規(guī)避”,待其負載/時延恢復正常后,F(xiàn)lowlet將再次被分配至此端口。

業(yè)務價值:? 消除微突發(fā)導致的局部擁塞和抖動,優(yōu)化端到端時延,提升GPU計算效率。

AI時代的網(wǎng)絡,已不再是簡單的連通管道。星融元CX-N系列RoCE交換機所代表的動態(tài)感知 + 智能決策(動態(tài)WCMP) + 精準執(zhí)行(Flowlet ALB) 架構(gòu),標志著網(wǎng)絡向“AI感知網(wǎng)絡”的深刻進化。這種進化以保障AI業(yè)務性能為核心目標,通過實時感知網(wǎng)絡狀態(tài)、智能評估路徑質(zhì)量、動態(tài)調(diào)整流量分布,有效化解了傳統(tǒng)網(wǎng)絡在AI負載下的性能瓶頸,為大規(guī)模AI訓練和推理提供了穩(wěn)定、高效、無損的網(wǎng)絡基石,釋放AI的真正潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    41305

    瀏覽量

    302685
  • 負載均衡
    +關注

    關注

    0

    文章

    135

    瀏覽量

    12909
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Mesh 組網(wǎng)與無線橋接的區(qū)別及沃利斯技術實踐

    在無線網(wǎng)絡擴展方案中,Mesh 組網(wǎng)和無線橋接是兩種主流選擇,二者核心差異在于拓撲結(jié)構(gòu)與智能能力,適用場景和體驗也截然不同。 Mesh 組網(wǎng)核心特點 Mesh
    發(fā)表于 04-24 13:25

    九天菜菜大模型agent智能體開發(fā)實戰(zhàn)2026月班

    復雜多變的現(xiàn)實場景。而大模型 Agent 則打破了這局限,它以大模型為核心大腦,具備感知環(huán)境、理解任務、制定規(guī)劃、調(diào)用工具并完成目標的完整能力鏈,宛如個擁有自主意識和行動能力的“數(shù)
    發(fā)表于 04-15 16:04

    RPA低于Agent

    → 能理解意圖、拆解任務、動態(tài)規(guī)劃、用工具、處理異常、自我反思。 像**“智能助理/數(shù)字員工主管”**。 二、關鍵區(qū)別(眼看懂) 1. 智能
    發(fā)表于 04-04 21:36

    具身智能交流會

    龍頭企業(yè)決策者,圍繞 “感知 / 決策 / 控制 / 交互” 核心技術、商業(yè)化路徑、政策支持等熱點展開深度對話,鍵嵌入產(chǎn)業(yè)生態(tài)。 二、展品
    發(fā)表于 01-22 09:55

    國內(nèi)典型五大大模型驅(qū)動的星間鏈動態(tài)組網(wǎng)分系統(tǒng)軟件介紹

    ? ? 大模型驅(qū)動星間鏈動態(tài)組網(wǎng)分系統(tǒng)典型技術方案解析 ? ?結(jié)合國際低軌星座、星間鏈智能
    的頭像 發(fā)表于 12-23 15:22 ?367次閱讀

    大模型驅(qū)動的星間鏈動態(tài)組網(wǎng)分系統(tǒng):功能特點與平臺架構(gòu)解析

    大模型賦能的星間鏈動態(tài)組網(wǎng)分系統(tǒng)技術解析 ? ?北京華盛恒輝大模型驅(qū)動的星間鏈動態(tài)
    的頭像 發(fā)表于 12-23 14:52 ?352次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片

    可以被稱為第人稱視角。 第人稱視角:指個實體本身在觀察或經(jīng)歷事物時,所能夠看到或感知到的角度。 二、AI
    發(fā)表于 09-18 11:45

    AI 邊緣計算網(wǎng)關:開啟智能新時代的鑰匙?—龍興物聯(lián)

    順暢地通向云端,實現(xiàn)設備與云端之間高效的數(shù)據(jù)傳輸與交互。通過融合先進的邊緣計算和人工智能技術,AI 邊緣計算網(wǎng)關能夠在靠近數(shù)據(jù)源的網(wǎng)絡邊緣,對數(shù)據(jù)進行實時處理和精準分析,進而實現(xiàn)智能決策
    發(fā)表于 08-09 16:40

    AI智能體的技術應用與未來圖景

    AI智能技術正經(jīng)歷從感知智能向認知智能的范式躍遷。其技術
    的頭像 發(fā)表于 07-24 11:04 ?1136次閱讀

    ALVA技術重塑工業(yè)智能感知決策邊界

    無論是西門子構(gòu)建的工業(yè) AI 交易中心,還是微軟推出的工廠運營智能體,其本質(zhì)都在驗證個趨勢——工業(yè)智能體的核心競爭力,正從單模型能力轉(zhuǎn)向
    的頭像 發(fā)表于 07-22 14:32 ?1630次閱讀

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    本功能從DevEco CodeGenie 5.1.0 Beta版本開始支持。 CodeGenie提供智能AI能力對框選的代碼片段進行逐條解釋,總結(jié)代碼段含義,幫助開發(fā)者提升閱讀代碼的速度和效率
    發(fā)表于 07-17 17:02

    CES Asia 2025同期低空智能感知與空域管理技術論壇即將啟幕

    的最新進展,探討如何打破系統(tǒng)間的壁壘,實現(xiàn)不同系統(tǒng)之間的信息共享與協(xié)同工作,為未來城市空中交通的大規(guī)模商業(yè)化運營奠定基礎。 人工智能技術的飛速發(fā)展,為空域動態(tài)管理帶來了新的機遇。在這議題下,與會者將深入探討
    發(fā)表于 07-10 10:16

    CES Asia 2025聚焦低空智能感知與空域管理,論壇開啟行業(yè)新征程

    ,為管制員提供決策支持。在本次論壇中,人工智能領域的專家和低空經(jīng)濟從業(yè)者將共同探討人工智能在空域動態(tài)管理中的應用場景、
    發(fā)表于 07-10 09:57

    Path Bandwidth Extended Community:藏在BGP屬性里的智能路由革命

    傳統(tǒng)BGP協(xié)議雖能實現(xiàn)路由可達性,但缺乏對路徑質(zhì)量的動態(tài)感知能力,導致流量分配不均、高延遲鏈未被規(guī)避等問題。為提升網(wǎng)絡資源利用率,動態(tài)智能
    的頭像 發(fā)表于 06-24 14:00 ?870次閱讀
    Path Bandwidth Extended Community:藏在BGP屬性里的<b class='flag-5'>智能</b>路由革命

    智算網(wǎng)絡路徑質(zhì)量三要素:帶寬/隊列/時延在智能中的協(xié)同優(yōu)化

    為了從根本上優(yōu)化AI流量的傳輸效率并最大化集群利用率,我們設計并實踐了基于多維度網(wǎng)絡狀態(tài)感知動態(tài)智能
    的頭像 發(fā)表于 06-13 15:44 ?844次閱讀
    智算網(wǎng)絡路徑質(zhì)量三要素:帶寬/隊列/時延在<b class='flag-5'>智能</b><b class='flag-5'>選</b><b class='flag-5'>路</b>中的協(xié)同優(yōu)化
    崇仁县| 松原市| 中方县| 丹东市| 连平县| 吴江市| 麻江县| 玉溪市| 岗巴县| 钟山县| 临沧市| 昌吉市| 汉沽区| 子洲县| 邻水| 淮北市| 崇文区| 韩城市| 盐城市| 济源市| 廊坊市| 类乌齐县| 二手房| 卢龙县| 浙江省| 黄大仙区| 曲阜市| 潜山县| 扎兰屯市| 方城县| 芜湖县| 四子王旗| 忻城县| 会东县| 高平市| 利川市| 南漳县| 连江县| 偏关县| 互助| 黑水县|