日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐

華為數(shù)據(jù)通信 ? 來源:華為數(shù)據(jù)通信 ? 作者:華為數(shù)據(jù)通信 ? 2022-08-03 10:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2022年7月,在山東濟(jì)南舉行的2022中國(guó)算力大會(huì)上,紫金山實(shí)驗(yàn)室研究員高新平作了“基于無損數(shù)據(jù)中心AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐”的主題演講。

紫金山實(shí)驗(yàn)室是江蘇省和南京市共同推進(jìn)建設(shè)的重大科技創(chuàng)新平臺(tái)。紫金山實(shí)驗(yàn)室面向網(wǎng)絡(luò)通信與安全領(lǐng)域國(guó)家重大戰(zhàn)略需求,以引領(lǐng)全球信息科技發(fā)展方向、解決行業(yè)重大科技問題為使命,通過聚集全球高端人才,開展前瞻性、基礎(chǔ)性研究,力圖突破關(guān)鍵核心技術(shù),開展重大示范應(yīng)用,促進(jìn)成果在國(guó)家經(jīng)濟(jì)建設(shè)中落地。紫金山實(shí)驗(yàn)室力圖成為國(guó)家科技創(chuàng)新的重要力量,建成具有世界一流水平的戰(zhàn)略科技創(chuàng)新基地。

紫金山實(shí)驗(yàn)室與華為依托紫金山實(shí)驗(yàn)室無損數(shù)據(jù)中心展開面向AI訓(xùn)練場(chǎng)景的網(wǎng)絡(luò)均衡技術(shù)的聯(lián)合創(chuàng)新,解決AI集群中網(wǎng)絡(luò)負(fù)載不均而導(dǎo)致的AI訓(xùn)練任務(wù)性能下降的問題。

高新平研究員指出AI訓(xùn)練使用的集合通信算法,當(dāng)前主流的有Ring算法、Tree算法和Halving Doubling算法等,在運(yùn)行時(shí)通信流量都呈現(xiàn)出了共同的特征:周期性、流數(shù)量少、長(zhǎng)連接,并行任務(wù)間有強(qiáng)實(shí)時(shí)同步性要求,通信效率取決于最慢的節(jié)點(diǎn)。同時(shí),AI訓(xùn)練時(shí),各節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)量大。以上這些流量特性使計(jì)算集群網(wǎng)絡(luò)容易出現(xiàn)負(fù)載不均導(dǎo)致AI訓(xùn)練任務(wù)性能下降的問題。

現(xiàn)有網(wǎng)絡(luò)均衡的主流技術(shù)大體分為三種,逐流ECMP均衡、基于子流flowlet均衡和逐包的負(fù)載分擔(dān)均衡。逐流ECMP均衡技術(shù),是當(dāng)前最為常用的負(fù)載均衡算法,適用于流鏈接較多場(chǎng)景,它優(yōu)勢(shì)在于無亂序,劣勢(shì)在于流數(shù)量較少時(shí),例如AI訓(xùn)練場(chǎng)景下,存在HASH沖突問題,網(wǎng)絡(luò)均衡效果不佳。基于子流flowlet均衡技術(shù),它依賴于子流之間的時(shí)間間隔GAP值的正確配置來實(shí)現(xiàn)均衡,但全局路徑級(jí)時(shí)延信息不可知、無法配置,且存在接收端側(cè)亂序的問題。逐包的負(fù)載分擔(dān)均衡技術(shù),理論均衡度最好,但實(shí)際在接收端側(cè)存在大量報(bào)文亂序問題,現(xiàn)實(shí)中幾乎無使用案例。

發(fā)表“基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐”主題演講

在紫金山實(shí)驗(yàn)室無損數(shù)據(jù)中心AI訓(xùn)練集群中驗(yàn)證了華為創(chuàng)新的網(wǎng)絡(luò)均衡技術(shù)NSLB(Network Service Load Balance)?;谌A為交換芯片高精度telemetry能力,采集流量矩陣作為路由算法輸入,用以控制AI流量的轉(zhuǎn)發(fā)路徑,避免負(fù)載不均,提升AI訓(xùn)練效率。

Ring算法場(chǎng)景,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率34%、比ECMP提升35%,AI訓(xùn)練集性能最高提升113.41%;

Ring算法場(chǎng)景,同時(shí)運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率29%、比ECMP提升15.6%,AI訓(xùn)練集性能最高提升57.29%;

Tree算法場(chǎng)景下,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率13.8%、比ECMP提升1%,AI訓(xùn)練集性能最高提升6.50%;

Tree算法場(chǎng)景下,運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),網(wǎng)絡(luò)實(shí)現(xiàn)100%均衡、平均鏈路利用率14%、比ECMP提升10.5%,AI訓(xùn)練集性能最高提升15.81%。

未來,紫金山實(shí)驗(yàn)將與華為在無損數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域就網(wǎng)絡(luò)新拓?fù)洹?a target="_blank">DCN高性能互聯(lián)等方向展開持續(xù)的聯(lián)合創(chuàng)新,推動(dòng)無損數(shù)據(jù)中心網(wǎng)絡(luò)在低時(shí)延、高吞吐等方向進(jìn)一步的發(fā)展,為高算力提供強(qiáng)有力的底座。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5780

    瀏覽量

    75215
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41326

    瀏覽量

    302731
  • 網(wǎng)絡(luò)通信
    +關(guān)注

    關(guān)注

    4

    文章

    847

    瀏覽量

    32667

原文標(biāo)題:2022中國(guó)算力大會(huì) | 基于無損數(shù)據(jù)中心的AI訓(xùn)練網(wǎng)絡(luò)均衡技術(shù)實(shí)踐

文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    華為攜手合作伙伴共譜數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展新篇章

    華為中國(guó)合作伙伴大會(huì)2026期間,以“星河AI Fabric 2.0,算力滿載,業(yè)務(wù)永續(xù)”為主題的數(shù)據(jù)中心網(wǎng)絡(luò)分論壇圓滿落幕。本次論壇匯聚行業(yè)資深專家、客戶以及伙伴,共同探討AI時(shí)代
    的頭像 發(fā)表于 03-23 16:32 ?512次閱讀

    微軟最新AI技術(shù)數(shù)據(jù)中心即將啟用

    微軟在美國(guó)威斯康星州 Mount Pleasant 建設(shè)的最新AI技術(shù)數(shù)據(jù)中心即將投入使用,預(yù)計(jì) 2026 年初正式啟用。第二座同規(guī)模中心也在規(guī)劃中,總投資將超過 70 億美元。
    的頭像 發(fā)表于 11-05 16:37 ?1231次閱讀

    Credo攜1.6T Bluebird DSP破解AI數(shù)據(jù)中心算力瓶頸

    高速連接17年的企業(yè)再擲重磅——發(fā)布 新一代1.6T Bluebird DSP ,為AI數(shù)據(jù)中心的“算力軍備競(jìng)賽”注入關(guān)鍵動(dòng)力。 當(dāng)下,AI大模型訓(xùn)練集群的GPU數(shù)量已突破百萬(wàn)級(jí),單節(jié)
    的頭像 發(fā)表于 10-17 14:49 ?985次閱讀
    Credo攜1.6T Bluebird DSP破解<b class='flag-5'>AI</b><b class='flag-5'>數(shù)據(jù)中心</b>算力瓶頸

    CPO技術(shù)加速未來數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展

    生成式 AI 的快速普及正在推動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)需求的指數(shù)級(jí)增長(zhǎng)。光電一體化封裝(CPO)技術(shù)以其高帶寬密度、低功耗和可靠性優(yōu)勢(shì),成為滿足 AI
    的頭像 發(fā)表于 09-23 14:24 ?2284次閱讀

    華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡(luò)亮相ODCC 2025

    數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域總裁王武偉受邀在主論壇發(fā)表題為“面向AI時(shí)代的智能算網(wǎng),實(shí)現(xiàn)算力滿載業(yè)務(wù)永續(xù)”的演講。
    的頭像 發(fā)表于 09-16 14:54 ?2817次閱讀
    華為星河<b class='flag-5'>AI</b>高算效<b class='flag-5'>數(shù)據(jù)中心</b><b class='flag-5'>網(wǎng)絡(luò)</b>亮相ODCC 2025

    睿海光電:400G光模塊技術(shù)創(chuàng)新與AI數(shù)據(jù)中心變革

    睿海光電:400G光模塊技術(shù)創(chuàng)新與AI數(shù)據(jù)中心變革 一、400G光模塊:新一代數(shù)據(jù)中心的核心引擎 在AI大模型
    的頭像 發(fā)表于 08-18 13:52 ?1368次閱讀

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    引領(lǐng)AI時(shí)代網(wǎng)絡(luò)變革:睿海光電的核心競(jìng)爭(zhēng)力 在AI時(shí)代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI
    發(fā)表于 08-13 19:01

    加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)

    定義數(shù)據(jù)中心互聯(lián)的新范式。 一、技術(shù)實(shí)力:800G OSFP光模塊的卓越性能表現(xiàn) 睿海光電800G OSFP光模塊系列采用行業(yè)領(lǐng)先的PAM4調(diào)制技術(shù),具備以下核心優(yōu)勢(shì): 超高速率 :?jiǎn)文鬏斔俾蔬_(dá)
    發(fā)表于 08-13 16:38

    華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案

    在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025拉美站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向拉美地區(qū)發(fā)布全新升級(jí)的星河
    的頭像 發(fā)表于 08-11 10:42 ?2615次閱讀

    PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?

    數(shù)據(jù)中心的整體可靠性。以下是其核心作用及具體應(yīng)用場(chǎng)景的詳細(xì)分析:一、性能優(yōu)化:突破帶寬瓶頸,提升計(jì)算效率 鏈路帶寬利用率分析 場(chǎng)景:在AI訓(xùn)練集群中,GPU通過PCIe與CPU交換數(shù)據(jù)
    發(fā)表于 07-29 15:02

    智能路徑調(diào)度:AI驅(qū)動(dòng)負(fù)載均衡的異常路徑治理實(shí)踐

    AI驅(qū)動(dòng)的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境中,傳統(tǒng)的“盡力而為”和“無差別均分”負(fù)載均衡策略已力不從心?;诼窂骄C合質(zhì)量的動(dòng)態(tài)WCMP機(jī)制,通過實(shí)時(shí)感知路徑狀態(tài)、果斷剔除異常、智能調(diào)度“健康”資源,
    的頭像 發(fā)表于 07-03 16:26 ?1306次閱讀
    智能路徑調(diào)度:<b class='flag-5'>AI</b>驅(qū)動(dòng)負(fù)載<b class='flag-5'>均衡</b>的異常路徑治理<b class='flag-5'>實(shí)踐</b>

    中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案

    同步模塊等。 2. 高校/科研機(jī)構(gòu)智能計(jì)算中心 應(yīng)用背景: 服務(wù)于AI訓(xùn)練、大數(shù)據(jù)建模與圖像處理的科研計(jì)算平臺(tái),要求高速網(wǎng)絡(luò)與大容量
    發(fā)表于 07-01 16:33

    數(shù)據(jù)中心和通信網(wǎng)絡(luò)有什么區(qū)別

    數(shù)據(jù)中心和通信網(wǎng)絡(luò)在功能定位、技術(shù)架構(gòu)、應(yīng)用場(chǎng)景等方面存在顯著區(qū)別,以下是詳細(xì)對(duì)比: 一、功能定位 數(shù)據(jù)中心 核心功能:作為存儲(chǔ)、處理和管理海量數(shù)據(jù)
    的頭像 發(fā)表于 06-12 09:57 ?1175次閱讀
    <b class='flag-5'>數(shù)據(jù)中心</b>和通信<b class='flag-5'>網(wǎng)絡(luò)</b>有什么區(qū)別

    華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案

    在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025亞太站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向亞太地區(qū)發(fā)布全新升級(jí)的星河
    的頭像 發(fā)表于 06-11 11:11 ?1620次閱讀

    華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)

    近日,在華為數(shù)據(jù)通信創(chuàng)新峰會(huì)2025中東中亞站期間,以“星河AI數(shù)據(jù)中心網(wǎng)絡(luò),賦AI時(shí)代新動(dòng)能”為主題的分論壇上,華為面向中東中亞地區(qū)發(fā)布全
    的頭像 發(fā)表于 05-21 15:49 ?1086次閱讀
    泾阳县| 宁津县| 嵊州市| 塔河县| 界首市| 右玉县| 东乡族自治县| 禄丰县| 隆回县| 浮梁县| 普兰店市| 右玉县| 虞城县| 洛宁县| 揭西县| 苍山县| 海门市| 淮南市| 利津县| 双江| 温州市| 上饶市| 潞城市| 封丘县| 普宁市| 许昌县| 闸北区| 景谷| 阳西县| 临朐县| 竹北市| 丹寨县| 阜新市| 建昌县| 青州市| 克东县| 富源县| 黄浦区| 澄迈县| 淮安市| 平利县|