日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

有關 AI 算力,華為昇騰刷新行業(yè)記錄

Felix分析 ? 來源:電子發(fā)燒友 ? 作者:吳子鵬 ? 2025-06-16 01:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網報道(文 / 吳子鵬)近日,GitCode 網站上更新了一份題為《昇騰 AI 算力集群基礎設施高可用技術系列報告》的文件。報告顯示,華為團隊通過構建極致可靠性的 CloudMatrix 超節(jié)點,有效降低了故障概率。在訓練業(yè)務方面,實現分鐘級 RTO(恢復時間目標);在高頻 HBM 場景下,故障恢復時間縮短至 30 秒級,成功將萬卡級訓練集群可用度提升至 95% 以上。


此外,該文件還涵蓋硬件管理、故障感知與診斷、超節(jié)點系統(tǒng)等相關創(chuàng)新內容,帶來了諸多顯著成果:萬卡集群可用度達到 98%,集群訓推最快實現秒級快速恢復,集群線性度超過 95%,并建立起包含千種故障模式的數據庫,實現分鐘級故障診斷。值得注意的是,98% 的萬卡集群可用度在目前已公開的數據中處于領先水平。

AI 算力集群穩(wěn)定性至關重要

萬卡集群是由超過一萬張加速卡(如 GPU、TPU 或專用 AI 芯片)組成的高性能計算系統(tǒng),主要用于加速人工智能模型的訓練和推理過程。隨著 AI 大模型參數體量不斷攀升,萬卡集群已逐漸成為行業(yè)標配,甚至可以說是最低配置。

這一趨勢推動了算力規(guī)模的快速增長。根據 IDC 的報告,2024 年全球智能算力規(guī)模達 725.3EFLOPS(FP16),同比激增 74.1%。預計到 2025 年,中國智能算力規(guī)模將突破 1037.3EFLOPS,相比 2023 年實現翻倍增長。

然而,萬卡集群在實際應用中面臨著三大顯著挑戰(zhàn):其一,穩(wěn)定性直接影響 “算力利用率”,在大規(guī)模訓練過程中,節(jié)點故障可能導致梯度同步中斷、模型參數回滾,甚至需要重新啟動訓練任務;其二,動態(tài)實時推理系統(tǒng)任務呈現兩極分化的特點,推理階段硬件需同時滿足高吞吐與低延遲的要求,并且在不同場景下都要有穩(wěn)定表現;其三,實現復雜萬卡集群的長期穩(wěn)定運行難度巨大,萬卡集群包含數萬顆芯片、數十萬條光鏈路、數千臺交換機,僅光模塊故障率就會隨著規(guī)模擴大呈指數增長,傳統(tǒng)單機冗余方案在萬卡規(guī)模下因 “故障定位難、恢復時間長” 而失效。

在這些顯性挑戰(zhàn)背后,還隱藏著其他問題。例如,在長穩(wěn)運行方面,除了硬件設備的穩(wěn)定性,還需考慮軟件調度的 “蝴蝶效應”。在超大規(guī)模訓練中,單個節(jié)點的 HBM 內存錯誤可能引發(fā)梯度同步失敗,進而破壞整個集群的參數一致性,若調度系統(tǒng)無法快速隔離故障節(jié)點,可能引發(fā) “級聯(lián)失效”;同時,網絡拓撲的脆弱性也不容忽視,萬卡集群通常采用 Fat-Tree 或 3D Torus 拓撲,核心交換機負載極高,一旦發(fā)生擁塞或鏈路閃斷,會導致全局通信延遲大幅上升。

可用性(Availability)與穩(wěn)定性一樣,也是衡量超大規(guī)模集群性能的核心指標,它是穩(wěn)定性的量化體現,指集群在規(guī)定時間內正常運行、滿足計算需求的比例,通常以百分比表示。據測算,萬卡集群的可用性每提升 1%,相當于每年節(jié)省數千萬算力成本,這也是頭部 AI 企業(yè)將可用性視為 “算力投資回報率” 核心指標的原因。

提升萬卡集群可用性

如前文所述,萬卡級集群的穩(wěn)定性和可用性已不再僅僅是技術指標,而是決定 AI 產業(yè)競爭力的關鍵要素。華為團隊通過構建極致可靠性的 CloudMatrix 超節(jié)點,大幅降低故障概率,實現訓練業(yè)務分鐘級 RTO 以及高頻 HBM 場景 30 秒級故障恢復。

為解決萬卡級別 AI 集群平均每天會出現一次甚至多次故障的問題,華為團隊提出基于系統(tǒng)工程的硬件故障管理技術,建立起集群全系統(tǒng)可靠性分析模型。CloudMatrix 384 超節(jié)點計算柜和總線設備柜關鍵部件均采用冗余設計:在計算柜方面,整柜電源模塊冗余,風扇采用 N+1 冗余,并配備 2N 和 N+R 等供電系統(tǒng);總線設備柜的交換機采用雙電源供電設計,風扇同樣采用 N+1 冗余設計。此外,還引入了 NPU HBM 多級 RAS 技術以及光模塊本體高可靠技術,使 CloudMatrix 超節(jié)點具備萬卡集群連續(xù)數天無故障運行的硬件高可靠能力,系統(tǒng)可用度超過 95%。

wKgZPGhL-O-AJep8AAIybs8R8b8670.png
CloudMatrix 超節(jié)點,圖源:華為技術報告

針對萬卡集群規(guī)模大、故障頻發(fā),軟硬技術棧復雜,涉及數據多、傳播快、依賴復雜等問題,華為團隊提出大規(guī)模集群在線故障感知與診斷技術。該方案提供全棧監(jiān)控,FlowScope 利用自研可編程設備實現準 TB 級流量預處理,能夠在域內快速定位故障。目前該技術已在華為云產品技術棧落地,支持網絡故障 3 分鐘感知、5 分鐘定界,網絡故障診斷準確率達 95%。

wKgZPGhL-PiAYTqxAAMLovPpLAs521.png
網絡域故障定位,圖源:華為技術報告


為打造緊耦合服務器模式,華為團隊提出極致可靠性的 CloudMatrix 超節(jié)點系統(tǒng)技術。單個超節(jié)點由 48 臺服務器組成,每臺服務器包含 4 顆 CPU 及 8 顆 NPU。每臺服務器的接口數量為:管存 / VPC 平面 2200GE;參數面 8400GE;超節(jié)點平面 56×400G HCCS。一個機柜最大支持 4 個 8 卡節(jié)點,管存面 / 參數面交換機以及超節(jié)點 L2 層交換機外置,支持靈活組網。該超節(jié)點的設計目標是實現光模塊閃斷的故障率容忍度超過 99%;將高頻的 HBM 多比特 ECC 故障恢復時間縮短至 1 分鐘,使因 HBM 故障造成的用戶算力損失下降 5%。通過 “系統(tǒng)層容錯”“業(yè)務層容錯” 以及后續(xù) “運維層容錯” 方案,成功實現了這一目標。

wKgZO2hL-QOABPofAAKjfJl-JB4792.png
CloudMatrix 超節(jié)點系統(tǒng)技術,圖源:華為技術報告


為做到千億稀疏模型訓練線性度優(yōu)化,華為團隊提出 4 項關鍵技術,包括拓撲感知的協(xié)同編排技術 TACO、網絡級網存算融合技術 NSF、拓撲感知的層次化集合通信技術 NB、無侵入通信跨層測量與診斷技術 AICT。實驗及理論分析結果顯示,Pangu Ultra 135B 稠密、Pangu Ultra MoE 718B 稀疏模型訓練線性度超過 95%。具體來看,訓練 Pangu Ultra 135B 稠密模型時,4K 卡 Atlas 800T A2 集群相比 256 卡基線,線性度為 96%;訓練 Pangu Ultra MoE 718B 稀疏模型時,8K 卡 A2 集群相比 512 卡基線,線性度為 95.05%;4K 卡 CloudMatrix 集群相比 256 卡基線,線性度為 96.48%。

wKgZPGhL-Q2ADe0cAAKZp2-Qpbk404.png
線性度問題分析,圖源:華為技術報告

針對大 EP 推理架構的可靠性難題,華為團隊提出千億 MOE 分布式推理分鐘級恢復技術,通過基于請求切流實例間恢復、基于實例 / Pod 重調度與進程原地恢復的實例內有感恢復、基于 token 級重試和減卡容錯的實例內無損恢復的三級容錯方案,從芯片驅動層、框架層、平臺層協(xié)同發(fā)力,構筑端到端可靠性體系。面向未來,華為團隊還將持續(xù)研發(fā)減卡彈性恢復技術和基于快照進程的進程初始化加速技術。

wKgZO2hL-RaAMIVNAANrFY199uY985.png
千億 MOE 分布式推理分鐘級恢復技術,圖源:華為技術報告

結語

在 AI 算力集群邁向萬卡規(guī)模的產業(yè)變革進程中,華為昇騰憑借 CloudMatrix 超節(jié)點技術體系,通過硬件冗余設計、全棧故障感知、系統(tǒng)層容錯等創(chuàng)新舉措,將萬卡集群可用度提升至行業(yè)領先的 95% 以上,實現高頻 HBM 故障 30 秒級恢復、訓練線性度超 95% 的突破,切實解決了大規(guī)模算力集群穩(wěn)定性與可用性的核心難題。這不僅為 AI 大模型訓練與推理構建了堅實的算力底座,更以 “每提升 1% 可用度節(jié)省數千萬成本” 的實際效益,重新定義了算力投資回報率的行業(yè)標準。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 華為
    +關注

    關注

    218

    文章

    36212

    瀏覽量

    262723
  • AI
    AI
    +關注

    關注

    91

    文章

    41315

    瀏覽量

    302690
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【硬核發(fā)布】310B盒上新賦能2026集創(chuàng)賽華強x賽道玩轉新創(chuàng)意!

    -TECHNOLOGICALPROGRESS-310BAIBOX上新全棧全場景AI高能效底座Part01基于
    的頭像 發(fā)表于 03-27 17:12 ?1268次閱讀
    【硬核發(fā)布】<b class='flag-5'>昇</b><b class='flag-5'>騰</b>310B<b class='flag-5'>算</b><b class='flag-5'>力</b>盒上新賦能2026集創(chuàng)賽華強x<b class='flag-5'>昇</b><b class='flag-5'>騰</b>賽道玩轉新創(chuàng)意!

    華為發(fā)布全新950PR,Atlas 350單卡接近3倍于H20

    950PR在低精度數據格式、向量、互聯(lián)帶寬及自研HBM等方面實現大幅提升。 ? 芯片是華為AI
    的頭像 發(fā)表于 03-24 09:08 ?6113次閱讀

    2026華為中國合作伙伴大會人工智能伙伴峰會圓滿落幕

    華為中國合作伙伴大會2026期間,以“與時代 共”為主題的人工智能伙伴峰會于深圳國際會展中心圓滿落幕。峰會現場聯(lián)合20家
    的頭像 發(fā)表于 03-23 17:03 ?1615次閱讀

    國產新標桿!Atlas 950上市,三倍H20和超節(jié)點雙突破

    華為合作伙伴大會上,華為副總裁、ICT產品組合管理與解決方案部總裁馬海旭宣布宣布搭載全新950PR(Ascend 950PR)處理器的Atlas 350加速卡正式上市,實現
    的頭像 發(fā)表于 03-23 11:27 ?9620次閱讀
    國產<b class='flag-5'>算</b><b class='flag-5'>力</b>新標桿!<b class='flag-5'>昇</b><b class='flag-5'>騰</b>Atlas 950上市,<b class='flag-5'>算</b><b class='flag-5'>力</b>三倍H20和超節(jié)點雙突破

    【賽題解析】2026集創(chuàng)賽華強x企業(yè)命題!用國產AI重塑未來數字幻境!

    用國產AI打造下一代沉浸式體驗!2026集創(chuàng)賽“華強x”企業(yè)命題火熱報名中!本賽題由華強半導體發(fā)起、
    的頭像 發(fā)表于 03-11 08:04 ?826次閱讀
    【賽題解析】2026集創(chuàng)賽華強x<b class='flag-5'>昇</b><b class='flag-5'>騰</b>企業(yè)命題!用國產<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>重塑未來數字幻境!

    邊緣AI臨界點:深度解析176TOPS香橙派AI Station的產業(yè)價值

    檢索。 這一組合帶來了高達176TOPS的整型AI(INT8)。在AI硬件行業(yè)中,
    發(fā)表于 03-10 14:19

    香橙派系列開發(fā)板如何部署OpenClaw

    OrangePi AIPro8T/20T、AI Station、AI Studio Pro、AI Studio都可以按同樣的步驟操作。 隨著香橙派
    發(fā)表于 02-25 10:13

    AI+FPGA助力生態(tài)新篇章|2025AI技術研討會·杭州站成功舉辦

    中國·杭州2025年12月17日“華強筑鏈·萬里”華為&華強半導體2025AI技術研討會
    的頭像 發(fā)表于 12-24 08:05 ?834次閱讀
    <b class='flag-5'>AI</b>+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>騰</b>生態(tài)新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術研討會·杭州站成功舉辦

    國產AI芯片真能扛住“內卷”?海思的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“AI的命門”,但國產芯片真的能接住這波需求嗎? 前陣子接觸到海思910
    發(fā)表于 10-27 13:12

    華為發(fā)布全球最強超節(jié)點和集群

    華為全聯(lián)接大會2025(HUAWEI CONNECT 2025)上,華為發(fā)布最強超節(jié)點和集群,并表示將發(fā)展生態(tài)作為公司核心戰(zhàn)略,提升到前所未有的戰(zhàn)略高度。在計算領域,鯤鵬
    的頭像 發(fā)表于 10-10 17:29 ?2473次閱讀

    華為首次公布芯片新路線圖

    了一劑強心針,標志著華為AI 領域將持續(xù)發(fā),為行業(yè)發(fā)展提供更強大的技術支撐。 ? 根據
    的頭像 發(fā)表于 09-19 16:49 ?1972次閱讀
    <b class='flag-5'>華為</b>首次公布<b class='flag-5'>昇</b><b class='flag-5'>騰</b>芯片新路線圖

    什么是AI模組?

    未來,視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著
    的頭像 發(fā)表于 09-19 15:26 ?2141次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來,視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著
    的頭像 發(fā)表于 09-19 15:25 ?1064次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    中軟國際出席華為計算產業(yè)發(fā)展峰會

    的重大開源舉措,深入探討開源開放的生態(tài)建設大計,攜手加速AI領域的創(chuàng)新與發(fā)展浪潮。中軟國際執(zhí)行總裁彭江,中軟國際華為技術與解決方案集團副總裁、智
    的頭像 發(fā)表于 08-07 18:14 ?1777次閱讀

    華為開發(fā)者大會2025(HDC 2025)亮點:華為云發(fā)布盤古大模型5.5 宣布新一代AI云服務上線

    HarmonyOS、AI云服務、盤古大模型等最新科技創(chuàng)新成果。 在主題演講中,華為常務董事、華為云計算CEO張平安宣布基于CloudMa
    的頭像 發(fā)表于 06-20 20:19 ?4692次閱讀
    <b class='flag-5'>華為</b>開發(fā)者大會2025(HDC 2025)亮點:<b class='flag-5'>華為</b>云發(fā)布盤古大模型5.5 宣布新一代<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>云服務上線
    周口市| 五常市| 高陵县| 丹阳市| 宁武县| 略阳县| 凤冈县| 临猗县| 三都| 辽中县| 桦甸市| 盖州市| 廊坊市| 深州市| 黔南| 姚安县| 略阳县| 县级市| 城固县| 河南省| 灯塔市| 通山县| 宁明县| 江陵县| 澳门| 靖边县| 江口县| 大同县| 桐庐县| 蓬莱市| 长阳| 双鸭山市| 珠海市| 清涧县| 仲巴县| 凤冈县| 合肥市| 灌云县| 深水埗区| 遵义市| 资溪县|