第22屆中國計算機大會(CNCC2025)在“冰城”哈爾濱盛大啟幕,主題為“數(shù)智賦能,無限可能”。華為數(shù)據(jù)通信產(chǎn)品線研究部部長鄭曉龍在大會上發(fā)表題為《大模型推理加速與演進:網(wǎng)絡(luò)如何破局?》的演講,首次提出“網(wǎng)絡(luò)+”破局模型,為十萬卡智算集群面臨的通信瓶頸提供了創(chuàng)新方案。他指出,在單卡算力提升日益趨緩的背景下,唯有通過網(wǎng)絡(luò)、計算與存儲的跨層協(xié)同,才能將集群效率推向全新量級。
為支持十萬卡智算集群的規(guī)?;渴鹋c高效運行,華為提出“網(wǎng)絡(luò)+”破局模型,旨在系統(tǒng)化解決超大規(guī)模集群中的通信瓶頸問題。該主題演講涵蓋架構(gòu)設(shè)計、協(xié)議優(yōu)化與調(diào)度策略等多個層面,為構(gòu)建下一代智算基礎(chǔ)設(shè)施提供完整技術(shù)路徑。
網(wǎng)絡(luò)級負載均衡,應(yīng)對大EP部署帶來的動態(tài)通信模式挑戰(zhàn),性能提升20%+。
DeepSeek的出現(xiàn),將大模型架構(gòu)引向了更稀疏的大EP部署。隨之而來的是通信模式及通信關(guān)系的變化。面對通信的隨機性和非對稱性,華為提出的網(wǎng)絡(luò)級負載均衡,將通信性能提升20%+,顯著降低P99完成時間。
從Chat LLM進入Agentic AI,“超節(jié)點”助力實現(xiàn)極致的TPOT需求
大模型應(yīng)用從聊天式的Chat LLM向Agentic AI演進,對于token生成速度的要求從50ms提升到了10ms以下。這在當(dāng)前的部署實踐中,存在多個挑戰(zhàn):推理階段以小消息通信為主,控制面時延占比高;單純卸載控制面,則會消耗計算資源SM。華為推出了CloudMatrix384超節(jié)點及對應(yīng)的超節(jié)點網(wǎng)絡(luò),為滿足極致的TPOT需求提供了可能。
多模態(tài)LMM流量混戰(zhàn),網(wǎng)絡(luò)調(diào)度“四兩撥千斤”,提升推理性能
大模型從語言文本的處理向多模態(tài)轉(zhuǎn)變,智算集群內(nèi)的流量模式也更加復(fù)雜。采用EPD分離的部署方式,引入EP和PD之間的傳輸流量,與推理的all2allv等集合通信流量相互干擾,對應(yīng)用性能產(chǎn)生很大影響。華為提出了針對不同流量類型進行網(wǎng)絡(luò)識別、隔離不同推理流量、進行差異化調(diào)度、提升推理性能的技術(shù)目標(biāo)。
“網(wǎng)絡(luò)+”不是簡單的帶寬升級,而是讓網(wǎng)絡(luò)成為AI集群的‘第七代算力’?!编崟札堊詈蠛粲酰A為愿與業(yè)界共建標(biāo)準(zhǔn),與合作伙伴及行業(yè)組織一起,共同定義大模型時代的下一代智算網(wǎng)絡(luò)接口。
-
華為
+關(guān)注
關(guān)注
218文章
36212瀏覽量
262723 -
數(shù)據(jù)通信
+關(guān)注
關(guān)注
2文章
547瀏覽量
35181 -
大模型
+關(guān)注
關(guān)注
2文章
3796瀏覽量
5276
原文標(biāo)題:活動速遞 | 華為“網(wǎng)絡(luò)+”破局模型:開啟大模型推理加速的下一站
文章出處:【微信號:Huawei_Fixed,微信公眾號:華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
華為鄭曉龍受邀出席CNCC 2025并發(fā)表主題演講
評論