日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

摩爾線程吳慶詳解 MUSA 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計算新高度

電子麥克風 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:張迎輝 ? 2025-07-28 13:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

WAIC 2025前夕,在摩爾線程技術(shù)分享日上,摩爾線程GPU 計算軟件開發(fā)總監(jiān)吳慶,發(fā)表了題為《摩爾線程 MUSA 軟件棧助力 KUAE 集群釋放無限潛能》的演講。他從專業(yè)視角出發(fā),深入剖析了 MUSA 軟件棧在驅(qū)動 KUAE 集群高效運轉(zhuǎn)方面的核心技術(shù)與創(chuàng)新成果。

摩爾線程GPU 計算軟件開發(fā)總監(jiān)吳慶在WAIC 期間的技術(shù)分享 (來源:電子發(fā)燒友網(wǎng)拍攝)


一、MUSA 驅(qū)動和運行時庫:KUAE 集群的堅實底座?

首先是驅(qū)動的重要性。在推理場景中,Kernel 延時如同懸在高效運算頭上的 “達摩克利斯之劍”,對運算效率影響極大。而摩爾線程的 MUSA 驅(qū)動和運行時庫就像是一位技藝精湛的調(diào)度大師,憑借自身高效的任務(wù)調(diào)度能力,將用戶的 Kernel launch 開銷大幅縮減,為 KUAE 集群筑牢了根基。

吳慶詳細介紹,MUSA 實現(xiàn)即時任務(wù)下發(fā),通過獨特的軟硬協(xié)同方式,將核函數(shù)啟動延遲成功降低到業(yè)界平均水平的 1/2。打個比方,這就如同在酷熱的仲夏,人們能夠借助手機遠程提前開啟暴曬在戶外車輛的空調(diào),待上車時便能立刻享受清涼。MUSA 正是巧妙地將調(diào)度開銷前置,在上一個 Kernel 執(zhí)行尚未結(jié)束時,就提前有條不紊地完成下一個 Kernel 的配置,由此最大程度減少了 Kernel 間的調(diào)度延時,讓運算銜接更加緊密流暢。?

在批量任務(wù)下發(fā)方面,吳慶表示,MUSA 將近千次的計算和通信任務(wù)下發(fā)開銷巧妙優(yōu)化為單次。他舉例解釋道,這類似于汽車座椅的一鍵記憶功能,駕駛者只需輕松操作一次,就能一次性打包調(diào)節(jié)好多個復雜步驟,后續(xù)使用時無需再重復繁瑣操作。在實際應(yīng)用中,這種優(yōu)化帶來的端到端收益因不同應(yīng)用場景而有所差異,最高可達好幾倍,極大節(jié)省了 GPU 的等待時間,提升了整體運算效率。

談及引擎間依賴解析能力,吳慶強調(diào),GPU 擁有多引擎可配置的特性,MUSA 借助硬件解析引擎間的依賴進行同步,這一創(chuàng)新之處在于無需再回到 host,從而使任務(wù)流之間的依賴解析延時大幅降低至 1.5μs,相較于業(yè)界頭部算力卡表現(xiàn)更為出色。此外,吳慶還介紹了調(diào)優(yōu)工具接口 MUPTI,它能夠像貼心助手一般,幫助開發(fā)者深入優(yōu)化 MUSA 應(yīng)用程序;而 GPU 錯誤轉(zhuǎn)存功能(GCD)則在程序遭遇出錯情況時,迅速生成詳細信息,大大提升了問題定位的效率,為程序穩(wěn)定運行保駕護航。?

二、MUSA 算子庫生態(tài):性能與廣度兼?zhèn)?

吳慶在演講中著重提到,算子庫的效率在分布式集群的訓練過程中扮演著關(guān)鍵角色,恰似汽車的引擎決定著汽車的動力表現(xiàn)。MUSA 算子庫在研發(fā)過程中,始終秉持著追求極致性能的理念,同時兼顧覆蓋廣度和兼容性,致力于為用戶提供豐富多元的選擇。?

MUSA 算子庫生態(tài)涵蓋三大算子庫。吳慶首先介紹了 muDNN,它堪稱是開箱即用的標準算子庫,功能十分全面,完整覆蓋常見的前向和反向算子,對完整的 XMMA、Tensor Core 全精度及所有量化模式等均提供支持。在性能數(shù)據(jù)上,其矩陣乘算子效率可達 98%,F(xiàn)lash Attention 算子效率能達到 95%,這些數(shù)據(jù)遠超行業(yè)平均水平,彰顯出強大的運算實力。在講解 FP8 GEMM 算子效率時,吳慶形象地比喻道,Per-Tensor scale 如同整面墻刷一種顏色,操作過程簡單直接;而 Per-Block scale 則像給墻上的小方塊刷不同顏色,復雜度明顯更高。但摩爾線程通過深度的軟硬協(xié)同優(yōu)化,成功使 Per-Block 與 Per-Tensor FP8 GEMM 計算效率差距控制在不到 2%,極大提升了復雜場景下的運算性能。?

接著,吳慶介紹了 MUTLASS,它作為高性能線性代數(shù)模板庫,已經(jīng)在 Github 開源。MUTLASS 支持平湖架構(gòu)所有特性,并且貼心地提供 Attention 最優(yōu)化示例,這一舉措極大降低了用戶自定義算子的開發(fā)工作量,讓開發(fā)者能夠更便捷地進行相關(guān)開發(fā)工作。最后,吳慶透露,即將發(fā)布的 MUSA AI Tensor Engine 是面向大語言模型的開源推理算子庫,它提供友好的 Python API,未來還將支持豐富后端,能夠助力開發(fā)者快速搭建自定義推理引擎,為大語言模型領(lǐng)域的開發(fā)工作帶來更多便利與可能。?

三、高性能通信技術(shù):避免通信搶占計算核心資源?

在大模型分布式訓練領(lǐng)域,通信問題一直是制約發(fā)展的主要瓶頸,猶如交通擁堵阻礙城市高效運轉(zhuǎn)。吳慶在演講中指出,摩爾線程在 MTT S5000 上支持 MTLINK 2.0,并創(chuàng)新性地配備 GPU 異步通信引擎,成功實現(xiàn)了通信技術(shù)與計算的高度并行,為解決這一瓶頸問題提供了有效方案。

圖:摩爾線程的異步通信引擎技術(shù)支持通過MTLink進行C2C數(shù)據(jù)通信


吳慶回顧道,早在之前,摩爾線程的技術(shù)團隊就敏銳洞察到通信與計算搶占 SM 計算單元這一行業(yè)痛點,經(jīng)過深入研究與技術(shù)攻關(guān),最終在 GPU 上成功增加了異步通信引擎。以 MTT S5000 服務(wù)器為例,每節(jié)點配備 8 張 GPU,通過 MTLINK 2.0 實現(xiàn)全互連,每張 GPU 與其他 7 張 GPU 直連。并且,每個 GPU 的異步通信引擎原生支持多種 reduce 操作和數(shù)據(jù)類型,還能借助 Zero Copy 技術(shù)避免本地 D2D 拷貝,直接進行跨卡通信,大大提升了通信效率。?

在通信性能方面,吳慶詳細列舉了相關(guān)數(shù)據(jù)?;谌ヂ?lián)(FC8)拓撲的高效通信算法,在單機 8 卡 All Reduce 場景中,將延遲從 Ring 算法的 53us 大幅降至 7.8us,縮減近 1/7;帶寬方面,單機 8 卡 All Reduce 帶寬利用率接近 85%,跨節(jié)點通信中,All Reduce 帶寬達 194GB/s,RDMA 通信帶寬利用率更是高達 97%。不僅如此,異步通信引擎的通信優(yōu)化將通信部分巧妙卸載到單獨引擎,不占用 MPC 計算資源,在無數(shù)據(jù)依賴時能夠?qū)崿F(xiàn)完全 overlap。吳慶特別提到,結(jié)合 MT Transformer Engine,這一優(yōu)化使 Llama 模型端到端計算通信性能提升約 10%,切實為大模型分布式訓練的高效運行提供了有力支撐。?

四、展望未來:首屆MUSA開發(fā)者大會即將啟幕

分享日最后,摩爾線程還宣布將于今年10月舉辦首屆MUSA開發(fā)者大會,進一步推動國產(chǎn)GPU生態(tài)建設(shè)。從芯片架構(gòu)到集群系統(tǒng),從技術(shù)突破到行業(yè)落地,摩爾線程正以“AI工廠”為藍圖,引領(lǐng)國產(chǎn)算力基礎(chǔ)設(shè)施邁向AGI時代的新高度。(完)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5283

    瀏覽量

    136105
  • MUSA
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    2184
  • 摩爾線程
    +關(guān)注

    關(guān)注

    2

    文章

    289

    瀏覽量

    6668
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    摩爾線程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩爾線程宣布,其基于TileLang 0.1.8版本深度優(yōu)化并已成為TileLang官方主線版本的TileLang-MUSA,已率先在國產(chǎn)全功能GPU上,實現(xiàn)對DeepSe
    的頭像 發(fā)表于 04-30 16:17 ?445次閱讀

    摩爾線程正式開源MuJoCo Warp MUSA

    3月30日,摩爾線程正式開源MuJoCo Warp MUSA。這是具身智能領(lǐng)域首個基于MUSA架構(gòu)的全功能GPU加速物理仿真后端,補齊了國產(chǎn)
    的頭像 發(fā)表于 04-01 10:40 ?2940次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>正式開源MuJoCo Warp <b class='flag-5'>MUSA</b>

    摩爾線程深耕國產(chǎn)算力生態(tài),共促科技和產(chǎn)業(yè)融合創(chuàng)新

    3月25日至29日,“科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合”為主題的2026中關(guān)村論壇年會在京舉行,匯聚來自100多個國家和地區(qū)的上千名嘉賓,共促創(chuàng)新與發(fā)展。
    發(fā)表于 03-29 18:52 ?1322次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>深耕國產(chǎn)算力生態(tài),共促科技和產(chǎn)業(yè)融合<b class='flag-5'>創(chuàng)新</b>

    摩爾線程正式開源TileLang-MUSA項目

    近日,摩爾線程正式開源TileLang-MUSA項目,實現(xiàn)對TileLang編程語言的完整支持。該項目已成功在摩爾線程多代全功能
    的頭像 發(fā)表于 02-11 16:57 ?1737次閱讀

    算力即國力!摩爾線程架構(gòu)/芯片/超節(jié)點/萬卡集群四連發(fā),助力打造AI國之重器

    2025)上,摩爾線程創(chuàng)始人、董事長兼CEO張建中表示:“算力即國力,我們希望能夠從芯片到集群‘加速計算’的能力,利用全功能
    的頭像 發(fā)表于 12-23 09:29 ?5776次閱讀
    算力即國力!<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>架構(gòu)/芯片/超節(jié)點/萬卡<b class='flag-5'>集群</b>四連發(fā),助力打造AI國之重器

    摩爾線程在MDC 2025重磅發(fā)布全創(chuàng)新成果

    12月20日,在首屆MUSA開發(fā)者大會上,摩爾線程創(chuàng)始人、董事長兼CEO張建中發(fā)表主題演講,系統(tǒng)展示了自主MUSA統(tǒng)一架構(gòu)為核心的全
    的頭像 發(fā)表于 12-22 18:04 ?1600次閱讀

    摩爾線程公布全功能GPU架構(gòu)路線圖:“花港”新架構(gòu)與萬卡訓練集群,開啟自主算力新時代

    2025年12月20日,北京——摩爾線程首屆MUSA開發(fā)者大會(簡稱:MDC 2025)在北京中關(guān)村國際創(chuàng)新中心正式開幕。作為國內(nèi)首個聚焦全功能GP
    發(fā)表于 12-20 12:51 ?1169次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>公布全功能<b class='flag-5'>GPU</b>架構(gòu)路線圖:<b class='flag-5'>以</b>“花港”新架構(gòu)與萬卡訓練<b class='flag-5'>集群</b>,開啟自主算力新時代

    國產(chǎn)GPU技術(shù)與生態(tài)雙重突破,摩爾線程舉辦首屆MUSA開發(fā)者大會

    2025年12月20日,摩爾線程首屆MUSA開發(fā)者大會(MDC 2025)于北京中關(guān)村國際創(chuàng)新中心正式開幕。本次大會自主
    發(fā)表于 12-20 12:45 ?2211次閱讀
    國產(chǎn)<b class='flag-5'>GPU</b><b class='flag-5'>技術(shù)</b>與生態(tài)雙重突破,<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>舉辦首屆<b class='flag-5'>MUSA</b>開發(fā)者大會

    摩爾線程新一代GPU架構(gòu)即將揭曉

    12月19日至20日,摩爾線程首屆MUSA開發(fā)者大會(MUSA Developer Conference,簡稱MDC 2025)將在北京中關(guān)村國際創(chuàng)
    的頭像 發(fā)表于 12-13 15:14 ?2224次閱讀

    摩爾線程發(fā)布Torch-MUSA v2.7.0版本

    近日,摩爾線程正式發(fā)布PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0,新版本在功能集成、性能優(yōu)化與硬件支持方面實現(xiàn)進一步突破。Torch-
    的頭像 發(fā)表于 12-04 09:05 ?1302次閱讀

    摩爾線程亮相GOTC 2025全球開源技術(shù)峰會

    。摩爾線程高級副總裁楊上山在主論壇發(fā)表《摩爾線程全功能GPU原生支持開源生態(tài)》的主題演講,系統(tǒng)闡述了摩爾
    的頭像 發(fā)表于 11-04 10:43 ?2306次閱讀

    摩爾線程發(fā)布Torch-MUSA v2.1.1版本

    近日,摩爾線程發(fā)布其面向PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.1.1。該版本在v2.1.0的基礎(chǔ)上,進一步擴展了對大規(guī)模深度學習模型訓練與推理的支持
    的頭像 發(fā)表于 09-10 11:02 ?1267次閱讀

    摩爾線程副總裁王華:AI工廠全技術(shù)重構(gòu)算力基建,開啟國產(chǎn) GPU 黃金時代

    摩爾線程在世界人工智能大會(WAIC 2025)前夕舉辦“算力進化,精度革命”為主題的技術(shù)分享會,創(chuàng)新性提出“AI工廠” 理念。這一系統(tǒng)性
    的頭像 發(fā)表于 08-02 14:21 ?5833次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>副總裁王華:AI工廠全<b class='flag-5'>棧</b><b class='flag-5'>技術(shù)</b>重構(gòu)算力基建,開啟國產(chǎn) <b class='flag-5'>GPU</b> 黃金時代

    摩爾線程亮相WAIC 2025:“AI工廠”理念驅(qū)動算力進化,全AI應(yīng)用賦能千行百業(yè)

    7月26日-29日,2025世界人工智能大會(WAIC)在上海舉辦。摩爾線程全功能GPU為核心的“云邊端”全AI產(chǎn)品和解決方案精彩亮相
    的頭像 發(fā)表于 07-28 11:34 ?2548次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>亮相WAIC 2025:<b class='flag-5'>以</b>“AI工廠”理念驅(qū)動算力進化,全<b class='flag-5'>棧</b>AI應(yīng)用賦能千行百業(yè)

    摩爾線程發(fā)布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。新版本基于MUSA
    的頭像 發(fā)表于 05-11 16:41 ?1916次閱讀
    启东市| 福安市| 镇赉县| 洪江市| 博爱县| 沿河| 宜宾县| 石楼县| 小金县| 大悟县| 巨鹿县| 聂荣县| 会泽县| 万盛区| 增城市| 弋阳县| 汶上县| 公主岭市| 宁陵县| 广饶县| 黄浦区| 昆山市| 科技| 黔西| 金堂县| 缙云县| 广安市| 嘉荫县| 平陆县| 丹东市| 惠来县| 文安县| 景泰县| 太仓市| 松阳县| 京山县| 漳浦县| 柘荣县| 西吉县| 永州市| 左云县|