日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SC11 FP300 MLA算子融合與優(yōu)化

算能開發(fā)者社區(qū) ? 2025-06-27 14:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeekV3的attention模塊采用了MLA(Multi-head Latent Attention,多頭潛注意力)結(jié)構(gòu),通過對(duì)attention過程中的Key和Value進(jìn)行低秩聯(lián)合壓縮,降低推理過程中需要的KV cache,提升推理效率。MLA對(duì)attention過程中的Query也進(jìn)行了低秩壓縮,可以減少訓(xùn)練過程中激活的內(nèi)存。

大模型的推理分為兩階段,處理所有輸入prompt并產(chǎn)生首個(gè)token的過程稱為prefill,此后至產(chǎn)生所有token結(jié)束推理的過程稱為decode,本文的MLA算子融合及優(yōu)化特指decode過程。

MLA的計(jì)算過程比較復(fù)雜,包括下投影、上投影、attention和輸出投影,為了減少數(shù)據(jù)搬運(yùn)和任務(wù)調(diào)度帶來的時(shí)間開銷,提升芯片效率,我們?cè)赟C11上,將上投影和attention過程融合成MLA大算子,如圖1所示。DeepSeekV3提供了兩種計(jì)算模式:na?ve和absorb,我們采用計(jì)算量更少的absorb方式實(shí)現(xiàn)MLA decode過程,步驟如下:

78750016-5320-11f0-986f-92fbcf53809c.png

788afe16-5320-11f0-986f-92fbcf53809c.png圖1-SC11 MLA decode融合算子示意圖

常用的attention并行部署方案有兩種,TP(Tensor Parallel,張量并行)和DP(Data parallel,數(shù)據(jù)并行)。TP將權(quán)重切分到多顆芯片,每顆芯片會(huì)重復(fù)加載KV cache。DP將數(shù)據(jù)按batch分配到多顆芯片,每顆芯片處理不同batch的數(shù)據(jù),但會(huì)重復(fù)加載權(quán)重。實(shí)際應(yīng)用過程中,可以根據(jù)權(quán)重和緩存的大小選擇并行部署方案,權(quán)重和緩存大小如表1所示。

表1 權(quán)重與緩存數(shù)據(jù)大小

789c0530-5320-11f0-986f-92fbcf53809c.png

#seqlen指所有batch數(shù)據(jù)序列長(zhǎng)度總和。

在SC11部署DeepSeekV3模型時(shí),由于應(yīng)用場(chǎng)景中的權(quán)重?cái)?shù)據(jù)多于KV cache數(shù)據(jù),所以MLA階段采用TP方案進(jìn)行部署,即將Query、Key和Value的上投影權(quán)重矩陣按head切分,部署到四張SC11。DeepSeekV3的參數(shù)中,上投影權(quán)重有128頭,因此每張板卡處理32頭。每顆芯片有多個(gè)核,上投影權(quán)重會(huì)繼續(xù)按head切分到多核。由于低秩的KV cache不包含head維度,無(wú)法對(duì)KV cache進(jìn)行TP,為了充分利用多核優(yōu)勢(shì),我們對(duì)MLA的實(shí)現(xiàn)方式進(jìn)行了探索,優(yōu)化了不同batch數(shù)目和序列長(zhǎng)度下的實(shí)現(xiàn)方案,如表2所示。

表2 MLA decode多核實(shí)現(xiàn)方案

78ad1bb8-5320-11f0-986f-92fbcf53809c.png

除了算子融合與動(dòng)態(tài)調(diào)用優(yōu)化后的實(shí)現(xiàn)方案,MLA的實(shí)現(xiàn)過程也采用了業(yè)界常用的Flash Attention和Page Attention等優(yōu)化方法,進(jìn)一步減少數(shù)據(jù)搬運(yùn)和內(nèi)存占用。在Page Attention過程中,我們采用兩塊buffer優(yōu)化KV cache搬運(yùn),使得數(shù)據(jù)搬運(yùn)和MLA計(jì)算同步進(jìn)行,優(yōu)化過程如圖2所示。圖中SDMA代表負(fù)責(zé)DDR和L2 SRAM之間或內(nèi)部的數(shù)據(jù)搬運(yùn)模塊,GDMA代表負(fù)責(zé)任意內(nèi)存之間數(shù)據(jù)搬運(yùn)的模塊,BDC代表負(fù)責(zé)數(shù)據(jù)計(jì)算的單元。

在時(shí)刻T0同時(shí)進(jìn)行兩個(gè)操作:

SDMA將batch 0以page方式存儲(chǔ)的KV cache從DDR搬到L2 SRAM中的Buffer0,形成連續(xù)存儲(chǔ)的緩存數(shù)據(jù);

GDMA將上投影權(quán)重從DDR搬到芯片的片上內(nèi)存(local memory)。

在時(shí)刻T1同時(shí)進(jìn)行三個(gè)操作:

SDMA將batch 1以page方式存儲(chǔ)的KV cache從DDR搬到L2 SRAM中的Buffer1,形成連續(xù)存儲(chǔ)的緩存數(shù)據(jù);

GDMA將Buffer0中連續(xù)存儲(chǔ)的batch 0的KV cache數(shù)據(jù)從L2 SRAM搬到localmemory;

BDC對(duì)batch 0進(jìn)行MLA計(jì)算。

時(shí)刻T2和T3的操作可依此類推。測(cè)試數(shù)據(jù)表明,在128 batch 512序列的decode過程,使用雙buffer優(yōu)化page attention實(shí)現(xiàn)過程后,可以節(jié)省30%的推理時(shí)間。

78b6566a-5320-11f0-986f-92fbcf53809c.png圖2-雙buffer優(yōu)化Page Attention實(shí)現(xiàn)過程

經(jīng)過融合與優(yōu)化后的MLA,助力了DeepSeekV3全流程的性能,當(dāng)模型處理128 batch數(shù)據(jù),每batch輸入序列長(zhǎng)度為128,輸出序列長(zhǎng)度為1024時(shí),DeepSeekV3全流程在4卡SC11上能達(dá)到532 token/s。

作者:周文婧,陳學(xué)儒,溫舉發(fā)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41319

    瀏覽量

    302703
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50366

    瀏覽量

    267056
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3797

    瀏覽量

    5279
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何用 STM32 + FP7208 + FP6195 打造一款真正的音樂律動(dòng)氛圍燈?

    ,燈光變化生硬,與音樂脫節(jié),難以營(yíng)造真正的沉浸感。針對(duì)這一問題,本文提出一套基于STM32主控、FP6195降壓芯片與FP7208升壓恒流芯片的智能燈控系統(tǒng)方案。系統(tǒng)融合無(wú)線通訊模塊與音頻分析算法,實(shí)現(xiàn)
    發(fā)表于 04-22 10:10

    嵌入式人工智能課程(華清遠(yuǎn)見)

    ,開發(fā)者將深入理解那些讓性能飆升的底層邏輯: 1. 算子融合:打破內(nèi)存壁壘 深度學(xué)習(xí)模型由無(wú)數(shù)個(gè)算子組成,傳統(tǒng)方式下,每個(gè)算子計(jì)算完都要把數(shù)據(jù)寫回內(nèi)存,再由下一個(gè)
    發(fā)表于 04-16 18:47

    如何用 STM32 + FP7208 + FP6195 打造一款真正的音樂律動(dòng)氛圍燈?

    變化生硬,與音樂脫節(jié),難以營(yíng)造真正的沉浸感。 針對(duì)這一問題,本文提出一套基于STM32主控、FP6195降壓芯片與FP7208升壓恒流芯片的智能燈控系統(tǒng)方案。系統(tǒng)融合無(wú)線通訊模塊與音頻分析算法,實(shí)現(xiàn)燈光隨音樂節(jié)奏精準(zhǔn)變化,并通過
    發(fā)表于 04-08 14:04

    深入解析Atmel AT88SC0204CA CryptoMemory:安全與性能的完美融合

    深入解析Atmel AT88SC0204CA CryptoMemory:安全與性能的完美融合 引言 在當(dāng)今數(shù)字化的時(shí)代,數(shù)據(jù)安全和存儲(chǔ)需求變得至關(guān)重要。Atmel的AT88SC
    的頭像 發(fā)表于 04-06 09:05 ?339次閱讀

    深入解析Atmel AT88SC118 CryptoCompanion芯片:安全與性能的完美融合

    深入解析Atmel AT88SC118 CryptoCompanion芯片:安全與性能的完美融合 在電子設(shè)計(jì)領(lǐng)域,安全與性能始終是工程師們追求的兩大核心目標(biāo)。Atmel AT88SC
    的頭像 發(fā)表于 04-05 15:55 ?702次閱讀

    探秘DS5002FP安全微處理器芯片:安全與性能的完美融合

    探秘DS5002FP安全微處理器芯片:安全與性能的完美融合 在當(dāng)今數(shù)字化時(shí)代,數(shù)據(jù)安全和處理性能是電子設(shè)備設(shè)計(jì)中至關(guān)重要的兩個(gè)方面。DS5002FP安全微處理器芯片作為一款卓越的產(chǎn)品,在這兩方面都有
    的頭像 發(fā)表于 03-24 16:05 ?172次閱讀

    ADSP-21593/21594/ADSP-SC592/SC594處理器:高性能與多功能的完美融合

    ADSP-21593/21594/ADSP-SC592/SC594處理器:高性能與多功能的完美融合 在當(dāng)今的電子設(shè)計(jì)領(lǐng)域,對(duì)于高性能、多功能處理器的需求日益增長(zhǎng)。ADSP-21593/21594
    的頭像 發(fā)表于 03-23 16:50 ?660次閱讀

    探秘MLA1812NR壓敏電阻系列:汽車級(jí)表面貼裝的可靠之選

    探秘MLA1812NR壓敏電阻系列:汽車級(jí)表面貼裝的可靠之選 在電子工程師的日常設(shè)計(jì)工作中,為電路選擇合適的保護(hù)元件至關(guān)重要。今天,我們就來詳細(xì)了解一下Littelfuse的MLA
    的頭像 發(fā)表于 12-15 16:40 ?491次閱讀

    一文講清真相,臺(tái)灣遠(yuǎn)翔FP6291為何要分成G11與G12?

    近期市場(chǎng)關(guān)注的FP6291型號(hào)變更(從G1到G11/G12)實(shí)為一項(xiàng)提升產(chǎn)品一致性的技術(shù)優(yōu)化。本文旨在說明:分檔并非質(zhì)量分級(jí),而是通過精密測(cè)試對(duì)關(guān)鍵參數(shù)進(jìn)行分類,使終端應(yīng)用獲得更穩(wěn)定的性能表現(xiàn)。G
    的頭像 發(fā)表于 12-11 17:43 ?1604次閱讀
    一文講清真相,臺(tái)灣遠(yuǎn)翔<b class='flag-5'>FP</b>6291為何要分成G<b class='flag-5'>11</b>與G12?

    國(guó)產(chǎn)遠(yuǎn)翔FP6291的G11和G12,到底有什么區(qū)別?

    近期市場(chǎng)關(guān)注的FP6291型號(hào)變更(從G1到G11/G12)實(shí)為一項(xiàng)提升產(chǎn)品一致性的技術(shù)優(yōu)化。本文旨在說明:分檔并非質(zhì)量分級(jí),而是通過精密測(cè)試對(duì)關(guān)鍵參數(shù)進(jìn)行分類,使終端應(yīng)用獲得更穩(wěn)定的性能表現(xiàn)
    的頭像 發(fā)表于 12-10 09:19 ?735次閱讀
    國(guó)產(chǎn)遠(yuǎn)翔<b class='flag-5'>FP</b>6291的G<b class='flag-5'>11</b>和G12,到底有什么區(qū)別?

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(第9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作為工業(yè)自動(dòng)化領(lǐng)域主流開發(fā)環(huán)境,LabVIEW與深度學(xué)習(xí)的集成
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業(yè)優(yōu)化版(第9系列),滿足產(chǎn)線端設(shè)備算力限制,模型推理速度提升300%。 LabVIEW生態(tài)整合 作為工業(yè)自動(dòng)化領(lǐng)域主流開發(fā)環(huán)境,LabVIEW與深度學(xué)習(xí)的集成
    發(fā)表于 12-03 13:50

    遠(yuǎn)翔的FP6291的G11和G12,到底有什么區(qū)別?

    分檔≠分級(jí)、分檔 =精篩選 “要理解分檔,核心在于一個(gè)參數(shù)——“輸入限流值”。 遠(yuǎn)翔的FP6291具有輸入限流功能,可通過對(duì)芯片的OC腳對(duì)地加電阻實(shí)現(xiàn)輸入限流可調(diào)功能。 分檔不是分級(jí),G11與G12
    發(fā)表于 12-02 15:14

    UWB自動(dòng)跟隨技術(shù)原理、算法融合優(yōu)化和踩坑實(shí)錄

    UWB為什么是最靠譜的自動(dòng)跟隨技術(shù)?原理是什么?需要做什么算法融合、優(yōu)化?我們?cè)陂_發(fā)過程中踩過的坑。
    的頭像 發(fā)表于 08-14 17:45 ?1810次閱讀
    UWB自動(dòng)跟隨技術(shù)原理、算法<b class='flag-5'>融合</b><b class='flag-5'>優(yōu)化</b>和踩坑實(shí)錄

    進(jìn)迭時(shí)空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實(shí)踐

    Pytorch已能做到100%替換CUDA,國(guó)內(nèi)也有智源研究院主導(dǎo)的FlagGems通用算子庫(kù)試圖構(gòu)建起不依賴CUDA的AI計(jì)算生態(tài),截至今日,F(xiàn)lagGems已進(jìn)入Pyto
    的頭像 發(fā)表于 07-15 09:04 ?2254次閱讀
    進(jìn)迭時(shí)空同構(gòu)<b class='flag-5'>融合</b>RISC-V AI CPU的Triton<b class='flag-5'>算子</b>編譯器實(shí)踐
    五常市| 鄂尔多斯市| 宣恩县| 体育| 利川市| 黔西县| 尉犁县| 孝感市| 张掖市| 石棉县| 西林县| 体育| 和静县| 彰化市| 蒙山县| 长沙市| 浑源县| 南溪县| 通榆县| 安溪县| 黄龙县| 资溪县| 仙游县| 石泉县| 宿州市| 磴口县| 龙州县| 通化市| 莫力| 天台县| 灵丘县| 宁南县| 宁夏| 靖江市| 莫力| 彭阳县| 达州市| 玉山县| 偏关县| 铅山县| 浑源县|