日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探索DeepSeek多樣化技術(shù)路徑,英特爾架構(gòu)師用至強(qiáng)CPU嘗鮮

話說(shuō)科技 ? 來(lái)源:話說(shuō)科技 ? 作者:話說(shuō)科技 ? 2026-02-05 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期大模型領(lǐng)域里最火的熱詞,或者說(shuō)技術(shù)創(chuàng)新點(diǎn),非Engram (DeepSeek最新論文里設(shè)計(jì)的Engram機(jī)制) 莫屬。今天我們想分享的,是英特爾圍繞Engram開(kāi)展的早期探索——用至強(qiáng)? 處理器獨(dú)立運(yùn)行整個(gè)Engram模塊,并使用其內(nèi)置的英特爾? AMX(高級(jí)矩陣擴(kuò)展)技術(shù)對(duì)其進(jìn)行加速的初步成果或收獲。

我們希望這次分享,或能作為參考,或是作為開(kāi)端,能為未來(lái)Engram以及集成它的大模型的部署和實(shí)踐,拓展和探明更多可能性及隨之而來(lái)的潛在應(yīng)用優(yōu)勢(shì)。

Engram設(shè)計(jì)初衷:

讓大模型走向“查算分離”

讓我們先簡(jiǎn)單回顧Engram的源起,它出現(xiàn)在公眾視野,是源自DeepSeek聯(lián)合北京大學(xué)發(fā)布的論文《Conditional Memory via Scalable Lookup》。業(yè)界對(duì)它的評(píng)價(jià),是為“破解萬(wàn)物皆推理”模式引發(fā)的大模型的記憶困境提供了全新思路。這里提到的記憶困境,指的是寶貴的算力被消耗在本可直接調(diào)取的靜態(tài)知識(shí)檢索上,這不僅會(huì)拖慢響應(yīng)速度、增加推理成本,還讓大模型在復(fù)雜任務(wù)上的性能突破陷入瓶頸。

該論文創(chuàng)新地在大模型中提出了“查算分離”理念,通過(guò)Engram引入外置記憶模塊,將“靜態(tài)、常見(jiàn)、局部”的知識(shí)從計(jì)算里解放出來(lái),在拉升檢索效率至O(1)復(fù)雜度的同時(shí),也把寶貴的算力資源留給Transformer專心做上下文理解和推理。

Engram核心創(chuàng)新:

用“外置記憶模塊”實(shí)現(xiàn)查算分離理念

Engram將“查算分離”落到實(shí)處的做法,就是把大模型里的“計(jì)算”和“超大規(guī)模記憶”解耦,Transformer的算子全部在GPU/加速卡上計(jì)算,而龐大的Engram Embedding表放在CPU內(nèi)存或高速存儲(chǔ)設(shè)備上存查。如圖1所示,GPU與CPU分工合作并通過(guò)異步方式協(xié)同,GPU執(zhí)行前一步計(jì)算的同時(shí),CPU可提前預(yù)取后續(xù)計(jì)算所需的N-gram Embedding表,當(dāng)計(jì)算執(zhí)行到“Transformer Block with Engram”時(shí),所需的靜態(tài)知識(shí)已經(jīng)就位。

這種分工模式改變了傳統(tǒng)大模型“推理既要計(jì)算又要記憶”的狀態(tài),就像給學(xué)者配備了一本可即時(shí)查閱的百科詞典,無(wú)需每次都從頭推導(dǎo)基礎(chǔ)知識(shí)點(diǎn),而是將精力集中在深度思考上。

wKgZPGmECsuASTw8AABORamL8tc639.png

圖1 大模型通過(guò)集成Engram實(shí)現(xiàn)查算分離

同時(shí)基于這一設(shè)計(jì),Engram能充分利用CPU平臺(tái)對(duì)大容量?jī)?nèi)存的有效支持,將“超大規(guī)模記憶”部分卸載至CPU平臺(tái)上。論文數(shù)據(jù)提到:“將 1000 億參數(shù)的表卸載至CPU內(nèi)存時(shí),僅產(chǎn)生可忽略的開(kāi)銷(小于 3%)?!?這表明,Engram 能有效突破GPU顯存限制,為大規(guī)模參數(shù)擴(kuò)展提供支持,從而為大模型用戶帶來(lái)顯性收益。i

Engram計(jì)算流程解析

如圖2所示,在Engram的計(jì)算架構(gòu)中,其被嵌入Transformer主干網(wǎng)絡(luò),有以下幾個(gè)主要工作階段:

wKgZO2mECsyAEBbGAACdO5Ic46E119.png

圖2 Engram計(jì)算架構(gòu)及核心工作流程

N-gram哈希檢索階段:模塊對(duì)輸入序列提取2-gram、3-gram等不同子序列(如圖中的“the Great”、“Alexander the Great”),每個(gè)子序列對(duì)應(yīng)其階數(shù)的多頭哈希機(jī)制,從預(yù)構(gòu)建的靜態(tài)N-gram 嵌入表(如圖中的2-Gram Embedding、3-Gram Embedding表)中以O(shè) (1)復(fù)雜度查詢對(duì)應(yīng)嵌入。

動(dòng)態(tài)門控融合階段:N-gram 嵌入表先經(jīng)Concat(通道拼接)形成融合記憶向量,再通過(guò)兩個(gè)Linear(線性轉(zhuǎn)換)層分別投影為Key(記憶語(yǔ)義摘要)與Value(待注入信息)。隨后將當(dāng)前Transformer層的Input Hidden(全局上下文)與 Key 做 Scaled Dot Product (點(diǎn)積計(jì)算)生成門控權(quán)重,動(dòng)態(tài)過(guò)濾與上下文無(wú)關(guān)的Value信息。加權(quán)后的Value再通過(guò)Conv卷積計(jì)算完成局部融合。

殘差集成階段:局部融合后的記憶特征通過(guò)加法操作,殘差加回該Transformer Block的輸入,并直接輸入后續(xù)的Attention與MoE層。

英特爾的探索:

用CPU獨(dú)立運(yùn)行及加速整個(gè)Engram模塊

在Engram相關(guān)論文發(fā)表,DeepSeek開(kāi)源上述流程的Demo代碼后,不少業(yè)內(nèi)專家和機(jī)構(gòu)都開(kāi)展了相關(guān)的復(fù)現(xiàn)、驗(yàn)證及測(cè)試工作。我們的探索則更進(jìn)一步——不同于原論文中Concat之后的工作任務(wù)將交還給GPU執(zhí)行,我們不僅將N-gram哈希檢索階段的計(jì)算放在至強(qiáng)? 平臺(tái)上執(zhí)行,還將動(dòng)態(tài)門控融合階段中的Linear轉(zhuǎn)換計(jì)算和Conv卷積計(jì)算也放到該平臺(tái)上運(yùn)行。換言之,我們是基于充分的性能調(diào)優(yōu),嘗試用CPU平臺(tái)獨(dú)立運(yùn)行和加速整個(gè)Engram模塊。

這種“更進(jìn)一步”的底氣,來(lái)自AMX技術(shù),這是從第四代英特爾? 至強(qiáng)? 可擴(kuò)展處理器開(kāi)始就內(nèi)置于至強(qiáng)? 處理器,且到目前為止也是全球主流服務(wù)器CPU產(chǎn)品中僅為該產(chǎn)品線所獨(dú)有的CPU內(nèi)置型矩陣計(jì)算加速技術(shù)。無(wú)論是Linear轉(zhuǎn)換計(jì)算還是Conv卷積計(jì)算,都屬于矩陣密集型計(jì)算,因此,理論上內(nèi)置AMX的至強(qiáng)? 處理器可以“順勢(shì)”完成整個(gè)Engram的運(yùn)行和加速。

wKgZPGmECsyAPz3iAADAZIXTDys42.jpeg

圖3 從Engram原有工作流程轉(zhuǎn)向用CPU運(yùn)行整個(gè)模塊并導(dǎo)入AMX加速

基于此,我們著手在Linear轉(zhuǎn)換計(jì)算和Conv卷積計(jì)算中利用AMX技術(shù)開(kāi)展了性能加速。具體來(lái)說(shuō),在Engram中,兩個(gè)Linear轉(zhuǎn)換計(jì)算分別需要處理大量維度映射的矩陣乘法,而AMX的專用矩陣計(jì)算單元可并行處理多批次、長(zhǎng)序列的高維矩陣乘法,且單條指令可完成更大規(guī)模的矩陣運(yùn)算,運(yùn)算效率遠(yuǎn)超傳統(tǒng)CPU計(jì)算或向量計(jì)算(如AVX-512)。在Conv的 short_conv(短卷積)計(jì)算中,AMX的矩陣運(yùn)算能力也可針對(duì)短卷積的“小窗口、高并行” 特性實(shí)現(xiàn)優(yōu)化。此外,AMX還對(duì)BF16/FP16/INT8等不同的數(shù)據(jù)格式有著良好支持,能進(jìn)一步提升矩陣運(yùn)算加速的性能與靈活性。

我們目前已完成了一些初步測(cè)試,如圖4和圖5所示,其結(jié)果表明,在同一款至強(qiáng)? 6處理器平臺(tái)上,如果使用AVX-512加速,在batch size等于50,token length等于14的FP16數(shù)據(jù)格式下,整個(gè)Engram的耗時(shí)需要10.046ms, 而使用AMX來(lái)加速Linear轉(zhuǎn)換計(jì)算和Conv卷積計(jì)算,Engram的耗時(shí)只要6.022ms,整體性能提升至AVX-512的1.67倍ii。

wKgZO2mECsyAYSMjAABWPnzMbbI05.jpeg

圖4 測(cè)試得出的在FP16數(shù)據(jù)格式下分別用AMX 和AVX-512加速的執(zhí)行時(shí)間

(每次測(cè)試結(jié)果都可能存在少許浮動(dòng),在可接受范圍)

wKgZPGmECs2AMkgGAACPpdeItB0171.png

圖5 用英特爾? AMX加速Engram模塊中Linear和卷積計(jì)算的性能表現(xiàn)

上述探索和測(cè)試是基于DeepSeek開(kāi)源的deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models的相關(guān)代碼,歡迎同行們一起討論交流。

接下來(lái)英特爾會(huì)繼續(xù)圍繞Engram及集成它的大模型開(kāi)展更多、更為深入的探索,特別是在DeepSeek相關(guān)模型正式發(fā)布后,我們會(huì)更為全面、系統(tǒng)地評(píng)估CPU獨(dú)立運(yùn)行和加速Engram模塊會(huì)對(duì)整個(gè)模型的端到端性能、部署和應(yīng)用的門檻,以及投資回報(bào)等維度帶來(lái)怎樣的影響,相關(guān)進(jìn)展與成果也將在第一時(shí)間分享。

正如開(kāi)篇所說(shuō),我們相信這些工作與Engram的設(shè)計(jì)初衷是相向而行的,即在用 “查算分離” 理念打破傳統(tǒng)大模型的記憶困境的同時(shí),也讓AI基礎(chǔ)設(shè)施中的GPU和CPU實(shí)現(xiàn)更好的協(xié)作,并充分釋放它們各自的潛能,進(jìn)而大幅提升AI系統(tǒng)的部署效率及投資回報(bào),或者進(jìn)一步拉低AI部署與實(shí)踐的成本或門檻。我們的工作,就是希望能為這一目標(biāo)的達(dá)成拓展出更為多樣化的技術(shù)路徑與更強(qiáng)的靈活性。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10326

    瀏覽量

    181123
  • 架構(gòu)師
    +關(guān)注

    關(guān)注

    0

    文章

    48

    瀏覽量

    4936
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    855

    瀏覽量

    3413
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    超越臺(tái)積電?英特爾首個(gè)18A工藝芯片邁向大規(guī)模量產(chǎn)

    Lake作為英特爾首款基于Intel 18A制程工藝打造的產(chǎn)品,意義非凡。這一制程是英特爾研發(fā)并制造的最先進(jìn)半導(dǎo)體工藝,標(biāo)志著英特爾技術(shù)領(lǐng)域邁出了關(guān)鍵一步。 ?
    的頭像 發(fā)表于 10-11 08:14 ?9428次閱讀
    超越臺(tái)積電?<b class='flag-5'>英特爾</b>首個(gè)18A工藝芯片邁向大規(guī)模量產(chǎn)

    AI工作站本地養(yǎng)龍蝦!英特爾雙芯混合算力,告別云端Token焦慮

    4月23日,英特爾公司在北京舉辦新一代AI工作站平臺(tái)發(fā)布會(huì),英特爾中國(guó)區(qū)技術(shù)部總經(jīng)理高宇宣布,面向AI工作站,英特爾推出兩大重磅產(chǎn)品:英特爾
    的頭像 發(fā)表于 04-26 16:27 ?1w次閱讀
    AI工作站本地養(yǎng)龍蝦!<b class='flag-5'>英特爾</b>雙芯混合算力,告別云端Token焦慮

    英特爾“智能體PC”登場(chǎng):AI硬件革命邁入混合架構(gòu)新紀(jì)元

    近日,在AI技術(shù)從云端向終端加速滲透的轉(zhuǎn)折點(diǎn)上,英特爾在北京舉辦的混合AI部署方案分享會(huì)上拋出一枚重磅炸彈——正式提出“智能體PC”概念。這一被定義為“AI PC進(jìn)階形態(tài)”的新物種,不僅重新定義了
    的頭像 發(fā)表于 04-22 10:36 ?559次閱讀

    英特爾至強(qiáng)6“芯”動(dòng)GTC 2026,為英偉達(dá)DCG Rubin解鎖系統(tǒng)級(jí)性能

    的關(guān)鍵階段,至強(qiáng)系列處理器為GPU加速AI系統(tǒng),提供架構(gòu)一致性與強(qiáng)大擴(kuò)展能力所發(fā)揮的重要支撐作用。 英特爾公司副總裁兼數(shù)據(jù)中心戰(zhàn)略項(xiàng)目總經(jīng)理Jeff McVeigh表示: “當(dāng)前,AI發(fā)展正從大規(guī)模訓(xùn)練加速階段,轉(zhuǎn)向由智能體AI
    的頭像 發(fā)表于 03-19 16:43 ?421次閱讀

    英特爾與華陽(yáng)通用聯(lián)手推出全新AI Box解決方案

    英特爾宣布推出基于最新英特爾 酷睿 Ultra 架構(gòu)的AI Box解決方案,將PC級(jí)旗艦算力引入汽車、工業(yè)自動(dòng)、軌道交通、機(jī)器人等多種工業(yè)環(huán)境,為各行各業(yè)接入AI大模型提供高效靈活的
    的頭像 發(fā)表于 03-02 14:15 ?784次閱讀

    英特爾288核新至強(qiáng)處理器揭秘:Intel 18A制程,3D堆疊與鍵合,EMIB封裝……

    ? 近日,在Hot Chips 2025大會(huì)舉行期間,英特爾新一代至強(qiáng)處理器?Clearwater Forest首次亮相,這是英特爾基于Intel 18A制程打造的首款服務(wù)器芯片。會(huì)上,英特爾
    的頭像 發(fā)表于 08-29 15:59 ?2054次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實(shí)現(xiàn)從模型訓(xùn)練的深度突破到推理部署的實(shí)時(shí)響應(yīng),為大模型的加速落地提供
    的頭像 發(fā)表于 08-26 19:18 ?3354次閱讀
    <b class='flag-5'>英特爾</b>Gaudi 2E AI加速器為<b class='flag-5'>DeepSeek</b>-V3.1提供加速支持

    英特爾連通愛(ài)爾蘭Fab34與Fab10晶圓廠,加速先進(jìn)制程芯片生產(chǎn)進(jìn)程

    決定連通愛(ài)爾蘭的Fab 34與Fab 10晶圓廠。 ? 目前,英特爾先進(jìn)制程技術(shù)Intel 4/3的主要生產(chǎn)重?fù)?dān),落在了位于愛(ài)爾蘭萊克斯利普的Fab 34晶圓廠肩頭。這一晶圓廠對(duì)于英特爾至關(guān)重要,當(dāng)下熱門的
    的頭像 發(fā)表于 08-25 15:05 ?1105次閱讀

    英特爾至強(qiáng)6助力阿里云第九代企業(yè)級(jí)ECS實(shí)例100天贏得超萬(wàn)家客戶青睞

    近日,搭載英特爾? 至強(qiáng)? 6性能核處理器的阿里云第九代企業(yè)級(jí)ECS實(shí)例g9i正式迎來(lái)商業(yè)100天里程碑,并獲得超過(guò)10,000家客戶的信賴與選擇。通過(guò)全場(chǎng)景的卓越性能提升,至強(qiáng)6性
    的頭像 發(fā)表于 07-29 15:44 ?702次閱讀

    看點(diǎn):AMD服務(wù)器CPU市場(chǎng)份額追上英特爾 華為Mate80主動(dòng)散熱專利曝光

    給大家?guī)?lái)一些業(yè)界資訊: AMD服務(wù)器CPU市場(chǎng)份額追上英特爾 根據(jù)市場(chǎng)研究機(jī)構(gòu)PassMark的統(tǒng)計(jì)分析數(shù)據(jù)顯示,AMD 公司在服務(wù)器CPU 市場(chǎng)取得重大進(jìn)展,市占率首次達(dá)到50%,與競(jìng)爭(zhēng)對(duì)手
    的頭像 發(fā)表于 07-25 14:41 ?1378次閱讀
    看點(diǎn):AMD服務(wù)器<b class='flag-5'>CPU</b>市場(chǎng)份額追上<b class='flag-5'>英特爾</b> 華為Mate80主動(dòng)散熱專利曝光

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    問(wèn)題,又像橫在發(fā)展路上的巨石,提醒我技術(shù)創(chuàng)新并非坦途,新架構(gòu)在帶來(lái)優(yōu)勢(shì)的同時(shí),也會(huì)伴隨新挑戰(zhàn)。 五、小結(jié) 讀完第三章,DeepSeek - V3 的技術(shù)剖析讓我從
    發(fā)表于 07-20 15:07

    主控CPU全能選手,英特爾至強(qiáng)6助力AI系統(tǒng)高效運(yùn)轉(zhuǎn)

    2025年3月,英偉達(dá)發(fā)布了DGX B300 AI加速計(jì)算平臺(tái)。2025年5月,英特爾發(fā)布了三款全新英特爾至強(qiáng)6性能核處理器,其中一款6776P被用作是DGX B300的主控CPU,這
    的頭像 發(fā)表于 06-27 11:44 ?1053次閱讀
    主控<b class='flag-5'>CPU</b>全能選手,<b class='flag-5'>英特爾</b><b class='flag-5'>至強(qiáng)</b>6助力AI系統(tǒng)高效運(yùn)轉(zhuǎn)

    術(shù)業(yè)有專攻——AI系統(tǒng)主控CPU英特爾至強(qiáng)6新品處理器淺析

    一、至強(qiáng)6與NVIDIA GPU?協(xié)同的硬件基礎(chǔ) 在 AI 異構(gòu)計(jì)算架構(gòu)中,英特爾至強(qiáng)6處理器作為主控CPU可以與NVIDIA最新GPU 很
    的頭像 發(fā)表于 06-19 16:37 ?947次閱讀
    術(shù)業(yè)有專攻——AI系統(tǒng)主控<b class='flag-5'>CPU</b><b class='flag-5'>英特爾</b><b class='flag-5'>至強(qiáng)</b>6新品處理器淺析

    分析英特爾轉(zhuǎn)型之路,機(jī)遇與挑戰(zhàn)并存

    內(nèi)容編譯自投資分析Oliver Rodzianko觀點(diǎn)文章 作為一名長(zhǎng)期關(guān)注英特爾發(fā)展的投資者,我對(duì)陳立武(Lip-Bu Tan)出任英特爾 CEO充滿期待。陳立武的管理風(fēng)格兼具魄力與戰(zhàn)略眼光
    的頭像 發(fā)表于 06-10 10:59 ?706次閱讀
    分析<b class='flag-5'>師</b>:<b class='flag-5'>英特爾</b>轉(zhuǎn)型之路,機(jī)遇與挑戰(zhàn)并存

    【書籍評(píng)測(cè)活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù)DeepSeek 核心技術(shù)揭秘

    DeepSeek-V3技術(shù)突破 DeepSeek-V3 的模型架構(gòu)整體上基于 Transformer 的 MoE 架構(gòu),并在細(xì)節(jié)實(shí)現(xiàn)上做了
    發(fā)表于 06-09 14:38
    仁怀市| 延长县| 南澳县| 永顺县| 内黄县| 博客| 额敏县| 衡阳市| 元江| 交城县| 乌恰县| 弋阳县| 明水县| 图们市| 台州市| 武穴市| 台中市| 昆山市| 山丹县| 黄龙县| 宁明县| 天柱县| 宜兰县| 沁阳市| 汉阴县| 宜城市| 沙河市| 刚察县| 阿拉善右旗| 弥勒县| 鄂伦春自治旗| 体育| 闸北区| 白玉县| 汕头市| 大城县| 仲巴县| 孟津县| 六枝特区| 昌都县| 依兰县|