日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MIT的SpAtten架構(gòu)將注意力機(jī)制用于高級(jí)NLP

星星科技指導(dǎo)員 ? 來源:嵌入式計(jì)算設(shè)計(jì) ? 作者:Saumitra Jagdale ? 2022-07-01 10:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

處理人工生成的文本數(shù)據(jù)一直是一項(xiàng)重要但具有挑戰(zhàn)性的任務(wù),因?yàn)槿祟愓Z言對(duì)于機(jī)器理解往往具有自然的魯棒性。

盡管如此,仍然有許多高效的 NLP 模型,例如 Google 的 BERT 和 Open AI 的 GPT2,它們的功能是通過高級(jí)處理和計(jì)算來理解這些數(shù)據(jù)。這些模型在搜索引擎中找到了它們的應(yīng)用,因?yàn)樗阉髅钚枰c相關(guān)的來源和頁面匹配,而與術(shù)語的性質(zhì)無關(guān)。

麻省理工學(xué)院的 SpAtten 學(xué)習(xí)系統(tǒng)通過其優(yōu)化的軟件硬件設(shè)計(jì)專注于高效的搜索預(yù)測(cè),從而以更少的計(jì)算能力進(jìn)行高級(jí)自然語言處理。因此,SpAtten 系統(tǒng)的架構(gòu)取代了高端 CPUGPU 的組合,它們共同輸出類似于 MIT 的 SpAtten 學(xué)習(xí)系統(tǒng)的效率。

SpAtten 學(xué)習(xí)系統(tǒng)中的注意力機(jī)制

當(dāng)數(shù)據(jù)量大時(shí),注意力機(jī)制在自然語言處理中起著至關(guān)重要的作用。特別是在文本數(shù)據(jù)包含對(duì)建??赡懿皇呛苤匾母鞣N特征的情況下。這可能會(huì)浪費(fèi)系統(tǒng)的整體計(jì)算。因此,神經(jīng)網(wǎng)絡(luò)輸入層中的注意力機(jī)制從文本數(shù)據(jù)中動(dòng)態(tài)提取相關(guān)特征,可以優(yōu)化算法在廣泛數(shù)據(jù)集上的處理。

SpAtten 使用注意力機(jī)制算法去除在 NLP 方面權(quán)重較小的單詞。因此,它有選擇地從輸入的文本數(shù)據(jù)中挑選出相關(guān)的關(guān)鍵詞。這避免了對(duì)不必要的文本數(shù)據(jù)的實(shí)時(shí)處理,從而節(jié)省了系統(tǒng)的整體計(jì)算時(shí)間。然而,這種處理提供了效率和準(zhǔn)確性,但它的代價(jià)是設(shè)計(jì)良好的硬件與這種復(fù)雜的算法兼容。

因此,麻省理工學(xué)院一直致力于其新 SpAtten 學(xué)習(xí)系統(tǒng)的軟件和硬件方面。設(shè)計(jì)的硬件致力于優(yōu)化這些復(fù)雜的算法,以減少處理和內(nèi)存訪問。這些技術(shù)在用于文本數(shù)據(jù)時(shí)克服了構(gòu)建具有高效處理速度和能力的系統(tǒng)的挑戰(zhàn)。因此,硬件“以更少的計(jì)算能力實(shí)現(xiàn)了精簡(jiǎn)的 NLP”。

SpAtten 架構(gòu)的優(yōu)化技術(shù)

循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)被認(rèn)為是深度學(xué)習(xí)模型的理想選擇,但麻省理工學(xué)院關(guān)于“SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究論文讓我們注意到注意力機(jī)制可以比這些網(wǎng)絡(luò)表現(xiàn)更好,如前一部分所述。

該架構(gòu)支持級(jí)聯(lián)修剪技術(shù),該技術(shù)對(duì)令牌??和頭進(jìn)行操作,而不是傳統(tǒng)方法中使用的權(quán)重。正如術(shù)語“剪枝”暗示移除令牌一樣,一旦從層中移除令牌/頭,那么它將永遠(yuǎn)不會(huì)在后續(xù)層中被處理,因?yàn)樗挥谰谩凹糁Α被驈南到y(tǒng)中移除。這就是為什么優(yōu)化數(shù)據(jù)的實(shí)時(shí)處理并且系統(tǒng)適應(yīng)輸入實(shí)例的原因。

該系統(tǒng)使用漸進(jìn)式量化技術(shù)來減少 DRAM 訪問。僅當(dāng) MSB 不足以執(zhí)行量化時(shí),該技術(shù)才對(duì) LSB 起作用。然而,這是以計(jì)算為代價(jià)的,但內(nèi)存訪問顯著減少。因此,它使注意力層動(dòng)態(tài)和自適應(yīng)以優(yōu)化 DRAM 訪問。該系統(tǒng)還帶有內(nèi)置的 SRAM,用于存儲(chǔ)可在眾多查詢中重復(fù)使用的已刪除令牌。

通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高計(jì)算能力也無法實(shí)現(xiàn)這些技術(shù),因?yàn)檫@些組件只能增強(qiáng)現(xiàn)有的傳統(tǒng)神經(jīng)網(wǎng)絡(luò),包括 CNN 和 RNN。因此,麻省理工學(xué)院設(shè)計(jì)了專門的硬件來實(shí)現(xiàn)這些優(yōu)化算法。

SpAtten 學(xué)習(xí)系統(tǒng)的分析

SpAtten 硬件架構(gòu)的模擬揭示了其與競(jìng)爭(zhēng)處理器相比的高處理能力。麻省理工學(xué)院表示:“SpAtten 的運(yùn)行速度比第二好的競(jìng)爭(zhēng)對(duì)手(TITAN Xp GPU)快 100 倍以上。此外,SpAtten 的能源效率是其競(jìng)爭(zhēng)對(duì)手的 1000 多倍,這表明 SpAtten 可以幫助減少 NLP 的大量電力需求?!?/p>

Google 的 BERT 和 Open AI 的 GPT2 模型也使用類似的注意力機(jī)制,但是復(fù)雜的判別和生成技術(shù)會(huì)導(dǎo)致延遲和延遲。MIT 的 SpAtten 是 NLP 算法和專用于注意力機(jī)制的專用硬件的組合。這種組合控制了標(biāo)準(zhǔn) CPU 在 GPT-2 或 BERT 上運(yùn)行時(shí)消耗的高功耗。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    20355

    瀏覽量

    255446
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5302

    瀏覽量

    136151
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5612

    瀏覽量

    124695
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    ;語境下會(huì)生成不同的向量表示。 音頻模態(tài) :Mel頻譜圖或Wav2Vec等模型聲波轉(zhuǎn)換為時(shí)頻特征矩陣,捕捉音調(diào)、節(jié)奏等語音信息。 2. 跨模態(tài)對(duì)齊:建立模態(tài)間關(guān)聯(lián) 通過對(duì)比學(xué)習(xí)或注意力機(jī)制實(shí)現(xiàn)模態(tài)對(duì)齊
    發(fā)表于 05-01 17:46

    零基礎(chǔ)手寫大模型資料2026

    行代碼,大模型的開發(fā)是理論創(chuàng)新與工程實(shí)踐的深度融合。即使不依賴復(fù)雜框架,掌握注意力機(jī)制、殘差連接等核心原理的開發(fā)者,也能通過基礎(chǔ)代碼實(shí)現(xiàn)模型原型,進(jìn)而理解LoRA微調(diào)、量化壓縮等高級(jí)技術(shù)的本質(zhì)。這種從底層出發(fā)的技術(shù)理解,正是突破
    發(fā)表于 05-01 17:44

    HM博學(xué)谷狂野AI大模型第四期

    ”式的學(xué)習(xí)路徑。學(xué)員深入源碼層級(jí),剖析自注意力機(jī)制是如何通過矩陣運(yùn)算捕捉序列特征,位置編碼是如何注入時(shí)序信息,以及前饋神經(jīng)網(wǎng)絡(luò)與殘差連接是如何層層堆疊構(gòu)建起深度的特征提取空間。通過這種源碼級(jí)的拆解
    發(fā)表于 05-01 17:30

    云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證

    4月24日,DeepSeek-V4 系列模型發(fā)布。圍繞該模型 CSA/HCA 混合注意力機(jī)制帶來的新型計(jì)算需求,云天勵(lì)飛依托自研 GPNPU 架構(gòu)及 IFWA 智能融合軟件棧,通過 PyTorch 插件 torch_ifwa,完
    的頭像 發(fā)表于 04-30 17:09 ?5208次閱讀

    全面掌握ComfyUI系統(tǒng)教程|94節(jié)從入門到進(jìn)階實(shí)戰(zhàn)清單

    則能輔助保留主體的輪廓細(xì)節(jié)。更重要的是,通過 IP-Adapter 節(jié)點(diǎn),系統(tǒng)可以生成的背景圖像作為參考輸入,提取其光影特征,并通過交叉注意力機(jī)制注入到生成過程中,引導(dǎo)模型自動(dòng)調(diào)整主體的光照與色調(diào)
    發(fā)表于 03-29 16:17

    算法工程師需要具備哪些技能?

    ResNet、VGG)。RNN/LSTM:序列建模(如時(shí)間序列預(yù)測(cè)、NLP中的文本生成)。Transformer:自注意力機(jī)制(如BERT、GPT)。 模型調(diào)優(yōu)正則化:L1/L2正則化防止過擬合。超參數(shù)
    發(fā)表于 02-27 10:53

    Transformer 入門:從零理解 AI 大模型的核心原理

    字 │└─────────────────────────────────┘│ │↓│ │┌─────────────────────────────────┐│ ││2?? Transformer Block(×12) ││← 理解語義關(guān)系 ││? 注意力機(jī)制││ ││
    發(fā)表于 02-10 16:33

    自然場(chǎng)景下注意力如何耳周腦電可靠監(jiān)測(cè)

    HUIYING自然聽覺注意力概述聽覺注意力是大腦在復(fù)雜聽覺場(chǎng)景中選擇相關(guān)信息、抑制無關(guān)信息的重要認(rèn)知功能。傳統(tǒng)研究多在實(shí)驗(yàn)室內(nèi)使用笨重設(shè)備與人工刺激進(jìn)行,限制了其生態(tài)效度。本研究采用語音包絡(luò)跟蹤、被
    的頭像 發(fā)表于 12-05 18:03 ?4317次閱讀
    自然場(chǎng)景下<b class='flag-5'>注意力</b>如何耳周腦電可靠監(jiān)測(cè)

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意力機(jī)制的計(jì)算復(fù)雜度與序列長度(即文本長度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長的文本時(shí)(比如從幾千個(gè)詞到幾萬個(gè)詞),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4993次閱讀
    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    AI的核心操控:從算法到硬件的協(xié)同進(jìn)化

    到頂層的應(yīng)用算法,共同構(gòu)成AI的“智能引擎”。 算法層:模型架構(gòu)與訓(xùn)練控制 現(xiàn)代AI的核心是深度學(xué)習(xí)算法,其操控依賴于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)和訓(xùn)練過程的精細(xì)化調(diào)控。例如,Transformer架構(gòu)通過自注意力
    的頭像 發(fā)表于 09-08 17:51 ?1212次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+看視頻+看書籍+國產(chǎn)開源大模型DeepSeekV3技術(shù)詳解--1

    大小的潛在向量 (Latent Vector) c_t 中。同時(shí),為了保證對(duì)近期上下文的精確感知,它依然會(huì)實(shí)時(shí)計(jì)算當(dāng)前 token 的 K 和 V。 最終,注意力機(jī)制的計(jì)算將同時(shí)作用于“壓縮的歷史
    發(fā)表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語言模型 (LLM) 的推理效率。
    的頭像 發(fā)表于 08-12 15:19 ?4547次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    數(shù)智化時(shí)代企業(yè)IT基礎(chǔ)架構(gòu)何去何從

    隨著AI迅猛發(fā)展,算、存、運(yùn)力成了新戰(zhàn)場(chǎng),從拼資源到拼底座、拼架構(gòu),那怎樣的基礎(chǔ)架構(gòu)能撐得起企業(yè)AI的全場(chǎng)景落地?一起來看企業(yè)如何用AI-Ready打開增長新局。
    的頭像 發(fā)表于 08-06 11:20 ?1085次閱讀

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時(shí),我仿佛打開了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力
    發(fā)表于 07-20 15:07

    偉創(chuàng)與麻省理工學(xué)院 (MIT) 就其全新的“新制造倡議”(INM) 達(dá)成戰(zhàn)略合作

    行業(yè)巨擘+全球頂級(jí)學(xué)府? 近日,偉創(chuàng)與 麻省理工學(xué)院? (MIT) 就其 全新的“新制造倡議”(INM) 達(dá)成戰(zhàn)略合作 。作為INM行業(yè)聯(lián)盟的 創(chuàng)始成員 ,偉創(chuàng)將在這一項(xiàng)目中與MIT
    的頭像 發(fā)表于 06-10 09:30 ?1349次閱讀
    新丰县| 建湖县| 大渡口区| 呼伦贝尔市| 根河市| 德江县| 新绛县| 兴国县| 宁都县| 东乡族自治县| 浪卡子县| 威宁| 古蔺县| 泸州市| 武隆县| 饶平县| 漠河县| 南宁市| 景德镇市| 浑源县| 中山市| 乌兰察布市| 淮阳县| 壤塘县| 梅州市| 阿勒泰市| 通化县| 聂荣县| 安义县| 朝阳县| 遵义市| 治县。| 柘城县| 平度市| 惠来县| 苍溪县| 瑞金市| 杂多县| 改则县| 益阳市| 海原县|