日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

cosFormer:重新思考注意力機(jī)制中的Softmax

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來源:我愛計(jì)算機(jī)視覺 ? 作者:多模態(tài)研究組 - 商 ? 2022-03-30 16:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀:Transformer在自然語(yǔ)言處理、計(jì)算機(jī)視覺音頻處理方面取得了巨大成功。作為其核心組成部分之一,Softmax Attention模塊能夠捕捉長(zhǎng)距離的依賴關(guān)系,但由于Softmax算子關(guān)于序列長(zhǎng)度的二次空間和時(shí)間復(fù)雜性,使其很難擴(kuò)展。

針對(duì)這點(diǎn),研究者提出利用核方法以及稀疏注意力機(jī)制的方法來近似Softmax算子,從而降低時(shí)間空間復(fù)雜度。但是,由于誤差的存在,效果往往不盡如人意。

商湯多模態(tài)研究組認(rèn)為,近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點(diǎn)是,與其近似Softmax,不如設(shè)計(jì)一種方式代替Softmax,并且同時(shí)降低時(shí)間空間復(fù)雜度。

因此,本文提出了名為cosFormer的方法,在時(shí)間空間復(fù)雜度關(guān)于序列長(zhǎng)度為線性復(fù)雜度的同時(shí),其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA結(jié)果。我們的設(shè)計(jì)核心理念基于兩點(diǎn),首先是注意力矩陣的非負(fù)性,其次是對(duì)局部注意力的放大(非極大值抑制)。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

06f3c082-afe8-11ec-aa7f-dac502259ad0.jpg

070b788a-afe8-11ec-aa7f-dac502259ad0.png

Part 1

背景

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. Softmax Attention

為了引出我們的方法,對(duì)Softmax Attention的計(jì)算方式進(jìn)行一定的推廣:

073c17f6-afe8-11ec-aa7f-dac502259ad0.png

其中表示相似度計(jì)算函數(shù),如果,上式即變?yōu)镾oftmax Attention(不考慮除以的縮放操作)。注意到計(jì)算的時(shí)間復(fù)雜度為,的時(shí)間復(fù)雜度為,所以總時(shí)間復(fù)雜度為,即關(guān)于序列長(zhǎng)度是二次的。

2. 線性 Attention

通過分析我們發(fā)現(xiàn),性能瓶頸的主要原因是操作,如果相似度函數(shù)可以表示為:

0750d6dc-afe8-11ec-aa7f-dac502259ad0.png

那么:

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)矩陣運(yùn)算的結(jié)合律:

077434e2-afe8-11ec-aa7f-dac502259ad0.png

上式可以變換為(編者修正:下方公式未變換,請(qǐng)參照論文):

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

經(jīng)過計(jì)算后可以得到該方法的時(shí)間復(fù)雜度為,即關(guān)于序列長(zhǎng)度是一次的。

Softmax Attention和線性Attention的計(jì)算方式可以用下圖概括:

07a1f260-afe8-11ec-aa7f-dac502259ad0.png

所以接下來將介紹的選擇,以及核心的reweighting操作。

3. Softmax 的兩大性質(zhì)

我們經(jīng)過分析以及實(shí)驗(yàn),歸納出Softmax Attention中比較重要的性質(zhì),這兩個(gè)性質(zhì)可以指導(dǎo)我們的模型設(shè)計(jì):

1. 注意力矩陣的非負(fù)性

2. 局部注意力的放大(非極大值抑制)

對(duì)于第一點(diǎn),我們有如下實(shí)驗(yàn)進(jìn)行驗(yàn)證(模型結(jié)構(gòu)為RoBERTa):

07bdb856-afe8-11ec-aa7f-dac502259ad0.png

這里L(fēng)oss表示驗(yàn)證集損失(越低越好),其余指標(biāo)均為準(zhǔn)確率(越高越好)??梢钥吹?,當(dāng)保證了注意力矩陣的非負(fù)性之后,可以達(dá)到較好的效果。基于該實(shí)驗(yàn),我們選擇為ReLU函數(shù)。

對(duì)于第二點(diǎn),我們的方式是在注意力矩陣中引入先驗(yàn)locality信息,觀察Softmax注意力矩陣,如下圖所示,我們發(fā)現(xiàn)其注意力矩陣的權(quán)重在對(duì)角線附近很集中:

07ce07ce-afe8-11ec-aa7f-dac502259ad0.png

所以我們的方法需要在加了reweighting操作后也更加集中在對(duì)角線附近。注意并非所有的有類似權(quán)重的函數(shù)均適用,這個(gè)reweighting的函數(shù)需要跟前面的QK一樣可以拆分成兩個(gè)矩陣的乘法的形式。

至此,就可以引入我們的cosFormer了。

Part 2

cosFormer

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. 方法

我們的方法基于線性Attention,首先給出符號(hào)定義:

08068432-afe8-11ec-aa7f-dac502259ad0.png

根據(jù)之前的分析,我們選擇了:

081836fa-afe8-11ec-aa7f-dac502259ad0.png

可得:

08299756-afe8-11ec-aa7f-dac502259ad0.png

為了進(jìn)行reweighting操作,并且同時(shí)保證線性Attention的計(jì)算方式依然成立,我們選擇了cos函數(shù):

0846632c-afe8-11ec-aa7f-dac502259ad0.png

展開可得:

085b3eaa-afe8-11ec-aa7f-dac502259ad0.png

為了便于展示,我們把它記作:

0872566c-afe8-11ec-aa7f-dac502259ad0.png

最終得到:

088c78ee-afe8-11ec-aa7f-dac502259ad0.png

上式和線性Attention的計(jì)算方式一致,經(jīng)過分析不難得出時(shí)間復(fù)雜度依然是。

2. 實(shí)驗(yàn)結(jié)果

我們?cè)趩蜗蚰P汀㈦p向模型以及LRA benchmark上測(cè)試了我們的方法,均取得了非常不錯(cuò)的效果。

單向語(yǔ)言模型,指標(biāo)表示困惑度(越低越好):

08a330ac-afe8-11ec-aa7f-dac502259ad0.png

雙向語(yǔ)言模型,指標(biāo)表示準(zhǔn)確率(越高越好):

08be1890-afe8-11ec-aa7f-dac502259ad0.png

LRA benchmark:

1)性能實(shí)驗(yàn),指標(biāo)表示準(zhǔn)確率(越高越好):

08d4c996-afe8-11ec-aa7f-dac502259ad0.png

2)內(nèi)存速度實(shí)驗(yàn),指標(biāo)表示速度(越高越好,如果內(nèi)存溢出,則標(biāo)記為叉):

08f4b97c-afe8-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4422

    瀏覽量

    67871
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1716

    瀏覽量

    47733
  • Softmax
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    2826

原文標(biāo)題:ICLR'22 | cosFormer:重新思考注意力機(jī)制中的Softmax

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    ;語(yǔ)境下會(huì)生成不同的向量表示。 音頻模態(tài) :Mel頻譜圖或Wav2Vec等模型將聲波轉(zhuǎn)換為時(shí)頻特征矩陣,捕捉音調(diào)、節(jié)奏等語(yǔ)音信息。 2. 跨模態(tài)對(duì)齊:建立模態(tài)間關(guān)聯(lián) 通過對(duì)比學(xué)習(xí)或注意力機(jī)制實(shí)現(xiàn)模態(tài)對(duì)齊
    發(fā)表于 05-01 17:46

    零基礎(chǔ)手寫大模型資料2026

    。這種矩陣運(yùn)算模式貫穿整個(gè)模型,包括注意力計(jì)算、前饋網(wǎng)絡(luò)等核心組件。 2. 注意力機(jī)制:動(dòng)態(tài)權(quán)重分配 Transformer的核心創(chuàng)新在于自注意力(Self-Attention)
    發(fā)表于 05-01 17:44

    云天勵(lì)飛完成DeepSeek-V4系列模型關(guān)鍵機(jī)制適配驗(yàn)證

    4月24日,DeepSeek-V4 系列模型發(fā)布。圍繞該模型 CSA/HCA 混合注意力機(jī)制帶來的新型計(jì)算需求,云天勵(lì)飛依托自研 GPNPU 架構(gòu)及 IFWA 智能融合軟件棧,通過 PyTorch 插件 torch_ifwa,完成了面向 GPNPU 平臺(tái)的關(guān)鍵
    的頭像 發(fā)表于 04-30 17:09 ?4426次閱讀

    電動(dòng)車逆變器是如何連接電池與電機(jī)的

    當(dāng)我們談?wù)撾妱?dòng)車的加速、制動(dòng)和能量回收時(shí),常常會(huì)把注意力放在動(dòng)力電池和驅(qū)動(dòng)電機(jī)上。但在它們之間,還有一個(gè)幾乎“全程在場(chǎng)”的關(guān)鍵零部件——逆變器。
    的頭像 發(fā)表于 03-09 10:44 ?1147次閱讀
    電動(dòng)車逆變器是如何連接電池與電機(jī)的

    別再忽視充電芯片了!HT4056H的這些保護(hù)功能真的很重要

    很多人在設(shè)計(jì)便攜設(shè)備時(shí),往往把注意力放在主控芯片上,卻忽視了充電管理的重要性。HT4056H除了基本的恒流恒壓充電功能,還內(nèi)置了欠壓閉鎖、電池反接保護(hù)、溫度監(jiān)控等多重安全機(jī)制。TDFN2×2封裝讓它能輕松塞進(jìn)各種小設(shè)備里,40V耐壓更是給足了安全余量。做產(chǎn)品的朋友,充電安
    的頭像 發(fā)表于 02-25 11:42 ?528次閱讀
    別再忽視充電芯片了!HT4056H的這些保護(hù)功能真的很重要

    Transformer 入門:從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對(duì)角線折疊紙張。 在 Transformer 的應(yīng)用:計(jì)算注意力分?jǐn)?shù)
    發(fā)表于 02-10 16:33

    如何基于P300個(gè)性化調(diào)控ADHD?

    HUIYINGADHD機(jī)理概述注意力缺陷多動(dòng)障礙(ADHD)的核心機(jī)理涉及注意力資源分配缺陷,這反映在事件相關(guān)電位(ERP)P300成分的振幅降低上。ADHD患者(包括成人和兒童)在執(zhí)行
    的頭像 發(fā)表于 01-28 18:24 ?497次閱讀
    如何基于P300個(gè)性化調(diào)控ADHD?

    奇異摩爾入選2025國(guó)科創(chuàng)好公司半導(dǎo)體榜單

    Speciale版本則專注于極致推理,二者共同構(gòu)成一套應(yīng)對(duì)不同場(chǎng)景的“推理底座”。其中V3.2在綜合推理能力上已對(duì)齊GPT-5,而其稀疏注意力機(jī)制(DSA)等技術(shù),更讓處理長(zhǎng)文本的成本和效率實(shí)現(xiàn)了數(shù)倍的優(yōu)化。
    的頭像 發(fā)表于 12-16 14:22 ?923次閱讀

    自然場(chǎng)景下注意力如何耳周腦電可靠監(jiān)測(cè)

    HUIYING自然聽覺注意力概述聽覺注意力是大腦在復(fù)雜聽覺場(chǎng)景中選擇相關(guān)信息、抑制無關(guān)信息的重要認(rèn)知功能。傳統(tǒng)研究多在實(shí)驗(yàn)室內(nèi)使用笨重設(shè)備與人工刺激進(jìn)行,限制了其生態(tài)效度。本研究采用語(yǔ)音包絡(luò)跟蹤、被
    的頭像 發(fā)表于 12-05 18:03 ?4300次閱讀
    自然場(chǎng)景下<b class='flag-5'>注意力</b>如何耳周腦電可靠監(jiān)測(cè)

    湘軍,讓算變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    教程來啦!LuatOS的消息通信機(jī)制詳解及其應(yīng)用場(chǎng)景

    在資源受限的嵌入式環(huán)境,LuatOS采用消息機(jī)制實(shí)現(xiàn)模塊間解耦與高效通信。通過預(yù)定義消息名稱(如“new_msg”),開發(fā)者可輕松構(gòu)建響應(yīng)式程序結(jié)構(gòu)。接下來我們將深入剖析其實(shí)現(xiàn)原理與典型使用方法
    的頭像 發(fā)表于 09-26 18:59 ?567次閱讀
    教程來啦!LuatOS<b class='flag-5'>中</b>的消息通信<b class='flag-5'>機(jī)制</b>詳解及其應(yīng)用場(chǎng)景

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)注意力機(jī)制的計(jì)算復(fù)雜度與序列長(zhǎng)度(即文本長(zhǎng)度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長(zhǎng)的文本時(shí)(比如從幾千個(gè)詞到幾萬個(gè)詞),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4978次閱讀
    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+看視頻+看書籍+國(guó)產(chǎn)開源大模型DeepSeekV3技術(shù)詳解--1

    大小的潛在向量 (Latent Vector) c_t 。同時(shí),為了保證對(duì)近期上下文的精確感知,它依然會(huì)實(shí)時(shí)計(jì)算當(dāng)前 token 的 K 和 V。 最終,注意力機(jī)制的計(jì)算將同時(shí)作用于“壓縮的歷史
    發(fā)表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創(chuàng)新架構(gòu)包含多頭潛在注意力機(jī)制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語(yǔ)言模型 (LLM) 的推理效率。
    的頭像 發(fā)表于 08-12 15:19 ?4526次閱讀
    如何在NVIDIA Blackwell GPU上優(yōu)化DeepSeek R1吞吐量

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時(shí),我仿佛打開了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等模塊
    發(fā)表于 07-20 15:07
    保定市| 天峨县| 宁都县| 永州市| 闻喜县| 建昌县| 鄂伦春自治旗| 若羌县| 鄂托克前旗| 八宿县| 远安县| 巫山县| 红桥区| 昌江| 武邑县| 池州市| 龙门县| 旬阳县| 靖安县| 河津市| 教育| 胶南市| 桑植县| 枣强县| 高阳县| 莎车县| 隆林| 太保市| 那曲县| 平顶山市| 康定县| 泰宁县| 四平市| 巩留县| 深泽县| 平谷区| 新龙县| 南陵县| 洛宁县| 巴马| 合川市|