日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

將線性Transformer作為快速權重系統進行分析和改進

智能感知與物聯網技術研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2021-03-31 15:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Transformer 在深度學習中占據主導地位,但二次存儲和計算需求使得 Transformer 的訓練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機制。然而,這種方法還存在很多缺點,例如它們依賴于隨機特征。 本文中,來自瑞士人工智能實驗室(IDSIA)、亞琛工業(yè)大學的研究者建立起了線性(核)注意力與 90 年代深度學習之父 Jürgen Schmidhuber 推廣的更古老的快速權重存儲系統之間的內在聯系,不僅指出了這些算法的基本局限性,還提出了新的更新規(guī)則和新的核來解決這些問題。在關鍵的綜合實驗和實際任務中,所得到的模型優(yōu)于 Performers

9f348e0a-8d23-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2102.11174

代碼地址:https://github.com/ischlag/fast-weight-transformers

具體而言,該研究推測線性化的 softmax 注意力變量存在存儲容量限制。在有限存儲的情況下,快速權重存儲模型的一個理想行為是操縱存儲的內容并與之動態(tài)交互。 受過去對快速權重研究的啟發(fā),研究者建議用產生這種行為的替代規(guī)則替換更新規(guī)則。此外,該研究還提出了一個新的核函數來線性化注意力,平衡簡單性和有效性。他們進行了大量的實驗,實驗內容包括合成檢索問題、標準機器翻譯以及語言建模。實驗結果證明了該研究方法的益處。 將線性 Transformer 作為快速權重系統進行分析和改進 將線性 Transformer 變量視為快速權重系統,研究者給出了兩個見解:作為關聯存儲容量的限制;無法編輯以前存儲的關聯內容。 容量限制 不斷地將新的關聯添加到有限大小的存儲中,如下公式 17 所示,這樣不可避免地會達到極限。在線性注意力中,信息存儲在矩陣中,并使用矩陣乘法進行檢索(如下公式 19)。因此,為了防止關聯在檢索時相互干擾,各個鍵(keys)需要正交。否則,點積將處理多個鍵并返回值的線性組合。對于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是說,存儲多個 d_dot 關聯將導致檢索誤差。在線性 Transformer 中,當序列長度大于 d_dot 時,模型可能處于這樣一種容量過剩狀態(tài)。 改進與更新 受快速權重存儲研究(Schlag 等人,2021 年)的啟發(fā),研究者提出了以下存儲更新規(guī)則。 給定新的輸入鍵 - 值對 (k^ (i) , v ^(i) ),模型首先訪問存儲的當前狀態(tài) W^(i?1),并檢索當前與鍵 k^(i) 配對的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,該模型存儲檢索值a020773e-8d23-11eb-8b86-12bb97331649.png和輸入 v^(i) 的凸組合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值權重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序將輸入序列a0ee1c16-8d23-11eb-8b86-12bb97331649.png轉化為輸出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示: ?

a171de98-8d23-11eb-8b86-12bb97331649.png

歸一化:在以上等式中,檢索的值沒有應用歸一化。通過推導可以得到一個簡單的歸一化,即通過引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

將公式 20、25 分別替換為:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數的增加而增加,并且可能導致不穩(wěn)定;其次,特別是對于該研究提出的更新規(guī)則,這種歸一化不足以平衡公式 23 中寫入和刪除運算之間的權重(參見附錄 A.2 中的推導)。 在這里,研究者提出了一種基于簡單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對于查詢:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

線性注意力函數Katharopoulos 線性注意力 Katharopoulos 等人提出使用簡單的逐元素 ELU + 1 函數(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

選擇 ELU 而不是 ReLU 的動機是因為負數部分的非零梯度。重要的是,作為一個簡單的函數,這個Φ函數保留了輸入鍵向量(d_key=d_dot)的維數,而不需要修改第 4.1 節(jié)中討論的存儲容量。 DPFP 前面兩小節(jié)強調了現有Φ函數的次優(yōu)性。采樣會給 FAVOR + 增加額外的復雜度,而線性 Transformer 缺乏投影點積維數的能力。因此,研究者提出了一種稱為確定性無參數投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計算,同時增加點積維數,而不需要 FAVOR + 的隨機特性。 下圖中四維空間的元素被顯示為四個彩色表面的 z 分量,以及 2d 平面中的每個向量如何在 4d 空間中具有單個非零分量,并將輸入空間平均分割為在投影空間中正交的四個區(qū)域。

實驗 該研究從三個方面進行了實驗:合成檢索問題、機器翻譯和語言模型。 合成檢索問題 所有模型都以最小批次 32 進行訓練,直到評估損失降到 0.001 以下,或者進行了 1000 訓練步。下圖 2 展示了模型的最佳驗證集性能以及對不同 S 的顯示。唯一鍵的數量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實驗對以下模型進行對比:Softmax、線性注意力、具有 64、128 和 512 個隨機特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下圖 3 展示了學習曲線。實驗結果表明,該研究提出的更新規(guī)則優(yōu)于其他變體。正如預期的那樣,基線總和更新規(guī)則失敗。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

機器翻譯 下表 1 顯示了 BLEU 得分結果。當樣本數 m 足夠大時(當 d_dot=512,m=256),Performer 與基礎 Transformer 性能相當。實際上,當 d_key=64 時,m 的推薦值是 d_dot log(d_dot)=266。當 d_dot 相對較小時,該研究的 DPFP 模型優(yōu)于線性 Transformer 和 Performer;在簡單性和性能之間提供了一個很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

語言模型 該研究使用標準 WikiText-103(Merity 等,2017)數據集進行實驗。WikiText-103 數據集由維基百科的長文組成;訓練集包含大約 28K 篇文章、總共 103M 個單詞。這將產生約 3600 個單詞的上下文文本塊。驗證集和測試集也包含類似的長依賴關系,分別有 218K 和 246K 個運行單詞,對應 60 篇文章,詞匯量約為 268K 個單詞。下表 2 展示了在該研究更新規(guī)則下,WikiText-103 語言模型的困惑度結果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用該研究更新規(guī)則下的 Transformer(medium 配置),在 WikiText-103 語言模型的困惑度結果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 語言模型在沒有截斷上下文的情況下訓練和評估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標準化。

a4065152-8d23-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1821

    文章

    50366

    瀏覽量

    267058
  • 深度學習
    +關注

    關注

    73

    文章

    5610

    瀏覽量

    124656
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6963

原文標題:LSTM之父重提30年前的「快速權重存儲系統」:線性Transformer只是它的一種變體

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    零基礎手寫大模型資料2026

    。數據并行將批次數據分片到不同設備,各設備計算梯度后同步更新參數;模型并行則將網絡層拆分到不同設備,如Megatron-LMTransformer層拆分為列并行線性層和行并行線性層。
    發(fā)表于 05-01 17:44

    ASPICE 是什么?汽車系統過程改進和能力確定概念(一)

    在 “軟件定義汽車” 的產業(yè)浪潮下,車載電子系統的復雜度呈指數級提升,軟件與硬件的協同質量直接決定了汽車的功能安全、用戶體驗與市場競爭力。ASPICE 作為全球汽車行業(yè)公認的研發(fā)過程管理與能力評定
    發(fā)表于 04-02 13:53

    Transformer 入門:從零理解 AI 大模型的核心原理

    Normalization) Transformer 使用的是層歸一化,它在每一層對數據進行標準化: 計算步驟 ini 體驗AI代碼助手 代碼解讀 復制代碼 輸入向量:x = [2, 4, 6, 8] Step 1
    發(fā)表于 02-10 16:33

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環(huán)神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關鍵,同時可以
    的頭像 發(fā)表于 11-19 18:17 ?2484次閱讀

    改進wallance樹乘法器優(yōu)化方法

    周期復用加法器的部分積加和算法,我們采用了改進的wallance樹結構進行部分積的快速壓縮,實現了單周期的乘法計算。 經過時序分析,我們的單周期乘法器時鐘頻率可以提高至140Hz,對比
    發(fā)表于 10-23 06:37

    了解SOLIDWORKS202仿真方面的改進

    隨著SOLIDWORKS 2025版本的發(fā)布,這款三維CAD和仿真分析軟件的再次展現了其在技術創(chuàng)新上的強勁實力。SOLIDWORKS 2025在仿真方面進行了多項重大改進,旨在提升仿真精度、可靠性
    的頭像 發(fā)表于 09-04 10:36 ?856次閱讀
    了解SOLIDWORKS202仿真方面的<b class='flag-5'>改進</b>

    用拼多多 API 實現拼多多店鋪商品搜索權重提升

    分步講解如何利用 API 實現這一目標,確保內容真實可靠。 1. 理解搜索權重及其重要性 搜索權重是平臺算法對商品排名的綜合評分,基于多個因素計算。例如: 關鍵詞相關性:商品標題和描述與用戶搜索詞匹配度越高,
    的頭像 發(fā)表于 08-19 17:23 ?1091次閱讀
    用拼多多 API 實現拼多多店鋪商品搜索<b class='flag-5'>權重</b>提升

    集成MT9103線性霍爾傳感器提升智能家居控制精度與系統智能化水平

    隨著智能家居市場的快速發(fā)展,用戶對控制精度和系統智能化的需求日益提升。在這一背景下,集成MT9103線性霍爾傳感器成為提升智能家居性能的關鍵技術之一。MT9103作為一款高精度、低功耗
    的頭像 發(fā)表于 08-15 17:20 ?1246次閱讀
    集成MT9103<b class='flag-5'>線性</b>霍爾傳感器提升智能家居控制精度與<b class='flag-5'>系統</b>智能化水平

    自動駕駛中Transformer大模型會取代深度學習嗎?

    持續(xù)討論。特別是在自動駕駛領域,部分廠商開始嘗試多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統,引發(fā)了“傳統深度學習是否已過時”的激烈爭論。然而,從技術原理、算力成本、安全需求與實際落地路徑等維度來看,Transformer
    的頭像 發(fā)表于 08-13 09:15 ?4392次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    亞馬遜云科技現已上線OpenAI開放權重模型

    開放權重模型,向數百萬亞馬遜云科技客戶開放。 客戶可利用這些全新開放權重模型的先進推理能力,支持Agentic工作流、代碼生成、科學分析和數學問題求解等應用。 開放權重模型的推出擴展了
    的頭像 發(fā)表于 08-06 19:29 ?974次閱讀

    基于改進滑模觀測器的PMSM無位置傳感器控制

    為解決傳統基于滑模觀測器永磁同步電機無位置傳感器控制系統存在的抖振問題,本文提出了一種基于非線性能量函數參考模型的新型改進滑模觀測器。在分析線性
    發(fā)表于 08-06 14:38

    微電機關鍵零部件制造誤差對其質量的影響權重分析

    獲取完整資料~~~*附件:微電機關鍵零部件制造誤差對其質量的影響權重分析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發(fā)表于 06-23 07:16

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1233次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發(fā)展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1463次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    如何在CentOS系統中部署ELK日志分析系統

    功能,使用戶能夠快速獲取關鍵業(yè)務洞察。本文詳細介紹如何在 CentOS 系統中部署 ELK 日志分析系統,
    的頭像 發(fā)表于 05-08 11:47 ?1183次閱讀
    如何在CentOS<b class='flag-5'>系統</b>中部署ELK日志<b class='flag-5'>分析</b><b class='flag-5'>系統</b>
    阳朔县| 喀喇沁旗| 盐山县| 内丘县| 当阳市| 两当县| 尉犁县| 宜良县| 宁明县| 樟树市| 宝丰县| 吉林省| 巴东县| 荥阳市| 潼关县| 琼海市| 襄城县| 南充市| 合阳县| 巫溪县| 称多县| 汉源县| 噶尔县| 正宁县| 于田县| 孟津县| 乌鲁木齐县| 浦县| 增城市| 临武县| 桐乡市| 阿克苏市| 化州市| 石家庄市| 正宁县| 视频| 鄱阳县| 巴中市| 汉中市| 东丽区| 德州市|