日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

詳解一種簡單而有效的Transformer提升技術

深度學習自然語言處理 ? 來源:南大NLP ? 作者:NAACL2021 吳震 ? 2021-04-09 09:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01研究背景及動機

近些年,Transformer[1]逐漸成為了自然語言處理中的主流結構。為了進一步提升Transformer的性能,一些工作通過引入額外的結構或知識來提升Transformer在特定任務上的表現(xiàn)。盡管如此,過參數(shù)化(over-parameterization)和過擬合(overfitting)一直是Transformer中的一個顯著問題。作為一種正則化技術,Dropout常被用來緩解模型的過擬合問題[2]。和引入額外結構或知識的工作相比,dropout的一個優(yōu)勢是不需要額外的計算開銷和外部資源。因此,本文的出發(fā)點在于,能否通過融合不同的dropout技術來進一步提升Transformer的性能甚至達到state-of-the-art效果?

為此,我們提出UniDrop技術,從細粒度到粗粒度將三種不同層次的dropout整合到Transformer結構中,它們分別為feature dropout、structure dropout和data dropout 。Feature dropout (FD),即傳統(tǒng)的dropout技術[2],通常應用在網(wǎng)絡的隱層神經(jīng)元上。Structure dropout (SD)是一種較粗粒度的dropout,旨在隨機drop模型中的某些子結構或組件。Data dropout (DD)作為一種數(shù)據(jù)增強方法,通常用來隨機刪除輸入sequence的某些tokens。在UniDrop中,我們從理論上分析了這三層dropout技術在Transformer正則化過程中起到了不同的作用,并在8個機器翻譯任務上和8個文本分類任務上驗證了UniDrop的有效性。

02UniDrop

2.1Transformer結構

UniDrop旨在提升Transformer的性能。在UniDrop中,feature dropout和structure dropout的使用與網(wǎng)絡結構密切相關。因此,我們簡單回顧Transformer的網(wǎng)絡結構。

f27843de-98d3-11eb-8b86-12bb97331649.png

圖1:標準Transformer結構和Feature Dropout

如圖1(a)所示,Transformer由多個相同的block堆疊而成,每個block包含兩個sub-layer,分別為multi-head self-attention layer和position-wise fully connected feed-forward layer,每個sub-layer后都使用了殘差連接和層正則(Add&Norm)。

Multi-head Attention:Multi-head attention sub-layer包含多個并行的attention head,每個head通過帶縮放的點乘attention將query Q和鍵值對K、V映射乘輸出,如下式所示:

f2b1ba60-98d3-11eb-8b86-12bb97331649.png

多個head的輸出最終被拼接在一起并做線性映射作為最終的multi-head attention輸出。

Position-wise Feed-Forward:這一層主要包含兩個線性映射和一個ReLU激活函數(shù):

f2beb904-98d3-11eb-8b86-12bb97331649.png

2.2Feature Dropout

如前所述,F(xiàn)eature Dropout (FD)即傳統(tǒng)的dropout技術[2],可以以一定的概率隨機抑制網(wǎng)絡中的某些神經(jīng)元。實際上,在標準的Transformer實現(xiàn)中,每個sub-layer后都默認配置了dropout。除此之外,Transformer也在multi-head attention和feed-forward network的激活函數(shù)層添加了dropout,本文將探索它們對Transformer性能的影響:

FD-1 (attention dropout):根據(jù)公式(1),在multi-head attention中,我們可以獲得attention權重A=QKT,feature dropout FD-1被應用在attention權重A上。

FD-2 (activation dropout):FD-2被應用在feed-forward network sub-layer兩層線性變換間的激活函數(shù)上。

除了上面已有的feature dropout,我們在預實驗中發(fā)現(xiàn)Transformer仍有過擬合的風險。因此,我們額外提出兩種feature dropout添加到Transformer結構中:

FD-3 (query, key, value dropout):FD-1直接應用在attention權重A上,表示token i和token j之間的connection有可能被drop,一個更大的FD-1值意味著更大的概率失去sequence中一些關鍵的connection。為了緩解這種風險,我們在attention之前的query Q、key K和value V上分別添加了dropout。

FD-4 (output dropout):我們在softmax分類的線性映射前也添加了dropout。具體而言,對sequence2sequence任務,我們將FD-4添加到Transformer decoder中,對于文本分類任務我們將FD-4添加到Transformer encoder中。

2.3Structure Dropout

為了提升Transformer的泛化性,之前的工作已經(jīng)提出了兩種Structure Dropout (SD),分別是LayerDrop[3]和DropHead[4]。DropHead通過隨機舍棄一些attention head,從而防止multi-head attention機制被某些head主導,最終提升multi-head attention的泛化性。相比之下,LayerDrop是一種更高級別的結構dropout,它能隨機舍棄Transformer的某些層,從而直接降低Transformer中的模型大小。通過預實驗分析,我們將LayerDrop添加到我們的UniDrop中。

2.4Data Dropout

Data Dropout (DD)以一定的概率p隨機刪除輸入序列中tokens。然而,直接應用data dropout很難保留原始高質量的樣本,對于一個長度為n的sequence,我們保留住原始sequence的概率為(1-p)n,當n較大時,這個概率將會非常低。失去原始高質量樣本對很多任務都是不利的。為了保留原始高質量的樣本,同時又能利用data dropout進行數(shù)據(jù)增強,我們在UniDrop中提出了一個2-stage data dropout方案。對于給定的sequence,我們以一定的概率 pk保留原始的樣本,當data dropout被應用時(概率為1- pk),我們以預定的概率p來隨機刪除序列中的tokens。

2.5UniDrop整合

最終,我們將上面三種不同粒度的dropout技術集成到我們的UniDrop中,并從理論上分析了feature dropout、structure dropout、data dropout能夠正則Transformer的不同項并且不能相互取代,具體分析可參考論文。Figure 2是UniDrop的簡單示例。

f2d2db1e-98d3-11eb-8b86-12bb97331649.png

圖2:UniDrop示例

03實驗與分析

我們在序列生成(機器翻譯)和文本分類兩個任務上來驗證UniDrop的性能。

3.1神經(jīng)機器翻譯

我們在IWSLT14數(shù)據(jù)集上進行了機器翻譯實驗,共4個語言對,8個翻譯任務,baseline為標準的Transformer結構,實驗結果如表1所示:

f33983a0-98d3-11eb-8b86-12bb97331649.png

表1:不同模型在IWSLT14翻譯任務上的結果

可以看到,相比于標準的Transformer,我們的UniDrop在所有任務翻譯任務上都取得了一致且顯著的提升。為了驗證UniDrop中每種dropout的作用,我們進行了ablation study實驗,也在標準Transformer添加單一的dropout去驗證它們的性能。從結果看,F(xiàn)D、SD和DD都能在一定程度上提升Transformer的性能,并能夠協(xié)同工作,最終進一步提升Transformer的泛化性。

為了進一步驗證UniDrop的優(yōu)越性,我們也在廣泛被認可的benchmarkIWSLT14 De→En翻譯任務上和其他系統(tǒng)進行了對比。這些系統(tǒng)從不同的方面提升機器翻譯,如訓練算法設計(Adversarial MLE)、模型結構設計(DynamicConv)、引入外部知識(BERT-fused NMT)等??梢钥吹剑覀兊腡ransformer+UniDrop仍然顯著超過了其他系統(tǒng)。

f371701c-98d3-11eb-8b86-12bb97331649.png

表2:不同系統(tǒng)在IWSLT14 De→En翻譯任務上的表現(xiàn)

3.2文本分類

對于文本分類任務,我們以RoBERTaBASE作為backbone,在4個GLUE數(shù)據(jù)集上和4個傳統(tǒng)的文本分類數(shù)據(jù)集上進行了實驗,結果如表3和表4所示:

f386802e-98d3-11eb-8b86-12bb97331649.png

表3:不同模型在GLUE tasks (dev set)上的準確率

f39a732c-98d3-11eb-8b86-12bb97331649.png

表4:不同模型在傳統(tǒng)文本分類任務上的準確率

可以看到,作為一個強大的預訓練模型,RoBERTaBASE顯著超過了其他方法。即使如此,UniDrop仍然能夠進一步提升RoBERTaBASE的性能,這進一步驗證了UniDrop對Transformer模型的有效性。

3.3分析

為了展現(xiàn)UniDrop能夠有效防止Transformer過擬合,我們畫出了不同模型在IWSLT14 De→En翻譯驗證集上的loss曲線,如圖3所示:

f3b2636a-98d3-11eb-8b86-12bb97331649.png

圖3:不同模型在IWSLT14 De→En翻譯上的dev loss

可以看到,標準的Transformer結構隨著訓練輪數(shù)的增加,很容易出現(xiàn)過擬合現(xiàn)象。相比之下,F(xiàn)D、SD、DD都在一定程度上緩解了Transformer的過擬合問題。在所有對比模型中,我們的UniDrop取得了最低的dev loss,并且dev loss能持續(xù)下降,直到訓練結束。綜合來看,UniDrop在預防Transformer過擬合問題上取得了最好的表現(xiàn)。

此外,我們也進行了細粒度的ablation study實驗來探究不同的feature dropout以及我們2-stage data dropout對Transformer性能的影響,結果如表5所示:

f4117ee0-98d3-11eb-8b86-12bb97331649.png

表5:Ablation Study

可以看到,F(xiàn)D-3比FD-1帶來更多的提升,這也驗證了我們之前的分析,僅使用FD-1對提升multi-head attention的泛化性來說是不夠的。另外,表5表明我們提出的2-stage data dropout策略對提升性能是有幫助的,這體現(xiàn)了保留原始高質量樣本的必要性。

04總結與展望

過擬合是Transformer結構中一個常見的問題,dropout技術常被用來防止模型過擬合。本文中,我們提出了一種集成的dropout技術UniDrop,它由細粒度到粗粒度,將三種不同類型的dropout(FD、SD、DD)融合到Transformer結構中。我們從理論上分析UniDrop中的三種dropout技術能夠從不同的方面防止Transformer過擬合,在機器翻譯和文本分類任務上的實驗結果也體現(xiàn)了UniDrop的有效性和優(yōu)越性,更重要的,它不需要額外的計算開銷和外部資源。更多的細節(jié)、結果以及分析請參考原論文。
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Dropout
    +關注

    關注

    0

    文章

    13

    瀏覽量

    10784
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6963
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14736

原文標題:UniDrop:一種簡單而有效的Transformer提升技術

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    技術資訊 I 詳解 STEP 文件

    ,但也可用于PCB設計,尤其是電子元件的機械集成。STEP文件是一種廣泛使用的中性文件格式,用于交換3D計算機輔助設計(CAD)數(shù)據(jù),可有效提升不同CAD軟件系統(tǒng)
    的頭像 發(fā)表于 02-06 16:08 ?1321次閱讀
    <b class='flag-5'>技術</b>資訊 I <b class='flag-5'>一</b>文<b class='flag-5'>詳解</b> STEP 文件

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer直是非常關鍵的技術,為何Transformer在自動駕駛行業(yè)直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4424次閱讀

    信道活躍檢測(CAD)是一種無線喚醒技術,這個功能般是定時檢測么?還是直檢測?

    信道活躍檢測(CAD)是一種無線喚醒技術,這個功能般是定時檢測么?還是直檢測?
    發(fā)表于 12-10 06:53

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經(jīng)網(wǎng)絡結構,最早在自然語言處理里火起來。與卷積神經(jīng)網(wǎng)絡(CNN)或循環(huán)神經(jīng)網(wǎng)絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態(tài)判斷哪些部分更為關鍵,同時
    的頭像 發(fā)表于 11-19 18:17 ?2484次閱讀

    大尺寸玻璃晶圓(12 英寸 +)TTV 厚度均勻性提升技術

    尺寸增大,實現(xiàn) TTV 厚度均勻性的難度顯著增加。探索有效的 TTV 厚度均勻性提升技術,成為保障大尺寸玻璃晶圓質量、推動產(chǎn)業(yè)發(fā)展的重要課題。 二、影響大尺寸玻
    的頭像 發(fā)表于 10-17 13:40 ?869次閱讀
    大尺寸玻璃晶圓(12 英寸 +)TTV 厚度均勻性<b class='flag-5'>提升技術</b>

    代理式AI提升團隊績效的六方式

    根據(jù)凱捷(Capgemini)預測,未來三年內,AI 智能體有望參與到企業(yè)的大多數(shù)業(yè)務中,而有效的人機協(xié)作預計將使人類參與高價值任務的比例提升 65%。
    的頭像 發(fā)表于 09-23 14:28 ?786次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    徹底改變了自然語義處理的研究和應用。它引入了自注意機制和位置編碼,能夠有效的捕捉輸入序列中的關聯(lián)信息,實現(xiàn)更好的上下文理解和建模。 Transformer 模型由個編碼器和個解碼器
    發(fā)表于 09-12 17:30

    如何有效利用高光譜成像技術提升數(shù)據(jù)分析效率

    隨著人工智能和大數(shù)據(jù)技術的快速發(fā)展,高光譜成像技術作為一種融合光譜信息與空間影像的新興技術,正日益成為提升數(shù)據(jù)分析效率的重要工具。在農(nóng)業(yè)監(jiān)測
    的頭像 發(fā)表于 09-11 16:13 ?1010次閱讀
    如何<b class='flag-5'>有效</b>利用高光譜成像<b class='flag-5'>技術</b><b class='flag-5'>提升</b>數(shù)據(jù)分析效率

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡、注意力機制等模塊
    發(fā)表于 07-20 15:07

    一種高效智能的光伏電站管理平臺

    體化(集成多種儲能管理功能等)。用戶根據(jù)自身場景和需求,選擇合適光伏電站管理平臺及功能應用配置,從而實現(xiàn)發(fā)電效率最大化、運維成本最小化及碳中和目標。 光伏電站管理平臺作為一種智能光伏管理系統(tǒng),通過光伏智能管理
    的頭像 發(fā)表于 07-18 09:20 ?1210次閱讀
    <b class='flag-5'>一種</b>高效智能的光伏電站管理平臺

    同步整流MOSFET的設計要點與效率提升技

    。其核心器件——MOSFET,在設計中扮演著至關重要的角色。本文將深入探討同步整流MOSFET的選型要點和提升效率的設計技巧。、同步整流的基本原理傳統(tǒng)整流使用二極
    的頭像 發(fā)表于 07-03 09:42 ?1315次閱讀
    同步整流MOSFET的設計要點與效率<b class='flag-5'>提升技</b>巧

    一種實現(xiàn)開關柜局放監(jiān)測的有效技術架構

    開關柜局放在線監(jiān)測系統(tǒng)是針對開關柜局放監(jiān)測的一種技術工具,也是保障電力系統(tǒng)安全穩(wěn)定運行的關鍵設備,系統(tǒng)通過傳感器捕捉開關柜內部因局部放電產(chǎn)生的物理信號(如特高頻電磁波、超聲波、暫態(tài)地電壓),數(shù)據(jù)采集
    的頭像 發(fā)表于 06-19 13:35 ?675次閱讀
    <b class='flag-5'>一種</b>實現(xiàn)開關柜局放監(jiān)測的<b class='flag-5'>有效</b><b class='flag-5'>技術</b>架構

    詳解外延生長技術

    隨著半導體器件特征尺寸不斷微縮,對高質量薄膜材料的需求愈發(fā)迫切。外延技術作為一種在半導體工藝制造中常用的單晶薄膜生長方法,能夠在單晶襯底上按襯底晶向生長新的單晶薄膜,為提升器件性能發(fā)揮了關鍵作用。本文將對外延
    的頭像 發(fā)表于 06-16 11:44 ?3438次閱讀
    <b class='flag-5'>一</b>文<b class='flag-5'>詳解</b>外延生長<b class='flag-5'>技術</b>

    交流充電樁負載能效提升技術

    隨著電動汽車普及率提升,交流充電樁的能效優(yōu)化成為降低運營成本、減少能源浪費的核心課題。負載能效提升需從硬件設計、拓撲優(yōu)化、智能控制及熱管理等多維度展開,以下結合技術原理與實踐方案進行闡述。
    發(fā)表于 05-21 14:38

    快手上線鴻蒙應用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    近日,快手在Gitee平臺上線了鴻蒙應用性能優(yōu)化解決方案“QuickTransformer”,該方案針對鴻蒙應用開發(fā)中廣泛使用的三方庫“class-transformer”進行了深度優(yōu)化,有效提升
    發(fā)表于 05-15 10:01
    洛浦县| 南安市| 儋州市| 永年县| 长武县| 南通市| 双桥区| 永胜县| 平阴县| 涡阳县| 浮山县| 朝阳市| 天气| 吴桥县| 滁州市| 安康市| 惠来县| 千阳县| 乐平市| 麦盖提县| 涿州市| 宜宾县| 宜丰县| 昌乐县| 景宁| 营山县| 靖州| 香格里拉县| 高陵县| 垣曲县| 九寨沟县| 洛隆县| 容城县| 锦屏县| 师宗县| 怀来县| 尤溪县| 华容县| 长寿区| 新密市| 武平县|