97精品视频,久久久人妻一区

Introduction

本文提出了 Adversarial Self-Attention 機制（ASA），利用對抗訓(xùn)練重構(gòu) Transformer 的注意力，使模型在被污染的模型結(jié)構(gòu)中得到訓(xùn)練。嘗試解決的問題：

大量的證據(jù)表明，自注意力可以從 allowing bias 中獲益，allowing bias 可以將一定程度的先驗（如 masking，分布的平滑）加入原始的注意力結(jié)構(gòu)中。這些先驗知識能夠讓模型從較小的語料中學(xué)習(xí)有用的知識。但是這些先驗知識一般是任務(wù)特定的知識，使得模型很難擴展到豐富的任務(wù)上。

adversarial training 通過給輸入內(nèi)容添加擾動來提升模型的魯棒性。作者發(fā)現(xiàn)僅僅給 input embedding 添加擾動很難 confuse 到 attention maps. 模型的注意在擾動前后沒有發(fā)生變化。

為了解決上述問題，作者提出了 ASA，具有以下的優(yōu)勢：

最大化 empirical training risk，在自動化構(gòu)建先驗知識的過程學(xué)習(xí)得到biased（or adversarial）的結(jié)構(gòu)。

adversial 結(jié)構(gòu)是由輸入數(shù)據(jù)學(xué)到，使得 ASA 區(qū)別于傳統(tǒng)的對抗訓(xùn)練或自注意力的變體。

使用梯度反轉(zhuǎn)層來將 model 和 adversary 結(jié)合為整體。

ASA 天然具有可解釋性。

Preliminary

表示輸入的特征，在傳統(tǒng)的對抗訓(xùn)練中，通常是 token 序列或者是 token 的 embedding，表示 ground truth. 對于由參數(shù)化的模型，模型的預(yù)測結(jié)果可以表示為。

2.1 Adversarial training

對抗訓(xùn)練的目的是旨在通過推近經(jīng)過擾動的模型預(yù)測和目標(biāo)分布之間的距離來提升模型的魯棒性：

其中代表經(jīng)過對抗擾動擾動后的模型預(yù)測，表示模型的目標(biāo)分布。對抗擾動通過最大化 empirical training risk 獲得：

其中是對做出的約束，希望在較小的情況下給模型造成較大的擾動。上述的兩個表示展示的就是對抗的過程。

2.2General Self-Attention

定義自注意力的表達式為：

在最普通的自注意力機制中代表全等矩陣，而之前的研究中，代表的是用來平滑注意力結(jié)構(gòu)的輸出分布的一定程度的先驗知識。作者在本文將定義為元素為的 binary 矩陣。

Adversarial Self-Attention Mechanism

3.1 Optimization

ASA 的目的是掩蓋模型中最脆弱的注意力單元。這些最脆弱的單元取決于模型的輸入，因此對抗可以表示為由輸入學(xué)習(xí)到的“meta-knowledge”：，ASA 注意力可以表示為：

與對抗訓(xùn)練類似，模型用來最小化如下的 divergence：

通過最大化 empirical risk 估計得到：

其中表示的是的決策邊界，用來防止 ASA 損害模型的訓(xùn)練。

考慮到以 attention mask 的形式存在，因此更適合通過約束 masked units 的比例來約束。由于很難測量。的具體數(shù)值，因此將 hard constraint 轉(zhuǎn)化為具有懲罰的 unconstraint：

其中 t 用來控制對抗的程度。

3.2 Implementation

作者提出了 ASA 的簡單且快速的實現(xiàn)。

對于第自注意力層，可以由輸入的隱層狀態(tài)獲得。具體而言，使用線性層將隱層狀態(tài)轉(zhuǎn)化為以及，通過點乘獲得矩陣，再通過重參數(shù)化技巧將矩陣 binary 化。由于對抗訓(xùn)練通常包括 inner maximization 以及 outer minimization 兩個目標(biāo)，因此至少需要兩次 backward 過程。因此為了加速訓(xùn)練，作者采用了 Gradient Reversal Layer（GRL）將兩個過程合并。

3.3 Training

訓(xùn)練目標(biāo)如下所示：

表示 task- specific 損失，表示加上 ASA 對抗后的損失，表示對于對于的約束。

Experiments

4.1Result

從上表可以看出，在微調(diào)方面，ASA 支持的模型始終在很大程度上超過了原始的BERT 和 RoBERTa. 可以看到，ASA 在小規(guī)模數(shù)據(jù)集比如說 STS-B，DREAM 上表現(xiàn)優(yōu)異（一般認為這些小規(guī)模數(shù)據(jù)集上更容易過擬合）同時在更大規(guī)模的數(shù)據(jù)集上如 MNLI，QNLI 以及 QQP 上仍然有較好的提升，說明了 ASA 在提升模型泛化能力的同時能提升模型的語言表示能力。如下表所示，ASA 在提升模型魯棒性上具有較大的作用。

4.2 分析實驗

1. VS. Naive smoothing 將 ASA 與其他注意力平滑方式進行比較。

2. VS. Adversial training 將 ASA 與其他對抗訓(xùn)練方式進行比較

4.3Visualization

1. Why ASA improves generalization 對抗能夠減弱關(guān)鍵詞的注意力而讓非關(guān)鍵詞接受更多的注意力。ASA 阻止了模型的懶惰預(yù)測，但敦促它從被污染的線索中學(xué)習(xí)，從而提高了泛化能力。

2. Bottom layers are more vulnerable 可以看到 masking 占比隨著層數(shù)由底層到高層逐漸降低，更高的 masking 占比意味著層的脆弱性更高。

Conclusion

本文提出了 Adversarial Self-Attention mechanism（ASA）來提高預(yù)訓(xùn)練語言模型的泛化性和魯棒性。大量實驗表明本文提出的方法能夠在預(yù)訓(xùn)練和微調(diào)階段提升模型的魯棒性。

·審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴