人妻精品无码一区二区,国产精品啪视频,日韩三级在线观看

微軟亞洲研究院的研究員在 ICML 2019 上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法 MASS，在序列到序列的自然語(yǔ)言生成任務(wù)中全面超越 BERT 和 GPT。本文帶來(lái)論文作者的技術(shù)解讀。

從 2018 年開(kāi)始，預(yù)訓(xùn)練（pre-train）毫無(wú)疑問(wèn)成為 NLP 領(lǐng)域最熱的研究方向。

借助于 BERT 和 GPT 等預(yù)訓(xùn)練模型，人類在多個(gè)自然語(yǔ)言理解任務(wù)中取得了重大突破。然而，在序列到序列的自然語(yǔ)言生成任務(wù)中，目前主流預(yù)訓(xùn)練模型并沒(méi)有取得顯著效果。

為此，微軟亞洲研究院的研究員在 ICML 2019 上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法 MASS，在序列到序列的自然語(yǔ)言生成任務(wù)中全面超越 BERT 和 GPT。在微軟參加的 WMT19 機(jī)器翻譯比賽中，MASS 幫助中 - 英、英 - 立陶宛兩個(gè)語(yǔ)言對(duì)取得了第一名的成績(jī)。

BERT 在自然語(yǔ)言理解（比如情感分類、自然語(yǔ)言推理、命名實(shí)體識(shí)別、SQuAD 閱讀理解等）任務(wù)中取得了很好的結(jié)果，受到了越來(lái)越多的關(guān)注。然而，在自然語(yǔ)言處理領(lǐng)域，除了自然語(yǔ)言理解任務(wù)，還有很多序列到序列的自然語(yǔ)言生成任務(wù)，比如機(jī)器翻譯、文本摘要生成、對(duì)話生成、問(wèn)答、文本風(fēng)格轉(zhuǎn)換等。在這類任務(wù)中，目前主流的方法是編碼器 - 注意力 - 解碼器框架，如下圖所示。

編碼器 - 注意力 - 解碼器框架

編碼器（Encoder）將源序列文本 X 編碼成隱藏向量序列，然后解碼器（Decoder）通過(guò)注意力機(jī)制（Attention）抽取編碼的隱藏向量序列信息，自回歸地生成目標(biāo)序列文本 Y。

BERT 通常只訓(xùn)練一個(gè)編碼器用于自然語(yǔ)言理解，而 GPT 的語(yǔ)言模型通常是訓(xùn)練一個(gè)解碼器。如果要將 BERT 或者 GPT 用于序列到序列的自然語(yǔ)言生成任務(wù)，通常只有分開(kāi)預(yù)訓(xùn)練編碼器和解碼器，因此編碼器 - 注意力 - 解碼器結(jié)構(gòu)沒(méi)有被聯(lián)合訓(xùn)練，記憶力機(jī)制也不會(huì)被預(yù)訓(xùn)練，而解碼器對(duì)編碼器的注意力機(jī)制在這類任務(wù)中非常重要，因此 BERT 和 GPT 在這類任務(wù)中只能達(dá)到次優(yōu)效果。

新的預(yù)訓(xùn)練方法 ——MASS

專門(mén)針對(duì)序列到序列的自然語(yǔ)言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法：屏蔽序列到序列預(yù)訓(xùn)練（MASS: Masked Sequence to Sequence Pre-training）。MASS 對(duì)句子隨機(jī)屏蔽一個(gè)長(zhǎng)度為 k 的連續(xù)片段，然后通過(guò)編碼器 - 注意力 - 解碼器模型預(yù)測(cè)生成該片段。

屏蔽序列到序列預(yù)訓(xùn)練 MASS 模型框架

如上圖所示，編碼器端的第 3-6 個(gè)詞被屏蔽掉，然后解碼器端只預(yù)測(cè)這幾個(gè)連續(xù)的詞，而屏蔽掉其它詞，圖中 “_” 代表被屏蔽的詞。

MASS 預(yù)訓(xùn)練有以下幾大優(yōu)勢(shì)：

（1）解碼器端其它詞（在編碼器端未被屏蔽掉的詞）都被屏蔽掉，以鼓勵(lì)解碼器從編碼器端提取信息來(lái)幫助連續(xù)片段的預(yù)測(cè)，這樣能促進(jìn)編碼器 - 注意力 - 解碼器結(jié)構(gòu)的聯(lián)合訓(xùn)練；

（2）為了給解碼器提供更有用的信息，編碼器被強(qiáng)制去抽取未被屏蔽掉詞的語(yǔ)義，以提升編碼器理解源序列文本的能力；

（3）讓解碼器預(yù)測(cè)連續(xù)的序列片段，以提升解碼器的語(yǔ)言建模能力。

統(tǒng)一的預(yù)訓(xùn)練框架

MASS 有一個(gè)重要的超參數(shù) k（屏蔽的連續(xù)片段長(zhǎng)度），通過(guò)調(diào)整 k 的大小，MASS 能包含 BERT 中的屏蔽語(yǔ)言模型訓(xùn)練方法以及 GPT 中標(biāo)準(zhǔn)的語(yǔ)言模型預(yù)訓(xùn)練方法，使 MASS 成為一個(gè)通用的預(yù)訓(xùn)練框架。

當(dāng) k=1 時(shí)，根據(jù) MASS 的設(shè)定，編碼器端屏蔽一個(gè)單詞，解碼器端預(yù)測(cè)一個(gè)單詞，如下圖所示。解碼器端沒(méi)有任何輸入信息，這時(shí) MASS 和 BERT 中的屏蔽語(yǔ)言模型的預(yù)訓(xùn)練方法等價(jià)。

當(dāng) k=m（m 為序列長(zhǎng)度）時(shí)，根據(jù) MASS 的設(shè)定，編碼器屏蔽所有的單詞，解碼器預(yù)測(cè)所有單詞，如下圖所示，由于編碼器端所有詞都被屏蔽掉，解碼器的注意力機(jī)制相當(dāng)于沒(méi)有獲取到信息，在這種情況下 MASS 等價(jià)于 GPT 中的標(biāo)準(zhǔn)語(yǔ)言模型。

MASS 在不同 K 下的概率形式如下表所示，其中 m 為序列長(zhǎng)度，u 和 v 為屏蔽序列的開(kāi)始和結(jié)束位置，x^u:v 表示從位置 u 到 v 的序列片段，x^\u:v 表示該序列從位置 u 到 v 被屏蔽掉?？梢钥吹?，當(dāng)K=1 或者 m 時(shí)，MASS 的概率形式分別和 BERT 中的屏蔽語(yǔ)言模型以及 GPT 中的標(biāo)準(zhǔn)語(yǔ)言模型一致。

我們通過(guò)實(shí)驗(yàn)分析了屏蔽 MASS 模型中不同的片段長(zhǎng)度（k）進(jìn)行預(yù)訓(xùn)練的效果，如下圖所示。

當(dāng) k 取大約句子長(zhǎng)度一半時(shí)（50% m），下游任務(wù)能達(dá)到最優(yōu)性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預(yù)訓(xùn)練，過(guò)度偏向編碼器（k=1，即 BERT）或者過(guò)度偏向解碼器（k=m，即 LM/GPT）都不能在該任務(wù)中取得最優(yōu)的效果，由此可以看出 MASS 在序列到序列的自然語(yǔ)言生成任務(wù)中的優(yōu)勢(shì)。

序列到序列自然語(yǔ)言生成任務(wù)實(shí)驗(yàn)

預(yù)訓(xùn)練流程

MASS 只需要無(wú)監(jiān)督的單語(yǔ)數(shù)據(jù)（比如 WMT News Crawl Data、Wikipedia Data 等）進(jìn)行預(yù)訓(xùn)練。MASS 支持跨語(yǔ)言的序列到序列生成（比如機(jī)器翻譯），也支持單語(yǔ)言的序列到序列生成（比如文本摘要生成、對(duì)話生成）。當(dāng)預(yù)訓(xùn)練 MASS 支持跨語(yǔ)言任務(wù)時(shí)（比如英語(yǔ) - 法語(yǔ)機(jī)器翻譯），我們?cè)谝粋€(gè)模型里同時(shí)進(jìn)行英語(yǔ)到英語(yǔ)以及法語(yǔ)到法語(yǔ)的預(yù)訓(xùn)練。需要單獨(dú)給每個(gè)語(yǔ)言加上相應(yīng)的語(yǔ)言嵌入向量，用來(lái)區(qū)分不同的語(yǔ)言。我們選取了無(wú)監(jiān)督機(jī)器翻譯、低資源機(jī)器翻譯、文本摘要生成以及對(duì)話生成四個(gè)任務(wù)，將 MASS 預(yù)訓(xùn)練模型針對(duì)各個(gè)任務(wù)進(jìn)行精調(diào)，以驗(yàn)證 MASS 的效果。

無(wú)監(jiān)督機(jī)器翻譯

在無(wú)監(jiān)督翻譯任務(wù)上，我們和當(dāng)前最強(qiáng)的 Facebook XLM 作比較（XLM 用 BERT 中的屏蔽預(yù)訓(xùn)練模型，以及標(biāo)準(zhǔn)語(yǔ)言模型來(lái)分別預(yù)訓(xùn)練編碼器和解碼器），對(duì)比結(jié)果如下表所示。

可以看到，MASS 的預(yù)訓(xùn)練方法在 WMT14 英語(yǔ) - 法語(yǔ)、WMT16 英語(yǔ) - 德語(yǔ)一共 4 個(gè)翻譯方向上的表現(xiàn)都優(yōu)于 XLM。MASS 在英語(yǔ) - 法語(yǔ)無(wú)監(jiān)督翻譯上的效果已經(jīng)遠(yuǎn)超早期有監(jiān)督的編碼器 - 注意力 - 解碼器模型，同時(shí)極大縮小了和當(dāng)前最好的有監(jiān)督模型之間的差距。

低資源機(jī)器翻譯

低資源機(jī)器翻譯指的是監(jiān)督數(shù)據(jù)有限情況下的機(jī)器翻譯。我們?cè)?WMT14 英語(yǔ) - 法語(yǔ)、WMT16 英語(yǔ) - 德語(yǔ)上的不同低資源場(chǎng)景上（分別只有 10K、100K、1M 的監(jiān)督數(shù)據(jù)）驗(yàn)證我們方法的有效性，結(jié)果如下所示。

在不同的數(shù)據(jù)規(guī)模下，我們的預(yù)訓(xùn)練方法的表現(xiàn)均比不用預(yù)訓(xùn)練的基線模型有不同程度的提升，監(jiān)督數(shù)據(jù)越少，提升效果越顯著。

文本摘要生成

在文本摘要生成（Gigaword Corpus）任務(wù)上，我們將 MASS 同 BERT+LM（編碼器用 BERT 預(yù)訓(xùn)練，解碼器用標(biāo)準(zhǔn)語(yǔ)言模型 LM 預(yù)訓(xùn)練）以及 DAE（去噪自編碼器）進(jìn)行了比較。從下表可以看到，MASS 的效果明顯優(yōu)于 BERT+LM 以及 DAE。

對(duì)話生成

在對(duì)話生成（Cornell Movie Dialog Corpus）任務(wù)上，我們將 MASS 同 BERT+LM 進(jìn)行了比較，結(jié)果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然語(yǔ)言生成任務(wù)中，MASS 均取得了非常不錯(cuò)的效果。接下來(lái)，我們還將測(cè)試 MASS 在自然語(yǔ)言理解任務(wù)上的性能，并為該模型增加支持監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練的功能，以期望在更多自然語(yǔ)言任務(wù)中取得提升。未來(lái)，我們還希望將 MASS 的應(yīng)用領(lǐng)域擴(kuò)展到包含語(yǔ)音、視頻等其它序列到序列的生成任務(wù)中。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴