日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟在ICML 2019上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法MASS

DPVg_AI_era ? 來(lái)源:lq ? 2019-05-11 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟亞洲研究院的研究員在 ICML 2019 上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法 MASS,在序列到序列的自然語(yǔ)言生成任務(wù)中全面超越 BERT 和 GPT。本文帶來(lái)論文作者的技術(shù)解讀。

從 2018 年開(kāi)始,預(yù)訓(xùn)練(pre-train) 毫無(wú)疑問(wèn)成為 NLP 領(lǐng)域最熱的研究方向。

借助于 BERT 和 GPT 等預(yù)訓(xùn)練模型,人類在多個(gè)自然語(yǔ)言理解任務(wù)中取得了重大突破。然而,在序列到序列的自然語(yǔ)言生成任務(wù)中,目前主流預(yù)訓(xùn)練模型并沒(méi)有取得顯著效果。

為此,微軟亞洲研究院的研究員在 ICML 2019 上提出了一個(gè)全新的通用預(yù)訓(xùn)練方法 MASS,在序列到序列的自然語(yǔ)言生成任務(wù)中全面超越 BERT 和 GPT。在微軟參加的 WMT19 機(jī)器翻譯比賽中,MASS 幫助中 - 英、英 - 立陶宛兩個(gè)語(yǔ)言對(duì)取得了第一名的成績(jī)。

BERT 在自然語(yǔ)言理解(比如情感分類、自然語(yǔ)言推理、命名實(shí)體識(shí)別、SQuAD 閱讀理解等)任務(wù)中取得了很好的結(jié)果,受到了越來(lái)越多的關(guān)注。然而,在自然語(yǔ)言處理領(lǐng)域,除了自然語(yǔ)言理解任務(wù),還有很多序列到序列的自然語(yǔ)言生成任務(wù),比如機(jī)器翻譯、文本摘要生成、對(duì)話生成、問(wèn)答、文本風(fēng)格轉(zhuǎn)換等。在這類任務(wù)中,目前主流的方法是編碼器 - 注意力 - 解碼器框架,如下圖所示。

編碼器 - 注意力 - 解碼器框架

編碼器(Encoder)將源序列文本 X 編碼成隱藏向量序列,然后解碼器(Decoder)通過(guò)注意力機(jī)制(Attention)抽取編碼的隱藏向量序列信息,自回歸地生成目標(biāo)序列文本 Y。

BERT 通常只訓(xùn)練一個(gè)編碼器用于自然語(yǔ)言理解,而 GPT 的語(yǔ)言模型通常是訓(xùn)練一個(gè)解碼器。如果要將 BERT 或者 GPT 用于序列到序列的自然語(yǔ)言生成任務(wù),通常只有分開(kāi)預(yù)訓(xùn)練編碼器和解碼器,因此編碼器 - 注意力 - 解碼器結(jié)構(gòu)沒(méi)有被聯(lián)合訓(xùn)練,記憶力機(jī)制也不會(huì)被預(yù)訓(xùn)練,而解碼器對(duì)編碼器的注意力機(jī)制在這類任務(wù)中非常重要,因此 BERT 和 GPT 在這類任務(wù)中只能達(dá)到次優(yōu)效果。

新的預(yù)訓(xùn)練方法 ——MASS

專門(mén)針對(duì)序列到序列的自然語(yǔ)言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence to Sequence Pre-training)。MASS 對(duì)句子隨機(jī)屏蔽一個(gè)長(zhǎng)度為 k 的連續(xù)片段,然后通過(guò)編碼器 - 注意力 - 解碼器模型預(yù)測(cè)生成該片段。

屏蔽序列到序列預(yù)訓(xùn)練 MASS 模型框架

如上圖所示,編碼器端的第 3-6 個(gè)詞被屏蔽掉,然后解碼器端只預(yù)測(cè)這幾個(gè)連續(xù)的詞,而屏蔽掉其它詞,圖中 “_” 代表被屏蔽的詞。

MASS 預(yù)訓(xùn)練有以下幾大優(yōu)勢(shì):

(1)解碼器端其它詞(在編碼器端未被屏蔽掉的詞)都被屏蔽掉,以鼓勵(lì)解碼器從編碼器端提取信息來(lái)幫助連續(xù)片段的預(yù)測(cè),這樣能促進(jìn)編碼器 - 注意力 - 解碼器結(jié)構(gòu)的聯(lián)合訓(xùn)練;

(2)為了給解碼器提供更有用的信息,編碼器被強(qiáng)制去抽取未被屏蔽掉詞的語(yǔ)義,以提升編碼器理解源序列文本的能力;

(3)讓解碼器預(yù)測(cè)連續(xù)的序列片段,以提升解碼器的語(yǔ)言建模能力。

統(tǒng)一的預(yù)訓(xùn)練框架

MASS 有一個(gè)重要的超參數(shù) k(屏蔽的連續(xù)片段長(zhǎng)度),通過(guò)調(diào)整 k 的大小,MASS 能包含 BERT 中的屏蔽語(yǔ)言模型訓(xùn)練方法以及 GPT 中標(biāo)準(zhǔn)的語(yǔ)言模型預(yù)訓(xùn)練方法,使 MASS 成為一個(gè)通用的預(yù)訓(xùn)練框架。

當(dāng) k=1 時(shí),根據(jù) MASS 的設(shè)定,編碼器端屏蔽一個(gè)單詞,解碼器端預(yù)測(cè)一個(gè)單詞,如下圖所示。解碼器端沒(méi)有任何輸入信息,這時(shí) MASS 和 BERT 中的屏蔽語(yǔ)言模型的預(yù)訓(xùn)練方法等價(jià)。

當(dāng) k=m(m 為序列長(zhǎng)度)時(shí),根據(jù) MASS 的設(shè)定,編碼器屏蔽所有的單詞,解碼器預(yù)測(cè)所有單詞,如下圖所示,由于編碼器端所有詞都被屏蔽掉,解碼器的注意力機(jī)制相當(dāng)于沒(méi)有獲取到信息,在這種情況下 MASS 等價(jià)于 GPT 中的標(biāo)準(zhǔn)語(yǔ)言模型。

MASS 在不同 K 下的概率形式如下表所示,其中 m 為序列長(zhǎng)度,u 和 v 為屏蔽序列的開(kāi)始和結(jié)束位置,x^u:v 表示從位置 u 到 v 的序列片段,x^\u:v 表示該序列從位置 u 到 v 被屏蔽掉??梢钥吹?,當(dāng)K=1 或者 m 時(shí),MASS 的概率形式分別和 BERT 中的屏蔽語(yǔ)言模型以及 GPT 中的標(biāo)準(zhǔn)語(yǔ)言模型一致。

我們通過(guò)實(shí)驗(yàn)分析了屏蔽 MASS 模型中不同的片段長(zhǎng)度(k)進(jìn)行預(yù)訓(xùn)練的效果,如下圖所示。

當(dāng) k 取大約句子長(zhǎng)度一半時(shí)(50% m),下游任務(wù)能達(dá)到最優(yōu)性能。屏蔽句子中一半的詞可以很好地平衡編碼器和解碼器的預(yù)訓(xùn)練,過(guò)度偏向編碼器(k=1,即 BERT)或者過(guò)度偏向解碼器(k=m,即 LM/GPT)都不能在該任務(wù)中取得最優(yōu)的效果,由此可以看出 MASS 在序列到序列的自然語(yǔ)言生成任務(wù)中的優(yōu)勢(shì)。

序列到序列自然語(yǔ)言生成任務(wù)實(shí)驗(yàn)

預(yù)訓(xùn)練流程

MASS 只需要無(wú)監(jiān)督的單語(yǔ)數(shù)據(jù)(比如 WMT News Crawl Data、Wikipedia Data 等)進(jìn)行預(yù)訓(xùn)練。MASS 支持跨語(yǔ)言的序列到序列生成(比如機(jī)器翻譯),也支持單語(yǔ)言的序列到序列生成(比如文本摘要生成、對(duì)話生成)。當(dāng)預(yù)訓(xùn)練 MASS 支持跨語(yǔ)言任務(wù)時(shí)(比如英語(yǔ) - 法語(yǔ)機(jī)器翻譯),我們?cè)谝粋€(gè)模型里同時(shí)進(jìn)行英語(yǔ)到英語(yǔ)以及法語(yǔ)到法語(yǔ)的預(yù)訓(xùn)練。需要單獨(dú)給每個(gè)語(yǔ)言加上相應(yīng)的語(yǔ)言嵌入向量,用來(lái)區(qū)分不同的語(yǔ)言。我們選取了無(wú)監(jiān)督機(jī)器翻譯、低資源機(jī)器翻譯、文本摘要生成以及對(duì)話生成四個(gè)任務(wù),將 MASS 預(yù)訓(xùn)練模型針對(duì)各個(gè)任務(wù)進(jìn)行精調(diào),以驗(yàn)證 MASS 的效果。

無(wú)監(jiān)督機(jī)器翻譯

在無(wú)監(jiān)督翻譯任務(wù)上,我們和當(dāng)前最強(qiáng)的 Facebook XLM 作比較(XLM 用 BERT 中的屏蔽預(yù)訓(xùn)練模型,以及標(biāo)準(zhǔn)語(yǔ)言模型來(lái)分別預(yù)訓(xùn)練編碼器和解碼器),對(duì)比結(jié)果如下表所示。

可以看到,MASS 的預(yù)訓(xùn)練方法在 WMT14 英語(yǔ) - 法語(yǔ)、WMT16 英語(yǔ) - 德語(yǔ)一共 4 個(gè)翻譯方向上的表現(xiàn)都優(yōu)于 XLM。MASS 在英語(yǔ) - 法語(yǔ)無(wú)監(jiān)督翻譯上的效果已經(jīng)遠(yuǎn)超早期有監(jiān)督的編碼器 - 注意力 - 解碼器模型,同時(shí)極大縮小了和當(dāng)前最好的有監(jiān)督模型之間的差距。

低資源機(jī)器翻譯

低資源機(jī)器翻譯指的是監(jiān)督數(shù)據(jù)有限情況下的機(jī)器翻譯。我們?cè)?WMT14 英語(yǔ) - 法語(yǔ)、WMT16 英語(yǔ) - 德語(yǔ)上的不同低資源場(chǎng)景上(分別只有 10K、100K、1M 的監(jiān)督數(shù)據(jù))驗(yàn)證我們方法的有效性,結(jié)果如下所示。

在不同的數(shù)據(jù)規(guī)模下,我們的預(yù)訓(xùn)練方法的表現(xiàn)均比不用預(yù)訓(xùn)練的基線模型有不同程度的提升,監(jiān)督數(shù)據(jù)越少,提升效果越顯著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任務(wù)上,我們將 MASS 同 BERT+LM(編碼器用 BERT 預(yù)訓(xùn)練,解碼器用標(biāo)準(zhǔn)語(yǔ)言模型 LM 預(yù)訓(xùn)練)以及 DAE(去噪自編碼器)進(jìn)行了比較。從下表可以看到,MASS 的效果明顯優(yōu)于 BERT+LM 以及 DAE。

對(duì)話生成

在對(duì)話生成(Cornell Movie Dialog Corpus)任務(wù)上,我們將 MASS 同 BERT+LM 進(jìn)行了比較,結(jié)果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然語(yǔ)言生成任務(wù)中,MASS 均取得了非常不錯(cuò)的效果。接下來(lái),我們還將測(cè)試 MASS 在自然語(yǔ)言理解任務(wù)上的性能,并為該模型增加支持監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練的功能,以期望在更多自然語(yǔ)言任務(wù)中取得提升。未來(lái),我們還希望將 MASS 的應(yīng)用領(lǐng)域擴(kuò)展到包含語(yǔ)音、視頻等其它序列到序列的生成任務(wù)中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6754

    瀏覽量

    108098
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4013

    瀏覽量

    143452
  • 自然語(yǔ)言
    +關(guān)注

    關(guān)注

    1

    文章

    292

    瀏覽量

    14027

原文標(biāo)題:【ICML 2019】微軟最新通用預(yù)訓(xùn)練模型MASS,超越BERT、GPT!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    VirtualLab Fusion:基于微軟專利的蝴蝶型出瞳擴(kuò)展光導(dǎo)

    入器到耦出器之間傳播過(guò)程中分離視場(chǎng)的系統(tǒng)。種非常流行的方法是所謂的“蝴蝶光瞳擴(kuò)展”,即兩個(gè)單獨(dú)的EPE光柵區(qū)域用于視場(chǎng)的正負(fù)部分,這也應(yīng)用于微軟的Hololens 2。
    發(fā)表于 04-28 08:11

    Edge Impulse 喚醒詞模型訓(xùn)練 | 技術(shù)集結(jié)

    今天,將手把手帶領(lǐng)學(xué)習(xí)如何訓(xùn)練個(gè)語(yǔ)音關(guān)鍵詞模型部署到嵌入式硬件,采用Edgi-Talk平臺(tái)適配EdgeImpulse,當(dāng)然原理在其他的ARM嵌入式平臺(tái)也是
    的頭像 發(fā)表于 04-20 10:05 ?1256次閱讀
    Edge Impulse 喚醒詞模型<b class='flag-5'>訓(xùn)練</b> | 技術(shù)集結(jié)

    川土微電子推出CA-IS1200C系列全新一通用隔離式運(yùn)放

    川土微電子全新一代CA-IS1200C系列通用隔離式運(yùn)放,繼承CA-IS1200經(jīng)典性能基礎(chǔ),實(shí)現(xiàn)了從精度、功耗到集成度的全面進(jìn)化。
    的頭像 發(fā)表于 04-14 15:20 ?2078次閱讀
    川土微電子推出CA-IS1200C系列<b class='flag-5'>全新一</b>代<b class='flag-5'>通用</b>隔離式運(yùn)放

    無(wú)法啟動(dòng)預(yù)安裝的 Ubuntu 23.10 服務(wù)器映像怎么解決?

    我最近收到了塊 StarFive VisionFive 2 板。我能夠使用 TFTP 方法成功刷新 U-Boot 和 SPL 固件,如《快速入門(mén)指南》第 3.8.1 條中所述。 我無(wú)法按照以下說(shuō)明
    發(fā)表于 02-09 07:25

    deepin 25安裝OpenClaw的步驟及飛書(shū)接入方法

    本篇將從普通用戶視角,分享 deepin 25 安裝 OpenClaw 的步驟及飛書(shū)接入方法。
    的頭像 發(fā)表于 02-05 15:17 ?2165次閱讀
    <b class='flag-5'>在</b>deepin 25<b class='flag-5'>上</b>安裝OpenClaw的步驟及飛書(shū)接入<b class='flag-5'>方法</b>

    是否可以將 Vision Five 2 配置為 SuperSpeed 的 USB 3.0 mass_storage小工具?

    是否可以將 Vision Five 2 配置為 SuperSpeed 的 USB 3.0 mass_storage小工具?到目前為止,我們只設(shè)法獲得了 HighSpeed。
    發(fā)表于 01-30 07:59

    微軟全新AI超級(jí)工廠Fairwater亞特蘭大落成

    微軟正式發(fā)布位于美國(guó)喬治亞州亞特蘭大的 Azure AI 數(shù)據(jù)中心 Fairwater 站點(diǎn)。全新的數(shù)據(jù)中心將與威斯康星州的首個(gè) Fairwater 站點(diǎn)、前幾代 AI 超級(jí)計(jì)算機(jī)以及全球 Azure 數(shù)據(jù)中心深度互聯(lián),共同構(gòu)建首個(gè)全球規(guī)模的 AI 超級(jí)工廠 Fairwa
    的頭像 發(fā)表于 12-09 17:31 ?880次閱讀

    喜報(bào)|華微軟件AI研發(fā)持續(xù)推進(jìn),再添項(xiàng)核心專利

    。 實(shí)際使用中,許多智能系統(tǒng)仍依賴用戶輸入固定指令(如“開(kāi)燈”“查詢訂單”)才能執(zhí)行操作,定程度上限制了交互的靈活性,增加了使用負(fù)擔(dān)。而本項(xiàng)專利提出了種基于大語(yǔ)言模型的新型控制
    的頭像 發(fā)表于 11-27 15:02 ?235次閱讀
    喜報(bào)|華<b class='flag-5'>微軟</b>件AI研發(fā)持續(xù)推進(jìn),再添<b class='flag-5'>一</b>項(xiàng)核心專利

    Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的些經(jīng)驗(yàn)

    本帖欲分享Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是
    發(fā)表于 10-22 07:03

    微軟Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    與高效開(kāi)發(fā)體驗(yàn)。? ” ?? 微軟剛剛放出了個(gè)重磅炸彈: Visual Studio 2026 Insiders 預(yù)覽版 ?已經(jīng)正式發(fā)布! 這是
    的頭像 發(fā)表于 09-16 11:17 ?2382次閱讀
    <b class='flag-5'>微軟</b>Visual Studio 2026 發(fā)布!AI 深度融合、性能提升

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來(lái),機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA模型H-RDT

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書(shū)籍介紹+第章讀后心得

    token(模型處理文本的基本單位)激活370億個(gè)參數(shù)。該模型14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行預(yù)訓(xùn)練,采用MLA和MoE架構(gòu)。這些架構(gòu)
    發(fā)表于 07-17 11:59

    樹(shù)莓派5的Gemma 2:如何打造高效的邊緣AI解決方案?

    通用集成機(jī)器模型算法,第二版)是個(gè)復(fù)雜的框架,專為可擴(kuò)展和靈活的機(jī)器學(xué)習(xí)模型訓(xùn)練而設(shè)計(jì),特別是分布式和資源受限的環(huán)境中。在其前身的基礎(chǔ)
    的頭像 發(fā)表于 06-20 16:57 ?1834次閱讀
    樹(shù)莓派5<b class='flag-5'>上</b>的Gemma 2:如何打造高效的邊緣AI解決方案?

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.62】本書(shū)讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    個(gè)參數(shù)的混合專家模型(MoE) ,每個(gè)token(模型處理文本的基本單位)激活 370 億個(gè)參數(shù)。該模型 14.8 萬(wàn)億個(gè)高質(zhì)量 token上進(jìn)行
    發(fā)表于 06-09 14:38

    基于RK3576開(kāi)發(fā)板的yolov11-track多目標(biāo)跟蹤部署教程

    YOLO11是 Ultralytics YOLO系列實(shí)時(shí)物體檢測(cè)器的最新版本,重新定義了尖端準(zhǔn)確度、速度和效率方面的可能性。在前幾代 YOLO 版本的顯著進(jìn)步基礎(chǔ),YOLO11 架構(gòu)和訓(xùn)
    的頭像 發(fā)表于 05-24 15:07 ?2734次閱讀
    基于RK3576開(kāi)發(fā)板的yolov11-track多目標(biāo)跟蹤部署教程
    雅安市| 兴隆县| 武邑县| 云梦县| 柳林县| 纳雍县| 宾川县| 涞源县| 扎赉特旗| 大足县| 曲沃县| 新龙县| 遂川县| 青冈县| 兴宁市| 松江区| 西畴县| 如皋市| 龙口市| 博客| 本溪市| 建德市| 河源市| 拜城县| 兰坪| 巴楚县| 杂多县| 康保县| 丰顺县| 象山县| 正定县| 阜南县| 余庆县| 湛江市| 乌鲁木齐市| 大新县| 铅山县| 贵德县| 绥滨县| 西畴县| 铅山县|