日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語言模型和對抗訓(xùn)練的工作

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-11-02 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文:Adversarial Training for Large NeuralLangUageModels

源碼:https://github.com/namisan/mt-dnn

TL;DR

本文把對抗訓(xùn)練用到了預(yù)訓(xùn)練和微調(diào)兩個階段,對抗訓(xùn)練的方法是針對embedding space,通過最大化對抗損失、最小化模型損失的方式進(jìn)行對抗,在下游任務(wù)上取得了一致的效果提升。

有趣的是,這種對抗訓(xùn)練方法不僅能夠在BERT上有提高,而且在RoBERTa這種已經(jīng)預(yù)訓(xùn)練好的模型上也能有所提高,說明對抗訓(xùn)練的確可以幫助模型糾正易錯點。

方法:ALUM(大型神經(jīng)語言模型的對抗性訓(xùn)練)

實現(xiàn):在embedding space添加擾動,最大化對抗損失

應(yīng)用:任何基于Transformer的語言模型的預(yù)訓(xùn)練或微調(diào)

預(yù)備知識

BPE編碼

為了解決詞匯表外單詞的問題,使用Byte-Pair Encoding(BPE)(Sennrich et al.,2015)或其變體(Kudo and Richardson,2018)將標(biāo)記劃分為子詞單元,生成固定大小的子詞詞匯,以便在訓(xùn)練文本語料庫中緊湊地表示單詞。

BPE詞表既存在char-level級別的字符,也存在word-level級別的單詞。通過BPE得到了更加合適的詞表,這個詞表可能會出現(xiàn)一些不是單詞的組合,但是這個本身是有意義的一種形式。

流程:

確定subword詞表大小

統(tǒng)計每一個連續(xù)字節(jié)對的出現(xiàn)頻率,并保存為code_file。這個是git中l(wèi)earn-bpe完成

將單詞拆分為字符序列并在末尾添加后綴“ ”,而后按照code_file合并新的subword,首先合并頻率出現(xiàn)最高的字節(jié)對。例如單詞birthday,分割為['b', 'i', 'r', 't', 'h', 'd', 'a', 'y'],查code_file,發(fā)現(xiàn)'th'出現(xiàn)的最多,那么合并為['b', 'i', 'r', 'th', 'd', 'a', 'y'],最后,字符序列合并為['birth', 'day']。然后去除'',變?yōu)閇'birth', 'day'],將這兩個詞添加到詞表。這個是apply-bpe完成。

重復(fù)第3步直到達(dá)到第2步設(shè)定的subword詞表大小或下一個最高頻的字節(jié)對出現(xiàn)頻率為1

模型:ALUM

基于幾個關(guān)鍵想法:

擾動embedding空間,優(yōu)于直接對輸入文本應(yīng)用擾動。

通過虛擬對抗訓(xùn)練為標(biāo)準(zhǔn)目標(biāo)添加正則化項。

其中預(yù)訓(xùn)練階段 ,微調(diào)階段

因為有最大化操作,所以訓(xùn)練昂貴。有利于embedding鄰域的標(biāo)簽平滑。

文中觀點:

虛擬對抗訓(xùn)練優(yōu)于傳統(tǒng)對抗訓(xùn)練,特別是當(dāng)標(biāo)簽可能有噪聲時。

例如,BERT pretraining使用masked words作為自監(jiān)督的標(biāo)簽,但在許多情況下,它們可以被其他詞取代,形成完全合法的文本。但BERT中,給到被替換的word的標(biāo)簽均為負(fù)。

算法

首先使用標(biāo)準(zhǔn)目標(biāo)(1)訓(xùn)練模型;然后使用虛擬對抗訓(xùn)練(3)繼續(xù)訓(xùn)練。

第4-6行為求最大梯度步驟,以找到使對抗性損失最大化的擾動(反局部平滑性)。K越大的近似值越高,但成本更高。為了在速度和性能之間取得良好的平衡,本文實驗K=1.

泛化與魯棒性

文中表示,通過使用ALUM進(jìn)行對抗性的預(yù)訓(xùn)練,能夠提高廣泛的NLP任務(wù)的泛化和魯棒性(如后述實驗結(jié)論所示)。之前的研究較多發(fā)現(xiàn),對抗訓(xùn)練會損害泛化能力。

先前關(guān)于泛化和魯棒性之間沖突的工作通常集中在有監(jiān)督的學(xué)習(xí)環(huán)境中。調(diào)和兩者的一些初顯成果也利用了未標(biāo)記的數(shù)據(jù),例如自訓(xùn)練(Raghunathan等人,2020年)。

此外,假設(shè)通過擾動embedding空間而不是輸入空間,NLP中的對抗訓(xùn)練可能無意中偏向于流形擾動而不是規(guī)則擾動。

什么是流形

流形學(xué)習(xí)的觀點:認(rèn)為我們所觀察到的數(shù)據(jù)實際上是由一個低維流形映射到高維空間的。由于數(shù)據(jù)內(nèi)部特征的限制,一些高維中的數(shù)據(jù)會產(chǎn)生維度上的冗余,實際上這些數(shù)據(jù)只要比較低的維度的維度就能唯一的表示。

所以直觀上來講,一個流形好比是一個d維的空間,在一個m維的空間中(m>d)被扭曲之后的結(jié)果。需要注意的是流形不是一個形狀,而是一個空間。舉個例子,比如說一塊布,可以把它看成一個二維的平面,這是一個二維的空間,現(xiàn)在我們把它扭一扭(三維空間),它就變成了一個流形,當(dāng)然不扭的時候,它也是一個流形,歐氏空間是流形的一種特殊情況。

實驗

提升泛化能力

BERT BASE是使用與Devlin等人相同的設(shè)置訓(xùn)練的標(biāo)準(zhǔn)BERT base模型。(即1M步,batch size = 256)。

BERT+BASE與BERT BASE相似,不同之處在于其訓(xùn)練步數(shù)為1.6M,與對抗預(yù)訓(xùn)練所需時間大致相同(ALUM BERT-BASE)。

ALUM BERT-BASE是一個BERT模型,使用與BERT BASE相同的設(shè)置進(jìn)行訓(xùn)練,但最后的500K步驟使用ALUM。每一個對抗訓(xùn)練步驟大約比標(biāo)準(zhǔn)訓(xùn)練步驟長1.5倍。

可以觀察到后500k加了ALUM后提升明顯。

提升魯棒性

結(jié)合對抗預(yù)訓(xùn)練和對抗微調(diào)

之前都是在預(yù)訓(xùn)練階段做的對抗,ALUM RoBERTa-LARGE-SMART在預(yù)訓(xùn)練和微調(diào)階段均做對抗。

結(jié)論

提出了一種通用的對抗性訓(xùn)練算法ALUM:

對抗預(yù)訓(xùn)練可以顯著提高泛化能力和魯棒性。

ALUM大大提高了BERT和RoBERTa在各種NLP任務(wù)中的準(zhǔn)確性,并且可以與對抗微調(diào)相結(jié)合以獲得進(jìn)一步的收益。

未來的發(fā)展方向:

進(jìn)一步研究對抗性預(yù)訓(xùn)練在提高泛化和魯棒性方面的作用;

對抗性訓(xùn)練加速;

將ALUM應(yīng)用于其他領(lǐng)域。

責(zé)任編輯:xj

原文標(biāo)題:【微軟ALUM】當(dāng)語言模型遇到對抗訓(xùn)練

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6754

    瀏覽量

    108098
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4810

    瀏覽量

    98603
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    575

    瀏覽量

    11345
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23345

原文標(biāo)題:【微軟ALUM】當(dāng)語言模型遇到對抗訓(xùn)練

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Edge Impulse 喚醒詞模型訓(xùn)練 | 技術(shù)集結(jié)

    今天,將手把手帶領(lǐng)學(xué)習(xí)如何訓(xùn)練一個語音關(guān)鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當(dāng)然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?1187次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b> | 技術(shù)集結(jié)

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    業(yè)、守規(guī)矩、可完全掌控的專屬 AI 底座,已經(jīng)成為頭部企業(yè)的隱性共識。 二、 核心破局:微調(diào)——用極低成本撬動專業(yè)能力 很多企業(yè)對“自主訓(xùn)練模型”存在誤解,認(rèn)為這需要像頂級科技巨頭那樣,耗費千萬算力
    發(fā)表于 04-16 18:48

    AI模型訓(xùn)練與部署實戰(zhàn) | 線下免費培訓(xùn)

    你是否想系統(tǒng)了解AI落地全鏈路,但缺少一個完整的實戰(zhàn)項目練手?模型部署環(huán)節(jié)繁多,缺乏一套清晰的實戰(zhàn)路徑?4月18日、4月25日、5月16日RT-Thread將分別在蘇州、成都、南京舉辦“AI模型訓(xùn)練
    的頭像 發(fā)表于 04-07 13:08 ?688次閱讀
    AI<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>與部署實戰(zhàn) | 線下免費培訓(xùn)

    工作流大模型節(jié)點說明

    模型節(jié)點是平臺提供的基礎(chǔ)節(jié)點之一,開發(fā)者可以在該節(jié)點使用大語言模型處理任務(wù)。 節(jié)點說明 大模型節(jié)點可以調(diào)用大型語言
    發(fā)表于 03-19 14:56

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓(xùn)練所需的算力投入。一個萬億參數(shù)大模型訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?1053次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬億級別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言
    的頭像 發(fā)表于 02-02 16:36 ?1151次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議AAAI 2026收錄。這一成果標(biāo)志著摩爾線程在大模型基礎(chǔ)技術(shù)探索上邁出
    的頭像 發(fā)表于 11-17 16:03 ?614次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    一文了解Mojo編程語言

    Mojo 是一種由 Modular AI 公司開發(fā)的編程語言,旨在將 Python 的易用性與 C 語言的高性能相結(jié)合,特別適合人工智能(AI)、高性能計算(HPC)和系統(tǒng)級編程場景。以下是關(guān)于
    發(fā)表于 11-07 05:59

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個手寫數(shù)字識
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運(yùn)維團(tuán)隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架,提供了靈
    的頭像 發(fā)表于 10-21 10:55 ?1428次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架提高顯存使用效率

    如何在TPU上使用JAX訓(xùn)練GPT-2模型

    如果您對如何使用 JAX 從頭開始構(gòu)建語言模型感到好奇,那么本文非常適合您。我們在 2025 年 Google Cloud Next 大會上舉辦了一場關(guān)于此主題的研討會,并獲得了一些很好的反饋,我們也為所有無法參會的開發(fā)者編寫了
    的頭像 發(fā)表于 09-03 11:39 ?1840次閱讀
    如何在TPU上使用JAX<b class='flag-5'>訓(xùn)練</b>GPT-2<b class='flag-5'>模型</b>

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們早期的研究提出了一種訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?678次閱讀
    利用自壓縮實現(xiàn)大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    沐曦MXMACA軟件平臺在大模型訓(xùn)練方面的優(yōu)化效果

    在如今的人工智能浪潮中,大規(guī)模語言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓(xùn)練這些龐大的模型往往面臨“算力不足、顯存不
    的頭像 發(fā)表于 07-03 14:09 ?2441次閱讀
    沐曦MXMACA軟件平臺在大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>方面的優(yōu)化效果

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38
    金平| 永德县| 扶沟县| 洞头县| 宁陵县| 兴化市| 若尔盖县| 定安县| 资阳市| 温泉县| 新绛县| 海安县| 遵义市| 于田县| 青岛市| 安龙县| 德江县| 宝清县| 常德市| 长沙市| 巴里| 北流市| 大港区| 酉阳| 离岛区| 梅河口市| 江阴市| 华阴市| 岐山县| 金沙县| 二连浩特市| 长阳| 兴业县| 孟州市| 五常市| 襄城县| 栾城县| 丹凤县| 乌苏市| 衡水市| 临沂市|