日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于亂序語言模型的預訓練模型-PERT

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-10 15:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

今天分享給大家一篇哈工大訊飛聯(lián)合實驗室的論文,一種基于亂序語言模型的預訓練模型-PERT,全名《PERT: PRE-TRAINING BERT WITH PERMUTED LANGUAGE MODEL》。該篇論文的核心是,將MLM語言模型的掩碼詞預測任務,替換成詞序預測任務,也就是在不引入掩碼標記[MASK]的情況下自監(jiān)督地學習文本語義信息,隨機將一段文本的部分詞序打亂,然后預測被打亂詞語的原始位置。

PERT模型的Github以及對應的開源模型其實年前就出來了,只是論文沒有放出。今天一瞬間想起來去看一眼,這不,論文在3月14號的時候掛到了axirv上,今天分享給大家。

paper:https://arxiv.org/pdf/2203.06906.pdf
github:https://github.com/ymcui/PERT

介紹

預訓練語言模型(PLMs)目前在各種自然語言處理任務中均取得了優(yōu)異的效果。預訓練語言模型主要分為自編碼和自回歸兩種。自編碼PLMs的預訓練任務通常是掩碼語言模型任務,即在預訓練階段,使用[MASK]標記替換原始輸入文本中的一些token,并在詞匯表中恢復這些被[MASK]的token。

常用預訓練語言模型總結:https://zhuanlan.zhihu.com/p/406512290

那么,自編碼PLMs只能使用掩碼語言模型任務作為預訓練任務嗎?我們發(fā)現一個有趣的現象“在一段文本中隨機打亂幾個字并不會影響我們對這一段文本的理解”,如下圖所示,乍一看,可能沒有注意到句子中存在一些亂序詞語,并且可以抓住句子的中心意思。該論文探究了是否可以通過打亂句子中的字詞來學習上下文的文本表征,并提出了一個新的預訓練任務,即亂序語言模型(PerLM)。e8d52ce8-cf96-11ec-bce3-dac502259ad0.png

模型

PERT模型結構如上圖所示。PERT模型結構與BERT模型結構相同,僅在模型輸入以及預訓練目標上略有不同。

PERT模型的細節(jié)如下:

  • 采用亂序語言模型作為預訓練任務,預測目標為原始字詞的位置;
  • 預測空間大小取決于輸入序列長度,而不是整個詞表的大?。ㄑ诖a語言模型預測空間為詞表);
  • 不采用NSP任務;
  • 通過全詞屏蔽和N-gram屏蔽策略來選擇亂序的候選標記;
  • 亂序的候選標記的概率為15%,并且真正打亂順序僅占90%,剩余10%保持不變。

由于亂序語言模型不使用[MASK]標記,減輕了預訓練任務與微調任務之間的gap,并由于預測空間大小為輸入序列長度,使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致,因此在下游預訓練時,不需要修改原始BERT模型的任何代碼與腳本。注意,與預訓練階段不同,在微調階段使用正常的輸入序列,而不是打亂順序的序列。

中文實驗結果與分析

預訓練參數

  • 數據:由中文維基百科、百科全書、社區(qū)問答、新聞文章等組成,共5.4B字,大約20G。
  • 訓練參數:詞表大小為21128,最大序列長度為512,batch大小為416(base版模型)和128(large版模型),初始學習率為1e-4,使用 warmup動態(tài)調節(jié)學習率,總訓練步數為2M,采用ADAM優(yōu)化器。
  • 訓練設備:一臺TPU,128G。

機器閱讀理解MRC任務

在CMRC2018和DRCD兩個數據集上對機器閱讀理解任務進行評測,結果如下表所示。e8e7ca9c-cf96-11ec-bce3-dac502259ad0.png
PERT模型相比于MacBERT模型有部分的提高,并且始終優(yōu)于其他模型。

文本分類TC任務

在XNLI、LCQMC、BQ Corpus、ChnSentiCorp、TNEWS和OCNLI 6個數據集上對文本分類任務進行評測,結果如下表所示。e901a50c-cf96-11ec-bce3-dac502259ad0.png

在文本分類任務上,PERT模型表現不佳。推測與MRC任務相比,預訓練中的亂序文本給理解短文本帶來了困難。

命名實體識別NER任務

在MSRA-NER和People’s Daily兩個數據集上對命名實體識別任務進行評測,結果如下表所示。e922c94e-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,表明預訓練中的亂序文在序列標記任務中的良好能力。

對比機器閱讀理解、文本分類和命名實體識別三個任務,可以發(fā)現,PERT模型在MRC和NER任務上表現較好,但在TC任務上表現不佳,這意味著TC任務對詞語順序更加敏感,由于TC任務的輸入文本相對較短,有些詞語順序的改變會給輸入文本帶來完全的意義變化。然而,MRC任務的輸入文本通常很長,幾個單詞的排列可能不會改變整個文章的敘述流程;并且對于NER任務,由于命名實體在整個輸入文本中只占很小的比例,因此詞語順序改變可能不會影響NER進程。

語法檢查任務

在Wikipedia、Formal Doc、Customs和Legal 4個數據集上對文本分類任務進行評測語法檢查任務進行評測,結果如下表所示。e938f854-cf96-11ec-bce3-dac502259ad0.png

PERT模型相比于其他模型均取得最優(yōu)的效果,這是由于下游任務與預訓練任務非常相似導致的。

預訓練的訓練步數對PERT模型的影響

不同的下游任務的最佳效果可能出現在不同的預訓練步驟上,如下圖所示。e98c68c2-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現對于MRC和NER任務,隨著預訓練步數的增加,下游任務也會隨之提高。然而,對于TC任務,不同數據的指標在不同的步數上取得最優(yōu)。如果考慮到特定任務的效果,有必要在早期訓練中保存部分模型。

不同的打亂粒度對PERT模型的影響

不同粒度間的打亂,可以使使輸入文本更具可讀性。通過在不同粒度內亂序輸入文本來比較性能,如下表所示。e9a25be6-cf96-11ec-bce3-dac502259ad0.png

我們發(fā)現,在各種打亂粒度中,無限制亂序的PERT模型在所有任務中都取得了最優(yōu)的效果;而選擇最小粒度(詞語之間)的模型,效果最差??赡茉蚴?,雖然使用更小的粒度的亂序可以使輸入文本更具可讀性,但是對預訓練任務的挑戰(zhàn)性較小,使模型不能學習到更好地語義信息。

不同預測空間對PERT模型的影響

將PERT模型使用詞表空間作為預測目標是否有效?如下表所示。

e9b7dda4-cf96-11ec-bce3-dac502259ad0.png

實驗結果表明,PERT模型不需要在詞表空間中進行預測,其表現明顯差于在輸入序列上的預測;并且將兩者結合的效果也不盡如人意。

預測部分序列和預測全部序列對PERT模型的影響

ELECTRA模型的實驗發(fā)現預測完全序列的效果比部分序列的更好,因此ELECTRA模型采用RTD任務對判別器采用完全序列預測。但通過本論文實驗發(fā)現,預測完全序列在PERT模型中并沒有產生更好的效果。表明在預訓練任務中使用預測全部序列并不總是有效的,需要根據所設計的預訓練任務進行調整。e9db0a7c-cf96-11ec-bce3-dac502259ad0.png

總結

PERT模型的預訓練思路還是挺有意思的,并在MRC、NER和WOR任務上均取得了不錯的效果。并且由于結構與BERT模型一致,因此在下游任務使用時,僅修改預訓練模型加載路徑就實現了模型替換,也比較方便。當打比賽或者做業(yè)務時候,可以不妨試一試,說不定有奇效。(ps:我在我們自己的MRC數據集上做過實驗,效果不錯呦!?。?/p>


審核編輯 :李倩



聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    575

    瀏覽量

    11345
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14737

原文標題:PERT:一種基于亂序語言模型的預訓練模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    零基礎手寫大模型資料2026

    Transformer核心結構的大模型,揭示大模型從理論到落地的技術本質。 、數學基礎:大模型的三大基石 1. 矩陣運算:神經網絡的語言
    發(fā)表于 05-01 17:44

    HM博學谷狂野AI大模型第四期

    的工程內幕 個大模型的誕生,離不開海量數據的訓練與精調??褚?AI 第四期將視角深入到模型訓練的引擎室,詳細拆解
    發(fā)表于 05-01 17:30

    Edge Impulse 喚醒詞模型訓練 | 技術集結

    今天,將手把手帶領學習如何訓練個語音關鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?1284次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓練</b> | 技術集結

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    提高數據的質量和致性,為后續(xù)的模型訓練做好準備。 模型訓練是核心環(huán)節(jié),學員們將使用
    發(fā)表于 04-15 16:06

    世界模型vs大語言模型,圖靈獎得主#楊立昆 說“大模型是死路!”①#AI #大模型

    語言模型
    江蘇易安聯(lián)
    發(fā)布于 :2026年03月31日 10:17:40

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數據(如書籍、網頁、文章等)進行
    的頭像 發(fā)表于 02-02 16:36 ?1157次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    摩爾線程新代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新代大語言模型對齊框架——URPO統(tǒng)獎勵與策略優(yōu)化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這
    的頭像 發(fā)表于 11-17 16:03 ?619次閱讀
    摩爾線程新<b class='flag-5'>一</b>代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    在Ubuntu20.04系統(tǒng)中訓練神經網絡模型些經驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經網絡模型些經驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是
    發(fā)表于 10-22 07:03

    基于大規(guī)模人類操作數據訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數據集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)訓練困難;現
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數據<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進行YOLO模型轉換?

    我目前使用的轉模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載訓練的YOLO模型
    發(fā)表于 08-14 06:03

    利用自壓縮實現大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設備端推理變得越來越緩慢且耗能巨大。個直接且效果出人意料的解決方案是剪除那些對任務貢獻甚微的完整通道(channel)。我們早期的研究提出了一種
    的頭像 發(fā)表于 07-28 09:36 ?683次閱讀
    利用自壓縮實現大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    龍芯中科與文心系列模型開展深度技術合作

    ”解決方案。 強強聯(lián)合!自主架構賦能大模型訓練 文心大模型 文心4.5系列模型均使用飛槳深度學習框架進行高效訓練、推理和部署。在大
    的頭像 發(fā)表于 07-02 16:53 ?1495次閱讀

    兆芯率先展開文心系列模型深度技術合作

    對文心系列大模型的快速適配、無縫銜接。 ? 文心大模型 ? 文心4.5系列開源模型共10款,均使用飛漿深度學習框架進行高效訓練、推理和部署。在大語言
    的頭像 發(fā)表于 07-01 10:49 ?1111次閱讀

    make sence成的XML文件能上傳到自助訓練模型上嗎?

    make sence成的XML文件能上傳到自助訓練模型上嗎
    發(fā)表于 06-23 07:38

    運行kmodel模型驗證直報錯怎么解決?

    我這運行kmodel模型驗證直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓練個kmodel
    發(fā)表于 06-10 08:02
    昌吉市| 云梦县| 云龙县| 张家口市| 红安县| 海盐县| 招远市| 佳木斯市| 嘉祥县| 上饶市| 弋阳县| 稻城县| 瓦房店市| 托里县| 通辽市| 临江市| 天等县| 洪江市| 芦山县| 榆中县| 长宁县| 巍山| 陇川县| 深圳市| 进贤县| 宁明县| 临猗县| 叙永县| 陆川县| 奉新县| 湘乡市| 德州市| 巢湖市| 固镇县| 天镇县| 永靖县| 临漳县| 界首市| 大邑县| 边坝县| 正定县|