日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高效果的方法

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-06-07 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

昨天看完NoisyTune論文,做好實(shí)驗(yàn)就來了。一篇ACL2022通過微調(diào)前給預(yù)訓(xùn)練模型參數(shù)增加噪音提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果方法-NoisyTune,論文全稱《NoisyTune: A Little Noise Can Help You Finetune Pretrained Language Models Better》。

paper地址:https://aclanthology.org/2022.acl-short.76.pdf

由于僅加兩行代碼就可以實(shí)現(xiàn),就在自己的數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)確實(shí)有所提高,為此分享給大家;不過值得注意的是,「不同數(shù)據(jù)需要加入噪音的程度是不同」,需要自行調(diào)參。

模型

自2018年BERT模型橫空出世,預(yù)訓(xùn)練語言模型基本上已經(jīng)成為了自然語言處理領(lǐng)域的標(biāo)配,「pretrain+finetune」成為了主流方法,下游任務(wù)的效果與模型預(yù)訓(xùn)練息息相關(guān);然而由于預(yù)訓(xùn)練機(jī)制以及數(shù)據(jù)影響,導(dǎo)致預(yù)訓(xùn)練語言模型與下游任務(wù)存在一定的Gap,導(dǎo)致在finetune過程中,模型可能陷入局部最優(yōu)。

為了減輕上述問題,提出了NoisyTune方法,即,在finetune前加入給預(yù)訓(xùn)練模型的參數(shù)增加少量噪音,給原始模型增加一些擾動(dòng),從而提高預(yù)訓(xùn)練語言模型在下游任務(wù)的效果,如下圖所示,

43feda12-e589-11ec-ba43-dac502259ad0.png

通過矩陣級(jí)擾動(dòng)(matrix-wise perturbing)方法來增加噪聲,定義預(yù)訓(xùn)練語言模型參數(shù)矩陣為,其中,表示模型中參數(shù)矩陣的個(gè)數(shù),擾動(dòng)如下:

其中,表示從到范圍內(nèi)均勻分布的噪聲;表示控制噪聲強(qiáng)度的超參數(shù);表示標(biāo)準(zhǔn)差。

代碼實(shí)現(xiàn)如下:

forname,parainmodel.namedparameters():
model.statedict()[name][:]+=(torch.rand(para.size())?0.5)*noise_lambda*torch.std(para)

這種增加噪聲的方法,可以應(yīng)用到各種預(yù)訓(xùn)練語言模型中,可插拔且操作簡單。

如下表所示,在BERT、XLNET、RoBERTa和ELECTRA上均取得不錯(cuò)的效果。

444e5060-e589-11ec-ba43-dac502259ad0.png

并且比較的四種不同增加噪聲的方法,發(fā)現(xiàn)在矩陣級(jí)均勻噪聲最優(yōu)。

448791e0-e589-11ec-ba43-dac502259ad0.png

在不同數(shù)據(jù)量下,NoisyTune方法相對(duì)于finetune均有所提高。

44bb1fec-e589-11ec-ba43-dac502259ad0.png

在不同噪聲強(qiáng)度下,效果提升不同,對(duì)于GLUE數(shù)據(jù)集,在0.1-0.15間為最佳。

44f1b2f0-e589-11ec-ba43-dac502259ad0.png

總結(jié)

蠻有意思的一篇論文,加入少量噪音,提高下游微調(diào)效果,并且可插拔方便易用,可以納入到技術(shù)庫中。

本人在自己的中文數(shù)據(jù)上做了一些實(shí)驗(yàn),發(fā)現(xiàn)結(jié)果也是有一些提高的,一般在0.3%-0.9%之間,但是噪聲強(qiáng)度在0.2時(shí)最佳,并且在噪聲強(qiáng)度小于0.1或大于0.25后,會(huì)比原始效果差。個(gè)人實(shí)驗(yàn)結(jié)果,僅供參考。


審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    172

    瀏覽量

    24597
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    630

    瀏覽量

    14735

原文標(biāo)題:ACL2022 | NoisyTune:微調(diào)前加入少量噪音可能會(huì)有意想不到的效果

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    零基礎(chǔ)手寫大模型資料2026

    。 3. 參數(shù)初始化:訓(xùn)練的起點(diǎn) 模型參數(shù)(權(quán)重矩陣)的初始化直接影響訓(xùn)練效果。Xavier初始
    發(fā)表于 05-01 17:44

    HM博學(xué)谷狂野AI大模型第四期

    。例如,數(shù)據(jù)并行(DDP)與模型并行是如何在多 GPU 集群中協(xié)同工作,梯度累積與混合精度訓(xùn)練又是如何在節(jié)省顯存的同時(shí)保證計(jì)算精度。更重要的是,課程將深入剖析 PEFT(參數(shù)高效
    發(fā)表于 05-01 17:30

    AI大模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課

    取非結(jié)構(gòu)化文本,通過去重、脫敏,最終轉(zhuǎn)化為符合大模型閱讀習(xí)慣的“指令-回復(fù)”對(duì)。幾千條高質(zhì)量、無矛盾的垂直行業(yè)數(shù)據(jù),其效果遠(yuǎn)勝于幾萬條從網(wǎng)上爬取的劣質(zhì)問答。 第二步:精準(zhǔn)手術(shù)——參數(shù)高效
    發(fā)表于 04-16 18:48

    人工智能多模態(tài)與視覺大模型開發(fā)實(shí)戰(zhàn) - 2026必會(huì)

    提高數(shù)據(jù)的質(zhì)量和一致性,為后續(xù)的模型訓(xùn)練做好準(zhǔn)備。 模型訓(xùn)練是核心環(huán)節(jié),學(xué)員們將使用預(yù)
    發(fā)表于 04-15 16:06

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。一個(gè)萬億參數(shù)模型訓(xùn)練
    的頭像 發(fā)表于 02-05 16:07 ?1056次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達(dá)到數(shù)十億甚至萬億級(jí)別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言
    的頭像 發(fā)表于 02-02 16:36 ?1153次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    , batch_size=512, epochs=20)總結(jié) 這個(gè)核心算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練過程,是用來對(duì)MNIST手寫數(shù)字圖像進(jìn)行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進(jìn)行分類預(yù)測(cè)。訓(xùn)練
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級(jí)別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對(duì)研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型
    的頭像 發(fā)表于 10-21 10:55 ?1429次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架<b class='flag-5'>提高</b>顯存使用效率

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    利用自壓縮實(shí)現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個(gè)直接且效果出人意料的解決方案是剪除那些對(duì)任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們?cè)缙诘难芯刻岢隽艘环N訓(xùn)練階段的方法
    的頭像 發(fā)表于 07-28 09:36 ?682次閱讀
    利用自壓縮實(shí)現(xiàn)大型語言<b class='flag-5'>模型</b><b class='flag-5'>高效</b>縮減

    模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類的過程。然而,大模型的推理過程對(duì)顯存和計(jì)算資源的需求較高,這
    發(fā)表于 07-03 19:43

    沐曦MXMACA軟件平臺(tái)在大模型訓(xùn)練方面的優(yōu)化效果

    在如今的人工智能浪潮中,大規(guī)模語言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓(xùn)練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰(zhàn)。
    的頭像 發(fā)表于 07-03 14:09 ?2442次閱讀
    沐曦MXMACA軟件平臺(tái)在大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>方面的優(yōu)化<b class='flag-5'>效果</b>

    提高SEA模型PBNR計(jì)算精度的方法及策略

    方案即聲學(xué)包對(duì)整車噪聲傳遞的影響,同時(shí)克服了NR方法中由于聲源特性、聲源處麥克風(fēng)安裝位置等因素測(cè)試帶來的不利影響,PBNR已廣泛用應(yīng)用于整車SEA模型對(duì)標(biāo)及聲學(xué)包目標(biāo)的設(shè)定及分解工作中,故而在數(shù)字開發(fā)階段,
    的頭像 發(fā)表于 06-30 09:30 ?1578次閱讀
    <b class='flag-5'>提高</b>SEA<b class='flag-5'>模型</b>PBNR計(jì)算精度的<b class='flag-5'>方法</b>及策略

    運(yùn)行kmodel模型驗(yàn)證一直報(bào)錯(cuò)怎么解決?

    我這運(yùn)行kmodel模型驗(yàn)證一直報(bào)錯(cuò),所以沒法做kmodel模型好壞驗(yàn)證,不知道怎么解決這個(gè)問題,重新訓(xùn)練一個(gè)kmodel模型會(huì)和拿相同pt訓(xùn)練
    發(fā)表于 06-10 08:02

    【書籍評(píng)測(cè)活動(dòng)NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    億個(gè)參數(shù)的混合專家模型(MoE) ,每個(gè)token(模型處理文本的基本單位)激活 370 億個(gè)參數(shù)。該模型在 14.8 萬億個(gè)高質(zhì)量 tok
    發(fā)表于 06-09 14:38
    陕西省| 禄丰县| 高安市| 玉屏| 锦州市| 太和县| 正镶白旗| 富阳市| 武川县| 湟源县| 云龙县| 阳城县| 平远县| 宝鸡市| 临城县| 新余市| 武山县| 宿松县| 尼木县| 安康市| 潜山县| 周至县| 南川市| 郴州市| 南宁市| 崇阳县| 康定县| 旺苍县| 毕节市| 普安县| 东乌| 哈密市| 新兴县| 沛县| 巴青县| 伊春市| 元谋县| 博客| 盐池县| 工布江达县| 谢通门县|