日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何更高效地使用預訓練語言模型

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:小偉 ? 2022-07-08 11:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

概覽

本文對任務低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預訓練模型的參數(shù)實在是太多了,很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出了一個基本的假設:預訓練模型在不同下游任務上學習的過程,可以被重新參數(shù)化(reparameterized)為在同一個低維本征子空間上的優(yōu)化過程。如下圖所示,模型在不同的任務上學習的參數(shù)雖然不同,但這些參數(shù)共享了同一個低維本征子空間。

c5318178-ed60-11ec-ba43-dac502259ad0.png

基于這一假設,作者提出了探索公共低維本征子空間的方法:intrinsic prompt tuning (IPT)。

IPT由兩個階段組成:

Multi-task Subspace Finding (MSF):尋找多個任務的公共子空間,這是一個低維的、更為本征的一個空間

Intrinsic Subspace Tuning (IST):在找到的公共本征子空間上進行模型優(yōu)化

下圖展示了 IPT 與 fine-tuning 和 prompt tuning 的對比。

c5542552-ed60-11ec-ba43-dac502259ad0.png

下面我們具體來了解一下IPT的兩個階段

IPT

作者使用intrinsic prompt tuning (IPT)來驗證本文的基本假設: 預訓練模型對多個不同下游任務的學習可以被重新參數(shù)化為在同一個低維本征子空間上的優(yōu)化。

第一個階段是multi-task subspace finding (MSF)。

1. 尋找公共本征子空間(MSF)

MSF階段旨在通過對多個任務進行學習,來找到公共的低維本征子空間。如上圖所示,本質(zhì)上就是在學習一個自編碼器

我們用 來代表自編碼器的Encoder部分(上圖中處于下方的梯形),用 來代表自編碼器的Decoder部分(上圖中處于上方的梯形),那么自編碼器會先用把Prompt參數(shù)映射為一個低維(維)的向量(向量所在的維空間就是我們想要的低維本征子空間),然后再用把該低維向量重新映射回原始的prompt空間,得到 這樣我們就可以使用 和 的距離來計算自編碼器的重建loss ,形式化表述就是:

另外,使用自編碼器來學習公共低維本征子空間的最終目的還是為了解決多個任務,所以作者引入了面向任務的語言模型loss 來提供任務相關的監(jiān)督(例如圖中模型生成的結(jié)果"positive"和正確標簽之間的交叉熵)。那么MSF階段最終的loss就是:

其中 代表 和 的參數(shù),這也是我們在MSF階段要學習的參數(shù)。

2. 本征子空間優(yōu)化(IST)

在MSF階段中,我們通過對多個任務的學習找到了維的公共本征子空間,然后就進入了第二個階段IST。在這一階段中,我們想評價我們在MSF階段中找到的低維本征子空間是不是能夠很好的泛化到 (a) MSF階段訓練過的任務的新數(shù)據(jù),以及 (b) MSF階段沒有訓練過的任務。如果該低維本征子空間在這兩種情況下都有比較好的泛化性能的話,那么在我們在一定程度上就成功地找到了想要的本征子空間。

在本階段中,如上圖 所示, 我們只保留自編碼器的Decoder部分并凍結(jié)它的參數(shù)。對于每個測試任務,我們只微調(diào)本征子空間中的個自由參數(shù) , 會將解碼回原始的prompt空間中來計算loss:

實驗

作者使用了120個few-shot任務來進行實驗,并進行了三種不同的訓練-測試任務劃分

random: 隨機選擇100個任務作為訓練任務,其余20個任務作為測試任務

non-cls: 隨機選擇非分類任務中的35作為訓練任務,其余所有任務作為測試任務

cls: 隨機選擇分類任務中的35個作為訓練任務,其余所有任務作為測試任務

同時,對每一種任務劃分,作者進行了5種不同的實驗

: 在MSF階段,直接使用學習到的低維本征子空間來評估訓練任務在訓練數(shù)據(jù)上的性能

: 在MSF階段,直接使用學習到的低維本征子空間來評估測試任務(0-shot)的泛化性能

: 在IST階段,微調(diào)學習到的低維本征子空間來評估訓練任務在訓練數(shù)據(jù)上的性能

: 在IST階段,微調(diào)學習到的低維本征子空間來評估訓練任務在新數(shù)據(jù)上的泛化性能

: 在IST階段,微調(diào)學習到的低維本征子空間來評估測試任務的泛化性能

c594f0fa-ed60-11ec-ba43-dac502259ad0.png

整體的實驗結(jié)果如上圖所示,作者通過分析不同實驗的結(jié)果,得出了一些比較重要的結(jié)論:

在random劃分中,僅僅微調(diào)低維本征子空間中的5個自由參數(shù),就可以分別獲得full prompt tuning 87%(訓練過的任務,不同訓練數(shù)據(jù))以及65%(未訓練過的任務)的性能,這證明我們在MSF階段中找到的低維本征子空間是比較有效的。但從另一個方面來講,使用低維本征子空間無法獲得和full prompt tuning相當?shù)男阅埽晕覀儾荒苤苯拥贸鲱A訓練模型對多個任務的學習可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化的結(jié)論。

訓練-測試任務的劃分會對結(jié)果有很大的影響。比如在cls劃分中,訓練時找到的本征子空間可以在分類的測試任務上有比較合理的表現(xiàn),但在非分類的測試任務上表現(xiàn)很差。

隨著MSF階段中訓練任務數(shù)量的增加,找到的本征子空間的泛化能力會有所提高。這反映了增加MSF階段中訓練任務的覆蓋范圍和多樣性可以幫助IPT找到更通用的本征子空間。

結(jié)論

本文設計了IPT框架來驗證提出的假設: 預訓練模型對多個不同下游任務的學習可以被重新參數(shù)化為在同一個低維本征子空間上的優(yōu)化。詳盡的實驗為假設提供了一定的積極證據(jù),也幫助大家對如何更高效地使用預訓練語言模型有了更好的了解。

思考

雖然文章中的實驗結(jié)果不能直接驗證“預訓練模型對多個任務的學習可以被重新參數(shù)化為在完全相同的子空間中的優(yōu)化”這一假設是完全正確的,但起碼它證明了各種任務重參數(shù)化后的低維子空間是有比較大的交集的,而且我們可以通過MSF來找到這個交集。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    4013

    瀏覽量

    143437

原文標題:Prompt Learning | 五個參數(shù)解決下游任務 fine-tuning

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Edge Impulse 喚醒詞模型訓練 | 技術集結(jié)

    今天,將手把手帶領學習如何訓練一個語音關鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?1192次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓練</b> | 技術集結(jié)

    AI模型訓練與部署實戰(zhàn) | 線下免費培訓

    你是否想系統(tǒng)了解AI落地全鏈路,但缺少一個完整的實戰(zhàn)項目練手?模型部署環(huán)節(jié)繁多,缺乏一套清晰的實戰(zhàn)路徑?4月18日、4月25日、5月16日RT-Thread將分別在蘇州、成都、南京舉辦“AI模型訓練
    的頭像 發(fā)表于 04-07 13:08 ?689次閱讀
    AI<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>與部署實戰(zhàn) | 線下免費培訓

    訓練到推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓練所需的算力投入。一個萬億參數(shù)大模型訓練可能需要數(shù)千張GPU芯片連續(xù)運行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?1054次閱讀
    從<b class='flag-5'>訓練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行
    的頭像 發(fā)表于 02-02 16:36 ?1151次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)一獎勵與策略優(yōu)化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這一成果標志著摩爾線程在大模型基礎技術探索上邁出
    的頭像 發(fā)表于 11-17 16:03 ?614次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數(shù)字識
    發(fā)表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型訓練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓練任務,對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓練框架,提供了靈
    的頭像 發(fā)表于 10-21 10:55 ?1428次閱讀
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>框架提高顯存使用效率

    基于神經(jīng)網(wǎng)絡的數(shù)字失真模型解決方案

    在基于神經(jīng)網(wǎng)絡的數(shù)字失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3691次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1245次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    ai_cube訓練模型最后部署失敗是什么原因?

    ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務貢獻甚微的完整通道(channel)。我們早期的研究提出了一種訓練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?679次閱讀
    利用自壓縮實現(xiàn)大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b><b class='flag-5'>高效</b>縮減

    沐曦MXMACA軟件平臺在大模型訓練方面的優(yōu)化效果

    在如今的人工智能浪潮中,大規(guī)模語言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰(zhàn)。
    的頭像 發(fā)表于 07-03 14:09 ?2441次閱讀
    沐曦MXMACA軟件平臺在大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>方面的優(yōu)化效果

    龍芯中科與文心系列模型開展深度技術合作

    ”解決方案。 強強聯(lián)合!自主架構(gòu)賦能大模型訓練 文心大模型 文心4.5系列模型均使用飛槳深度學習框架進行高效
    的頭像 發(fā)表于 07-02 16:53 ?1490次閱讀

    兆芯率先展開文心系列模型深度技術合作

    對文心系列大模型的快速適配、無縫銜接。 ? 文心大模型 ? 文心4.5系列開源模型共10款,均使用飛漿深度學習框架進行高效訓練、推理和部署。
    的頭像 發(fā)表于 07-01 10:49 ?1104次閱讀

    make sence成的XML文件能上傳到自助訓練模型上嗎?

    make sence成的XML文件能上傳到自助訓練模型上嗎
    發(fā)表于 06-23 07:38
    浦东新区| 塔河县| 西峡县| 中卫市| 高碑店市| 墨竹工卡县| 三门县| 九台市| 承德市| 壤塘县| 梅州市| 宁蒗| 苍梧县| 昌宁县| 静海县| 大同县| 龙泉市| 新余市| 德化县| 白银市| 武乡县| 景宁| 驻马店市| 长乐市| 德昌县| 民权县| 栾川县| 伽师县| 南召县| 垫江县| 纳雍县| 玛沁县| 永定县| 安吉县| 新巴尔虎左旗| 阜阳市| 报价| 南康市| 娄烦县| 静宁县| 滦南县|