日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

應(yīng)用于任意預(yù)訓練模型的prompt learning模型—LM-BFF

自然語言處理愛好者 ? 來源:AI部落聯(lián)盟 ? 作者:JasonCai ? 2021-08-16 11:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近又出了個比較吸引人眼球的Prompt Learning,甚至該方法還被稱之為NLP的“第四范式”,具體有哪幾項請參考以下鏈接:

綜述文章:https://arxiv.org/pdf/2107.13586.pdf

相關(guān)資源:http://pretrain.nlpedia.ai

Part1什么是Prompt Learning

從BERT誕生開始,使用下游任務(wù)數(shù)據(jù)微調(diào)預(yù)訓練語言模型 (LM)已成為 NLP 領(lǐng)域的通用做法。直到GPT-3模型首先將自然語言的提示信息(prompt)和任務(wù)示例(demonstration)作為上下文輸入給GPT-3,使得GPT-3只需要少數(shù)的幾個樣本,不需要訓練底層的參數(shù)便能夠處理任務(wù)。應(yīng)該是受到這一做法的啟發(fā),目前很多研究聚焦在Prompt Learning上,只為了更好的激發(fā)語言模型的潛能。

在了解Prompt Learning之前,首先我們要知道什么是prompt。prompt是提示的意思,也就是說需要提示模型我們想讓它干什么。通常在GPT-3中,我們輸入一段描述,再加上“翻譯”或者“問答”的prompt,那么GPT-3會生成相應(yīng)的結(jié)果。

最近該玩法在NLU中也得到了應(yīng)用,比如情感分類任務(wù),給定一句話“I missed the bus today.”,在其之后添加一個prompt:“I felt so __”,之后讓語言模型用一個情感類的詞進行完型填空,再將填空的詞語映射到標簽,這樣一來就能夠解決分類任務(wù)了。

大家發(fā)現(xiàn)沒有,這樣一來減少了訓練和測試階段之間的gap,因為我們在預(yù)訓練的時候使用的MLM任務(wù)就是一個完型填空任務(wù),通常使用分類任務(wù)fine-tuning模型的時候需要加一個hidden_size * label_size的FFN,還得專門去訓練這個FFN的參數(shù)。但是如果使用Prompt Learning的方式,就省略了這一步了。這樣一來豈不是不用花大力氣訓練模型了?哈哈是的,很多研究證明Prompt Learning在小樣本(few-shot)場景下很有效。

Part2Few-shot Learner

論文標題:Making Pre-trained Language Models Better Few-shot Learners

論文來源:ACL2021

論文鏈接:https://arxiv.org/pdf/2012.15723.pdf

論文代碼:https://github.com/princeton-nlp/LM-BFF

本文主要有兩個貢獻點:

(1)基于提示(prompt)進行微調(diào),關(guān)鍵是如何自動化生成提示模板;

(2)將樣本示例以上下文的形式添加到每個輸入中,關(guān)鍵是如何對示例進行采樣;

1prompt-based fine-tuning

之前說過GPT-3模型基于prompt生成文本。受到該啟發(fā)本文提出了一種可以應(yīng)用于任意預(yù)訓練模型的prompt learning模型——LM-BFF(小樣本微調(diào)預(yù)訓練模型)。

9d8d181e-fd9a-11eb-9bcf-12bb97331649.png

從上圖可以看出在預(yù)訓練的時候使用的MLM任務(wù)就是一個完型填空任務(wù),在分類任務(wù)中微調(diào)的時候需要加一個hidden_size * label_size的FFN,微調(diào)的過程需要訓練這個FFN的參數(shù)。在使用Prompt Learning的方式的時候省略了這一步。這樣一來就不用花大力氣訓練模型了,而且該方法減少了訓練和測試階段之間的gap,在小樣本(few-shot)場景下很有效。

在具體的實驗過程中,作者發(fā)現(xiàn)使用不同的模板或不同的標簽詞進行微調(diào)得到的效果是不同的,如下圖所示:

9dda6e0c-fd9a-11eb-9bcf-12bb97331649.png

比如對于同一個標簽詞,如果使用的prompt的模板不同(替換了某個單詞或者刪除某一個標點符號),得到的結(jié)果會有較大的波動;而且當選擇不同的標簽詞時,對預(yù)測的結(jié)果也會產(chǎn)生影響。這是由于人工設(shè)計模板和標簽詞時候和模型本身具有的gap帶來的缺陷。因此作者提出一種自動創(chuàng)建模板的方法。

2Automatic Prompt Generation

Prompt的自動生成又分為了兩個部分(label的生成和模板的生成):

Label Generation

這個部分主要分成3步:

(1)首先在訓練集中,針對未經(jīng)過微調(diào)的語言模型,對于每個label都找到使其條件概率最大Topk個單詞;

9e0efc26-fd9a-11eb-9bcf-12bb97331649.png

(2)綜合每個類別下的候選標簽詞,然后找出使得訓練集正確率最大的top-n個分配方式;

(3)使用dev集對模型進行微調(diào),從n個分配方式中選擇最佳的一個標簽詞,構(gòu)建標簽映射關(guān)系M。

Prompt Generation

模板的生成則是使用的T5模型,固定標簽詞,生成固定模板。

9e50d790-fd9a-11eb-9bcf-12bb97331649.png

整體過程如下所示:

Fine-tuning with Demonstration

在GPT-3中,微調(diào)的時候從訓練集中隨機抽取32個示例,以上下文的形式添加到每個輸入中;

這種方式的缺陷在于:樣本示例的數(shù)量會受到模型最大輸入長度的限制;不同類型的大量隨機示例混雜在一起,會產(chǎn)生很長的上下文,不利于模型學習。

LM-BFF采用2種簡單的方式進行了改進:

對于每個輸入,從每個類別中隨機采樣一個樣本示例,最終將所有類別下的采樣示例進行拼接輸入;

對于每個輸入,在每個類別中,通過與Sentence-BERT進行相似度計算、并從排序得分的top50%中隨機選擇一個樣本示例。

Results

本文提出了一種簡單而又有效的小樣本微調(diào)方法——LM-BFF。主要包括2部分:

采用提示自動構(gòu)建方式來進行「基于模板的微調(diào)方法」。

動態(tài)選擇樣本示例,作為輸入的上下文。但LM-BFF也有以下缺陷:

LM-BFF仍落后基于全量標注數(shù)據(jù)的標準微調(diào)方法(PS:廢話,數(shù)據(jù)目前還是越多好~)

LM-BFF自動構(gòu)建提示的方法雖然有效,但擴展搜索空間在現(xiàn)實應(yīng)用中仍是一個巨大挑戰(zhàn);

LM-BFF僅支持幾種特定的任務(wù):1)能自然轉(zhuǎn)化為「空白填空」問題,如結(jié)構(gòu)化預(yù)測的NER任務(wù)可能就不適合;2)句子輸入不要太長;3)不要包含過多的類別;其中2)和3)可以在長距離語言模型中進行改善。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    374

    瀏覽量

    16988
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23346

原文標題:Prompt Learning-使用模板激發(fā)語言模型潛能

文章出處:【微信號:NLP_lover,微信公眾號:自然語言處理愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    零基礎(chǔ)手寫大模型資料2026

    。 3. 參數(shù)初始化:訓練的起點 模型參數(shù)(權(quán)重矩陣)的初始化直接影響訓練效果。Xavier初始化通過根據(jù)輸入輸出維度調(diào)整初始值范圍,使梯度在反向傳播時保持合理尺度。例如對于512×768的權(quán)重矩陣
    發(fā)表于 05-01 17:44

    HM博學谷狂野AI大模型第四期

    ,抽象的數(shù)學概念將轉(zhuǎn)化為具象的張量流動邏輯。開發(fā)者將不再被復雜的網(wǎng)絡(luò)結(jié)構(gòu)圖所迷惑,而是能夠清晰地看到數(shù)據(jù)在模型內(nèi)部的流動軌跡,為后續(xù)的模型優(yōu)化與定制打下堅實的算法地基。 二、 訓練引擎解構(gòu):從
    發(fā)表于 05-01 17:30

    Edge Impulse 喚醒詞模型訓練 | 技術(shù)集結(jié)

    今天,將手把手帶領(lǐng)學習如何訓練一個語音關(guān)鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?1272次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓練</b> | 技術(shù)集結(jié)

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    從零開始預(yù)訓練。事實上,微調(diào)技術(shù)的成熟,徹底打破了這一門檻。 微調(diào)的本質(zhì),是“舉一反三”的遷移學習。就好比一個已經(jīng)大學畢業(yè)的通用人才(基礎(chǔ)大模型),只需在企業(yè)內(nèi)部經(jīng)過幾個月的崗前培訓(微調(diào)過程),就能迅速
    發(fā)表于 04-16 18:48

    人工智能多模態(tài)與視覺大模型開發(fā)實戰(zhàn) - 2026必會

    視覺大模型特訓:從原理到部署一站式學會 在科技飛速發(fā)展的當下,視覺大模型已成為人工智能領(lǐng)域的一顆璀璨明星,廣泛應(yīng)用于安防監(jiān)控、自動駕駛、醫(yī)療影像分析等眾多領(lǐng)域,深刻改變著我們的生活與工作方式。如今
    發(fā)表于 04-15 16:06

    訓練到推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓練所需的算力投入。一個萬億參數(shù)大模型訓練可能需要數(shù)千張GPU芯片連續(xù)運行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?1057次閱讀
    從<b class='flag-5'>訓練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預(yù)訓練,學會語
    的頭像 發(fā)表于 02-02 16:36 ?1154次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    在Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    模型。 我們使用MNIST數(shù)據(jù)集,訓練一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型用于手寫數(shù)字識別。一旦模型訓練
    發(fā)表于 10-22 07:03

    我如何用Prompt工程將大模型調(diào)教成風控專家

    波折、頓悟和驚喜。 今天,我想復盤整個過程,分享我如何通過一套循序漸進的“Prompt工程心法”,將一個“什么都懂一點,但什么都不精”的通用大模型,一步步調(diào)教成能夠精準識別復雜電商風控風險的“AI專家”。 一、 引言:當算
    的頭像 發(fā)表于 09-08 14:22 ?565次閱讀
    我如何用<b class='flag-5'>Prompt</b>工程將大<b class='flag-5'>模型</b>調(diào)教成風控專家

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓練的YOLO模型
    發(fā)表于 08-14 06:03

    ai_cube訓練模型最后部署失敗是什么原因?

    ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    make sence成的XML文件能上傳到自助訓練模型上嗎?

    make sence成的XML文件能上傳到自助訓練模型上嗎
    發(fā)表于 06-23 07:38

    瑞芯微模型量化文件構(gòu)建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓練時數(shù)據(jù)集只標注了人臉框和關(guān)鍵點,該
    發(fā)表于 06-13 09:07

    運行kmodel模型驗證一直報錯怎么解決?

    我這運行kmodel模型驗證一直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓練一個kmodel模型會和拿相同pt訓練
    發(fā)表于 06-10 08:02
    民勤县| 德钦县| 扶风县| 江油市| 林周县| 龙陵县| 汶上县| 康马县| 东平县| 新疆| 阜新| 澎湖县| 湛江市| 澳门| 汶上县| 大洼县| 得荣县| 新蔡县| 水城县| 屏边| 兴海县| 馆陶县| 诸城市| 文安县| 彰武县| 阿巴嘎旗| 清镇市| 重庆市| 福泉市| 中阳县| 龙南县| 马尔康县| 衡南县| 嘉兴市| 栾城县| 兴山县| 正宁县| 吕梁市| 无为县| 琼中| 平武县|