日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在Prompt Learning下引入外部知識達到好文本分類效果

深度學(xué)習(xí)自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:小偉 ? 2022-07-08 11:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

利用Prompt Learning(提示學(xué)習(xí))進行文本分類任務(wù)是一種新興的利用預(yù)訓(xùn)練語言模型的方式。在提示學(xué)習(xí)中,我們需要一個標簽詞映射(verbalizer),將[MASK]位置上對于詞表中詞匯的預(yù)測轉(zhuǎn)化成分類標簽。例如{POLITICS: "politics", SPORTS: "sports"} 這個映射下,預(yù)訓(xùn)練模型在[MASK]位置對于politics/sports這個標簽詞的預(yù)測分數(shù)會被當(dāng)成是對POLITICS/SPORTS這個標簽的預(yù)測分數(shù)。

手工定義或自動搜索得到的verbalizer有主觀性強覆蓋面小等缺點,我們使用了知識庫來進行標簽詞的擴展和改善,取得了更好的文本分類效果。同時也為如何在Prompt Learning下引入外部知識提供了參考。

方法

我們提出使用知識庫擴展標簽詞,通過例如相關(guān)詞詞表,情感詞典等工具,基于手工定義的初始標簽詞進行擴展。例如,可以將{POLITICS: "politics", SPORTS: "sports"} 擴展為以下的一些詞:

bd18025a-ed60-11ec-ba43-dac502259ad0.png

表1: 基于知識庫擴展出的標簽詞。

bd25f252-ed60-11ec-ba43-dac502259ad0.png

圖1: 以問題分類任務(wù)為例的KPT流程圖。

之后我們可以通過一個多對一映射將多個詞上的預(yù)測概率映射到某個標簽上。

但是由于知識庫不是為預(yù)訓(xùn)練模型量身定做的,使用知識庫擴展出的標簽詞具有很大噪音。例如SPORTS擴展出的movement可能和POLITICS相關(guān)性很大,從而引起混淆;又或者POLITICS擴展出的machiavellian(為奪取權(quán)力而不擇手段的)則可能由于詞頻很低不容易被預(yù)測到,甚至被拆解成多個token而不具有詞語本身的意思。

因此我們提出了三種精調(diào)以及一種校準的方法。

01

頻率精調(diào)

我們利用預(yù)訓(xùn)練模型M本身對于標簽詞v的輸出概率當(dāng)成標簽詞的先驗概率,用來估計標簽詞的先驗出現(xiàn)頻率。我們把頻率較小的標簽詞去掉。

bd379138-ed60-11ec-ba43-dac502259ad0.png

公式1: 頻率精調(diào)。C代表語料庫。

02

相關(guān)性精調(diào)

有的標簽詞和標簽相關(guān)性不大,有些標簽詞會同時和不同標簽發(fā)生混淆。我們利用TF-IDF的思想來賦予每個標簽詞一個對于特定類別的重要性。

bd427238-ed60-11ec-ba43-dac502259ad0.png

公式2: 相關(guān)性精調(diào),r(v,y)是一個標簽詞v和標簽y的相關(guān)性,類似于TF項。右邊一項則類似IDF項,我們要求這一項大也就是要求v和其非對應(yīng)類相關(guān)性小。

03

可學(xué)習(xí)精調(diào)

在少樣本實驗中,我們可以為每個標簽詞賦予一個可學(xué)習(xí)的權(quán)重,因此每個標簽詞的重要性就變成:

bd4dc138-ed60-11ec-ba43-dac502259ad0.png

公式3:可學(xué)習(xí)的標簽詞權(quán)重。

04

基于上下文的校準

在零樣本實驗中不同標簽詞的先驗概率可能差得很多,例如預(yù)測 basketball可能天然比fencing大,會使得很多小眾標簽詞影響甚微。我們使用校準的方式來平衡這種影響。

bd5be0a6-ed60-11ec-ba43-dac502259ad0.png

公式4: 基于上下文的校準,分母是公式1中的先驗概率。

使用上以上這些精調(diào)方法,我們知識庫擴展的標簽詞就能有效使用了。

實驗

bd6714d0-ed60-11ec-ba43-dac502259ad0.png

表2:零樣本文本分類任務(wù)。

如表2所示,零樣本上相比于普通的Prompt模板,性能有15個點的大幅長進。相比于加上了標簽詞精調(diào)的也最多能有8個點的提高。我們提出的頻率精調(diào),相關(guān)性精調(diào)等也各有用處。

bd73cfcc-ed60-11ec-ba43-dac502259ad0.png

表3:少樣本文本分類任務(wù)。

如表3所示,在少樣本上我們提出的可學(xué)習(xí)精調(diào)搭配上相關(guān)性精調(diào)也有較大提升。AUTO和SOFT都是自動的標簽詞優(yōu)化方法,其中SOFT以人工定義的標簽詞做初始化,可以看到這兩種方法的效果都不如KPT。

bd83242c-ed60-11ec-ba43-dac502259ad0.png

圖2: SPORTS和BUSINESS類的知識庫擴展的標簽詞對于預(yù)測的貢獻。

標簽詞的可視化表明,每一條句子可能會依賴不同的標簽詞進行預(yù)測,完成了我們增加覆蓋面的預(yù)期。

總結(jié)

最近比較受關(guān)注的Prompt Learning方向,除了template的設(shè)計,verbalizer的設(shè)計也是彌補MLM和下游分類任務(wù)的重要環(huán)節(jié)。我們提出的基于知識庫的擴展,直觀有效。同時也為如何在預(yù)訓(xùn)練模型的的利用中引入外部知識提供了一些參考。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 頻率
    +關(guān)注

    關(guān)注

    4

    文章

    1588

    瀏覽量

    62395
  • 知識庫
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    6837

原文標題:ACL2022 | KPT: 文本分類中融入知識的Prompt Verbalizer

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    07. 如何在Allegro中設(shè)置可以走線但不能鋪的銅區(qū)域?| 芯巧Allegro PCB 設(shè)計小訣竅

    背景介紹:我們在進行PCB設(shè)計時,經(jīng)常需要繪制一些禁止鋪銅但是允許走線的區(qū)域,如果我們直接使用Route Keepout繪制的話,雖然可以實現(xiàn)在此區(qū)域內(nèi)禁止鋪銅的效果,但是走線在此區(qū)域內(nèi)也是不允許的,會生成DRC報錯。今天就給大家介紹,如
    發(fā)表于 04-09 17:23

    RAG(檢索增強生成)原理與實踐

    expanded_queries 三、上下文注入:讓LLM\"看見\"外部知識 3.1 上下文注入的原理 上下文注入是將檢索到的文檔作為提示(Prompt)的一部分,提供給LLM。這個過程就像給AI提供
    發(fā)表于 02-11 12:46

    機器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法

    編碼是機器學(xué)習(xí)流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?482次閱讀
    機器學(xué)習(xí)特征工程:<b class='flag-5'>分類</b>變量的數(shù)值化處理方法

    電線電纜產(chǎn)品標準UL444阻燃等級CMP、CMR、CM、CMX分類知識

    保險商實驗室(UL)制定的UL444標準,針對通信電纜的阻燃等級進行了明確分類,為不同場景的電纜選用提供了科學(xué)依據(jù)。本文將深入解析UL444標準中CMP、CMR、CM、CMX四個阻燃等級的分類
    的頭像 發(fā)表于 01-23 15:22 ?1624次閱讀
    電線電纜產(chǎn)品標準UL444阻燃等級CMP、CMR、CM、CMX<b class='flag-5'>分類</b><b class='flag-5'>知識</b>

    詳解DBC的Signal與JSON文本結(jié)合

    為了優(yōu)化CAN數(shù)據(jù)發(fā)送與接收的操作流程,更改以前手動輸入狀態(tài)對應(yīng)數(shù)據(jù)的模式,采用下拉列表選擇內(nèi)容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結(jié)合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發(fā)表于 01-06 10:57 ?452次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結(jié)合

    科技品牌的2026必修課:如何在CES Asia2026北京消費電子展上實現(xiàn)預(yù)算與效果的最優(yōu)解?

    科技品牌的2026必修課:如何在CES Asia2026北京消費電子展上實現(xiàn)預(yù)算與效果的最優(yōu)解?
    的頭像 發(fā)表于 12-02 10:57 ?776次閱讀

    萬里紅文本生成算法通過國家網(wǎng)信辦備案

    近日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了第十四批深度合成服務(wù)算法備案信息,北京萬里紅科技有限公司(以下簡稱:萬里紅)自主研發(fā)的“萬里紅文本生成算法”正式通過備案。該算法致力于通過自動化的方式,提升知識問答、RAG分類、預(yù)測、文檔生成的準
    的頭像 發(fā)表于 11-14 09:06 ?849次閱讀

    基于級聯(lián)分類器的人臉檢測基本原理

    本次分享的內(nèi)容是基于級聯(lián)分類器的人臉檢測基本原理 1) 人臉檢測概述 關(guān)于人臉檢測算法,目前主流方法分為兩類,一類是基于知識,主要方法包括模板匹配,人臉特征,形狀和邊緣,紋理特征,顏色特征
    發(fā)表于 10-30 06:14

    在標準庫配置的stm32f103x的spi在引入rtthread后收發(fā)的消息就錯了,為什么?

    我在標準庫配置的stm32f103x的spi在引入rtthread后收發(fā)的消息就錯了,引入之前沒問題,請問這是啥情況
    發(fā)表于 10-13 08:07

    我如何用Prompt工程將大模型調(diào)教成風(fēng)控專家

    作為一個交易風(fēng)控的算法工程師,在日常工作中,我常常與海量的數(shù)據(jù)和復(fù)雜的模型打交道,試圖在看似平靜的水面,捕捉那些隱藏的風(fēng)險暗流。最近,我嘗試將大語言模型(LLM)引入到我的工作流中,這段經(jīng)歷充滿了
    的頭像 發(fā)表于 09-08 14:22 ?567次閱讀
    我如何用<b class='flag-5'>Prompt</b>工程將大模型調(diào)教成風(fēng)控專家

    何在多顯卡環(huán)境配置OLLAMA實現(xiàn)GPU負載均衡

    本文將帶你深入了解如何在多顯卡環(huán)境配置OLLAMA,實現(xiàn)GPU負載均衡,并分享生產(chǎn)環(huán)境中的最佳實踐。無論你是剛接觸GPU集群還是尋求性能優(yōu)化的老手,這篇文章都能給你帶來實用價值。
    的頭像 發(fā)表于 07-24 14:12 ?5050次閱讀

    iXMC1404如何在XMC1400 SL上啟用外部20 MHz晶振?

    : 微控制器變得無響應(yīng)。 代碼似乎無法正確上傳。 DAVE?中看不到內(nèi)存分配。 我懷疑該問題與外部振蕩器設(shè)置或時鐘配置有關(guān)。有人可以指導(dǎo)我嗎: 如何在 XMC1400 SL 上正確啟用外部晶體振蕩器(20
    發(fā)表于 07-14 07:59

    飛書開源“RTV”富文本組件 重塑鴻蒙應(yīng)用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領(lǐng)先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態(tài)提供了
    的頭像 發(fā)表于 07-11 15:20 ?810次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應(yīng)用富<b class='flag-5'>文本</b>渲染體驗

    《仿盒馬》app開發(fā)技術(shù)分享-- 分類左側(cè)列表(17)

    技術(shù)棧 Appgallery connect 開發(fā)準備 上一節(jié)我們實現(xiàn)了分類頁面的頂部導(dǎo)航欄全選彈窗列表,并實現(xiàn)了跟頂部列表的點擊選中聯(lián)動效果,這一節(jié)我們要實現(xiàn)的功能是,分類模塊的左側(cè)列表,它同樣也
    發(fā)表于 06-30 10:55

    《仿盒馬》app開發(fā)技術(shù)分享-- 分類模塊頂部導(dǎo)航列表彈窗(16)

    的index傳遞進去,選中狀態(tài)要保持同步。同時在彈窗內(nèi)選擇分類外部列表也要同步切換,并且每次切換都要在list允許居中的情況實現(xiàn)選中的item居中。 代碼實現(xiàn) 首先實現(xiàn)彈窗的創(chuàng)建數(shù)據(jù)的傳入,和選擇后
    發(fā)表于 06-30 10:34
    申扎县| 胶南市| 普兰店市| 封丘县| 辽源市| 吐鲁番市| 公主岭市| 田林县| 广平县| 鄱阳县| 花垣县| 吐鲁番市| 苏尼特左旗| 普兰店市| 浑源县| 忻州市| 阿拉善盟| 洮南市| 赤峰市| 屏山县| 兴国县| 宝清县| 临泽县| 安溪县| 青龙| 五寨县| 日照市| 乌鲁木齐县| 阿坝县| 嘉定区| 峨眉山市| 尼勒克县| 定州市| 濮阳县| 武平县| 承德县| 稻城县| 闻喜县| 四会市| 厦门市| 高阳县|