日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用CLM自身的embedding來得到OOD score?

深度學習自然語言處理 ? 來源:SimpleAI ? 作者:郭必揚 ? 2022-12-05 10:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

OOD現(xiàn)象和OOD檢測在分類任務(wù)中已經(jīng)被廣泛研究:

OOD score:maximum softmax probability(MSP),K個類別中最大的概率來作為衡量OOD的指標

selective classification:對于OOD score太低的輸入,模型拒絕輸出

在conditional language model(CLM)任務(wù)(主要是summarization,translation)中,而由于language generation主要是通過auto-regressive的方式,錯誤更容易積累,因此OOD問題可能更嚴重。

本文的主要貢獻:

提出一中輕量的、準確的基于CLM的embedding的OOD檢測方法

發(fā)現(xiàn)perplexity(ppx)不適合作為OOD檢測和文本生成質(zhì)量評估的指標

提出了一套用于OOD檢測和selective generation的評測框架

CLM中的OOD detection

如果直接套用classification任務(wù)中使用MSP作為OOD score的話,那么對于NLG問題我們就應(yīng)該采用perplexity(ppx),然而作者實驗發(fā)現(xiàn)使用ppx的效果很不好:

14e26546-73b4-11ed-8abf-dac502259ad0.jpg

從上圖可以看到,不用domain來源的數(shù)據(jù),其ppx的分布重疊程度很高;甚至有些明明是OOD的數(shù)據(jù),但其綜合的ppx比ID的數(shù)據(jù)還要低。因此ppx對ID vs OOD的區(qū)分能力很差。

如何使用CLM自身的embedding來得到OOD score?

15036304-73b4-11ed-8abf-dac502259ad0.jpg

input embedding: encoder最后一層所有hidden states平均

output embedding: decoder最后一層所有hidden states平均(ground truth對應(yīng)的位置)

151ae920-73b4-11ed-8abf-dac502259ad0.png

1. 使用兩個分布的距離來判斷——RMD score

直覺上講,當一個樣本的輸入/輸出的embedding跟我訓練樣本的embedding分布距離很遠的話,就很可能是OOD樣本。

因此,可以先用訓練數(shù)據(jù)集,對輸入和輸出空間擬合一個embedding的高斯分布:

input embedding distribution:

output embedding distribution:

然后,就可以使用馬氏距離(Mahalanobis distance,MD)來衡量新來的embedding跟訓練集embedding的距離:

馬氏距離是基于樣本分布的一種距離。物理意義就是在規(guī)范化的主成分空間中的歐氏距離。(維基百科)

1535180e-73b4-11ed-8abf-dac502259ad0.jpg

然而,已有一些研究表明,使用相對馬氏距離(即增加一個background distribution來作為一個參照),可以更好地進行OOD檢測。于是對上述公式改進為:

155ad0d0-73b4-11ed-8abf-dac502259ad0.jpg

其中是衡量test input跟一個background高斯分布的距離,這個background分布,是使用一個通用語料擬合出來的,比方使用C4語料庫。

而對于CLM這種需要成對語料的任務(wù),通用語料中一般是沒有的,所以使用通用文本通過CLM decode出來的 outputs來擬合分布:

1574380e-73b4-11ed-8abf-dac502259ad0.png

這樣一來,RMD scores實際上可能為正也可能為負:

當RMD score < 0 時,說明 test example跟training distribution更接近

當RMD score > 0 時,說明 test example跟background更接近,因此更有可能是OOD的

因此,RMD score可以直接作為OOD detection的指標。

2. 基于embedding訓練一個detector

上面是一種無監(jiān)督的辦法,作者還提出了一種有監(jiān)督的辦法,使用training samples和general samples作為兩個類別的數(shù)據(jù),使用embedding作為feature來訓練一個logistic regressive model,使用background類的logits作為OOD score:

Input Binary logits OOD score

Output Binary logits OOD score

3. OOD detection實驗

以summarization為例,實驗所用數(shù)據(jù)為:

In-domain:10000條 xsum 樣本

General samples:10000條 C4 樣本

OOD datasets:near-OOD數(shù)據(jù)集(cnn dailymail,newsroom)和far-OOD數(shù)據(jù)集(reddit tifu,forumsum,samsum)

OOD detection衡量指標:area under the ROC curve (AUROC)

159cb46e-73b4-11ed-8abf-dac502259ad0.jpg

實驗結(jié)論:

本文提出的RMD和Binary classifier都比baseline有更好的OOD檢測能力

能更好地對near-OOD這種hard cases進行檢測

15c68082-73b4-11ed-8abf-dac502259ad0.jpg

Selective Generation

當檢測到OOD時,一個最保守的做法就是直接拒絕給出輸出,從而避免潛在的風險。但是,我們依然希望當模型的輸出質(zhì)量足夠高時,即使是OOD也能輸出。

當有參考答案時,如何衡量輸出文本的質(zhì)量?

對于translation問題,使用BLEURT作為衡量指標;

對于summarization,常見是使用ROUGE score,但由于不同數(shù)據(jù)集的摘要模式差別很大,所以只使用ROUGE還不夠,作者使用亞馬遜眾籌平臺來對一批數(shù)據(jù)進行人工質(zhì)量打標。

能否找到一個指標,不需要參考答案也能衡量文本質(zhì)量?

實驗發(fā)現(xiàn),對于in-domain數(shù)據(jù),ppx跟質(zhì)量有比較好的相關(guān)性,但是對于OOD數(shù)據(jù),相關(guān)性很差。

15e4d44c-73b4-11ed-8abf-dac502259ad0.jpg

但是OOD score可以跟ppx互相補充,從而形成一個比較好的對應(yīng)指標:

15fe93c8-73b4-11ed-8abf-dac502259ad0.jpg

單獨只考察ppx或者RMD OOD score的話,難以區(qū)分質(zhì)量的高低,但是同時考察二者,就有較高的區(qū)分度。究其原因,作者這么解釋:

ppx反映的是由于內(nèi)部噪音/模糊造成的的不確定性

RMD score反映的是由于缺乏訓練數(shù)據(jù)所造成的不確定性

因此二者是互補的關(guān)系。

那么二者如何結(jié)合呢:

訓練一個linear regression

或者直接使用二者的某種“和”:,其中PR代表percentile ranks

1622261c-73b4-11ed-8abf-dac502259ad0.jpg

可以看出,這種二者結(jié)合的方法,比各種只用單個指標的baselines都能更好地反映生成的質(zhì)量。

在selective generation階段,設(shè)定一個遺棄比例,然后把quality score最低的那部分丟棄。

Key takeaways:

在生成模型中,ppx無論是作為OOD detection還是quality evaluation都是不太好的選擇

基于模型的extracted feature來做OOD detection更好,文中的RMD score就是一個例子。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • msp
    msp
    +關(guān)注

    關(guān)注

    0

    文章

    196

    瀏覽量

    36286

原文標題:CMU&Google提出:條件語言模型中的OOD檢測與選擇性生成

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Infineon XC886/888CLM 8位單片機:特性與應(yīng)用詳解

    Infineon XC886/888CLM 8位單片機:特性與應(yīng)用詳解 在電子設(shè)計領(lǐng)域,單片機作為核心部件,其性能和功能直接影響著整個系統(tǒng)的表現(xiàn)。英飛凌(Infineon)的 XC886
    的頭像 發(fā)表于 03-30 14:40 ?781次閱讀

    雙向全橋DC-DC變換器在船舶應(yīng)急電源中的應(yīng)用

    隨著新能源產(chǎn)業(yè)的發(fā)展,雙向DC - DC 變換器近年來得到了較多的關(guān)注和研究。雙向DC - DC 變換器由于其電路拓撲的優(yōu)越性,不僅可以進行能量的雙向流動,而且具有效率高、體積小和穩(wěn)定性強的優(yōu)點
    的頭像 發(fā)表于 03-25 17:47 ?6355次閱讀
    雙向全橋DC-DC變換器在船舶應(yīng)急電源中的應(yīng)用

    愛博精電榮獲“綠色工廠”認證,以自身實踐助力行業(yè)低碳轉(zhuǎn)型

    憑借在綠色制造、節(jié)能降碳方面的突出實力,北京愛博精電科技有限公司榮獲2025 年度綠色工廠認定。 這標志著愛博精電在自身生產(chǎn)體系中實現(xiàn)了高標準的綠色低碳與節(jié)能減排,更意味著作為智能配電與能源管理領(lǐng)域
    的頭像 發(fā)表于 03-17 15:19 ?204次閱讀
    愛博精電榮獲“綠色工廠”認證,以<b class='flag-5'>自身</b>實踐助力行業(yè)低碳轉(zhuǎn)型

    【瑞薩AI挑戰(zhàn)賽】階段一:基于RA8P1的人臉識別模型轉(zhuǎn)換和部署

    ; float x2 = (x + w / 2) * CAM_WIDTH; float score = out_c1[i]; if (score <= -100.0) { score
    發(fā)表于 03-09 00:49

    RAG(檢索增強生成)原理與實踐

    2.1 什么是向量檢索? 向量檢索是RAG系統(tǒng)的第一步,也是最關(guān)鍵的一步。它的任務(wù)是從海量文檔中快速找出與用戶問題最相關(guān)的內(nèi)容。 文本向量化 文本向量化(Embedding)是將文本轉(zhuǎn)換為高維向量
    發(fā)表于 02-11 12:46

    【上海晶珩睿莓 1 單板計算機】人臉識別

    = cv2.FaceDetectorYN_create( model=model_path, config=\"\", input_size=(w, h), score_threshold=conf_threshold
    發(fā)表于 01-04 20:22

    使用typede的f優(yōu)勢介紹

    name[20]; intage; float score; }student_t, *student_ptr; student_tstu = {\"wit\", 20, 99}; student_t*p1 =stu; student_ptr p2 =stu;
    發(fā)表于 11-26 08:15

    6G技術(shù)在哪些領(lǐng)域會得到應(yīng)用

    6G技術(shù)作為第六代移動通信標準,將在多個領(lǐng)域得到廣泛應(yīng)用,其核心優(yōu)勢在于通感算智深度融合、空天地一體全域覆蓋,以及從“單一通信服務(wù)”到“一站式按需服務(wù)”的跨越。以下是6G技術(shù)的主要應(yīng)用領(lǐng)域及具體場景
    的頭像 發(fā)表于 11-05 17:21 ?2223次閱讀

    企業(yè)如何根據(jù)自身需求選擇合適的電能質(zhì)量在線監(jiān)測裝置數(shù)據(jù)存儲方式?

    企業(yè)選擇電能質(zhì)量在線監(jiān)測裝置的數(shù)據(jù)存儲方式,核心是 **“以數(shù)據(jù)特征為核心,匹配自身運維能力與安全需求”**—— 先明確數(shù)據(jù)的 “量、實時性、敏感級”,再結(jié)合企業(yè)的運維資源、成本預算、擴展性需求,從
    的頭像 發(fā)表于 10-30 09:53 ?371次閱讀

    物聯(lián)網(wǎng)數(shù)據(jù)中臺在哪些場景得到應(yīng)用

    物聯(lián)網(wǎng)數(shù)據(jù)中臺在工業(yè)、能源、智慧城市、環(huán)保、設(shè)備管理等多個領(lǐng)域得到廣泛應(yīng)用,通過數(shù)據(jù)集成、實時監(jiān)控、預測性維護等功能,助力企業(yè)實現(xiàn)智能化升級與高效管理。以下是具體應(yīng)用場景及案例說明: 一、工業(yè)領(lǐng)域
    的頭像 發(fā)表于 10-29 14:43 ?503次閱讀

    雷曼光電發(fā)起Micro LED顯示專利訴訟,維護自身知識產(chǎn)權(quán)權(quán)益

    近日,雷曼光電就深圳市巴科光電科技股份有限公司及其關(guān)聯(lián)公司涉嫌侵權(quán)雷曼光電在中國獲得的“像素引擎(PSE)”原創(chuàng)專利行為,正式向深圳市中級人民法院提起專利侵權(quán)訴訟程序,以維護自身創(chuàng)新成果與合法權(quán)益
    的頭像 發(fā)表于 09-28 16:37 ?1159次閱讀

    【Milk-V Duo S 開發(fā)板免費體驗】Duo S(SG2000) CAM-GC2083 流媒體測試

    :kps_8_Conv_dequant score:score_8_Sigmoid_dequant anchor:-32,-32,32,32 anchor:-64,-64,64,64 bbox
    發(fā)表于 08-02 20:30

    求助,關(guān)于muRata 2GF在定制電路板上的集成問題求解

    我與muRata溝通了有關(guān)問題,當我使用 IFX wifi-host-driver/wifi-connection-manager 和muRata特定的 nvram/clm-blob 文件
    發(fā)表于 07-17 07:14

    具有同步續(xù)流的電動車用直流電機控制器設(shè)計

    開關(guān)速度快,通態(tài)電阻小的功率元件來得到控制。而續(xù)流二極管產(chǎn)生的續(xù)流功耗則很難降低,即使選用導通壓降很低的肖特基二極管,導通壓降也至少在0.6V以上,隨著續(xù)流電流的上升其壓降還會進一步增大,那么在續(xù)流
    發(fā)表于 06-05 11:23

    有霍爾傳感器SVPWM學習總結(jié)

    使用不同的電壓空間矢量來得到一個更趨近于圓形磁場的一個磁鏈軌跡。 這里需要明確,為什么通過使用不用的電壓空間矢量就可以得到圓形磁鏈軌跡呢?下面我們就來推導下具體過程: 圖一:定子電壓空間矢量
    發(fā)表于 05-09 13:54
    德格县| 乐平市| 静宁县| 德安县| 清涧县| 大港区| 安丘市| 万年县| 华安县| 安宁市| 曲周县| 吴旗县| 海淀区| 曲松县| 石城县| 察雅县| 延庆县| 开鲁县| 屯昌县| 安平县| 仙居县| 文成县| 鹤壁市| 筠连县| 揭东县| 丹寨县| 新晃| 济南市| 陆良县| 历史| 织金县| 呼图壁县| 绥宁县| 乃东县| 海原县| 额济纳旗| 广饶县| 宝鸡市| 南城县| 道孚县| 华宁县|