日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對預(yù)訓(xùn)練模型在召回與排序部分的應(yīng)用做一個總結(jié)

深度學(xué)習(xí)自然語言處理 ? 來源:NewBeeNLP ? 作者:Chilia ? 2022-09-06 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文對預(yù)訓(xùn)練模型在召回(retrieval), 排序(re-ranking),以及其他部分的應(yīng)用做一個總結(jié)。

1. 背景

搜索任務(wù)就是給定一個query或者QA中的question,去大規(guī)模的文檔庫中找到相似度較高的文檔,并返回一個按相關(guān)度排序的ranked list。

由于待訓(xùn)練的模型參數(shù)很多(增加model capacity),而專門針對檢索任務(wù)的有標(biāo)注數(shù)據(jù)集較難獲取,所以要使用預(yù)訓(xùn)練模型。

2. 檢索模型的分類

檢索的核心,在于計算query和document的 相似度 。依此可以把信息檢索模型分為如下三類:

基于統(tǒng)計的檢索模型

使用exact-match來衡量相似度,考慮的因素有query中的詞語在document中出現(xiàn)的詞頻TF、document長度(懲罰長文本,例如一個詞在300頁的文章中出現(xiàn)過2次遠(yuǎn)遠(yuǎn)不如一個詞在一小段微博動態(tài)里出現(xiàn)過兩次)、逆文檔詞頻IDF(懲罰在所有文檔中都出現(xiàn)過很多次的詞,例如“的”)。

代表性的模型是BM25,用來衡量一個term在doc中的重要程度,其公式如下:

82f8f35c-2d86-11ed-ba43-dac502259ad0.png懲罰長文本、對詞頻做飽和化處理

實際上,BM25是檢索模型的強baseline?;趀xact-match的檢索模型是召回中必不可少的一路。

Learning-to-Rank模型

這類模型需要手動構(gòu)造特征,包括

query端特征,如query類型、query長度(還可以加入意圖slot?);

document端特征(document長度,Pagerank值);

query-document匹配特征(BM25值,相似度,編輯距離等)。

其實,在現(xiàn)在常用的深度檢索模型中也經(jīng)常增加這種人工構(gòu)造的特征。根據(jù)損失函數(shù)又可分為pointwise(簡單的分類/回歸損失)、Pairwise(triplet hinge loss,cross-entropy loss)、Listwise。

深度模型

使用query和document的embedding進行端到端學(xué)習(xí)??梢苑譃?/p>

representation-focused models(用雙塔建模query和document,之后計算二者相似度,雙塔之間無交互,用于召回)

interaction-focused models(金字塔模型,計算每個query token和每個document token的相似度矩陣,用于精排。精排階段還可增加更多特征,如多模態(tài)特征、用戶行為特征、知識圖譜等)

3. 預(yù)訓(xùn)練模型在倒排索引中的應(yīng)用

基于倒排索引的召回方法仍是在第一步召回中必不可少的,因為在第一步召回的時候我們面對的是海量的文檔庫,基于exact-match召回速度很快。但是,其模型capacity不足,所以可以用預(yù)訓(xùn)練模型來對其進行模型增強。

3.1 term re-weighting

代表論文: DeepCT (Deep Contextualized Term Weighting framework: Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval).

普通的exact-match中衡量一個詞在query/document中的重要程度就是通過詞頻(TF)或者TFIDF,或者TFIDF的改進版本--BM25,例如在建立倒排索引的時候,每個term在不同document的重要程度就是用TF來衡量的。

但是,一個詞在兩個document中出現(xiàn)頻率相同,就說明這個詞在兩個document中同樣重要嗎?其實詞的重要程度比詞頻要復(fù)雜的多。

所以,可以使用contextualized模型,例如BERT,Elmo等獲得每個詞的 上下文 表示,然后通過簡單的線性回歸模型得到每個詞在document中的重要程度。文檔真實詞語權(quán)重的估計如下,這個值作為我們訓(xùn)練的label:

其中, 是與文檔 d 相關(guān)的查詢問題的集合; 是包含詞語 t 的查詢問題集合 的子集; 是文檔 d 中詞語 t 的權(quán)重。的取值范圍為,以此為label訓(xùn)練。這樣,我們就得到了一個詞在document中的重要程度,可以替換原始TF-IDF或BM25的詞頻。對于query,也可以用同樣的方法得到每個詞的重要程度,用來替換TFIDF。

830cc8e6-2d86-11ed-ba43-dac502259ad0.png

3.2 Document expansion

除了去估計不同term在document中的重要程度,還可以直接顯式地擴增document,這樣一來提升了重要詞語的權(quán)重,二來也能夠召回"詞不同意同"的文檔(解決lexical-mismatch問題)。

例如,可以對T5在query-document對上做微調(diào),然后對每個document做文本生成,來生成對應(yīng)的query,再加到document中。之后,照常對這個擴增好的document建倒排索引,用BM25做召回。代表工作:docTTTTTquery[3]

同樣地,也可以對query進行擴增。例如對于QA中的question,可以把訓(xùn)練目標(biāo)定為包含答案的句子、或者包含答案的文章title,然后用seq2seq模型訓(xùn)練,再把模型生成的文本加到query后面,形成擴增的query。

3.3 term reweighting + document expansion

那么,我們可不可以同時做term reweighting和document expansion呢?這方面的代表工作是Sparterm[4]

此模型分為兩部分:重要度預(yù)測模塊(用來得到 整個vocab上 的重要程度)和門控模塊(得到二進制的門控信號,以此來得到最終保留的稀疏token,最終只能保留 個token)。由于重要度是針對整個vocab而言的,所以可以同時實現(xiàn)重要度評估+詞語擴增。

8329f038-2d86-11ed-ba43-dac502259ad0.png


重要度預(yù)測模塊采用了類似MLM的思想,即先用BERT對句子做好contextualized embedding,然后乘上vocab embedding 矩陣 E ,得到這個詞對應(yīng)的重要度分布:

這句話整體的重要度分布就是所有詞對應(yīng)的重要度分布取relu(重要度不能是負(fù)數(shù)),然后加起來的和:

門控模塊和重要度評估模塊的計算方法類似,只是參數(shù)不再是 E , 而是另外的變換矩陣。得到gating distribution G 之后,先將其0/1化為 G' (如果G中元素>threshold則取1,否則取0);然后得到我們需要保留的詞語(exact-match必須保留,還增加一些擴增的token)。

通過端到端的方式訓(xùn)練,訓(xùn)練的損失函數(shù)有兩個,其中一個就是我們常見的ranking loss,即取 三元組,然后求對比cross-entropy loss。這里的q', p'都是經(jīng)過重要度評估模塊+門控模塊之后得到的句子表征,因此loss反傳可以對重要度評估模塊和門控模塊進行更新。

8342d22e-2d86-11ed-ba43-dac502259ad0.png

另一個loss專門對門控模塊做更新,訓(xùn)練數(shù)據(jù)是對,對于一個document,先得到其門控向量G, 然后去和實際的query進行對比:

836164d2-2d86-11ed-ba43-dac502259ad0.jpg


T為真實query的bag of words




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 矩陣
    +關(guān)注

    關(guān)注

    1

    文章

    450

    瀏覽量

    36282
  • 機器學(xué)習(xí)算法

    關(guān)注

    2

    文章

    47

    瀏覽量

    6871

原文標(biāo)題:總結(jié)!語義信息檢索中的預(yù)訓(xùn)練模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    零基礎(chǔ)手寫大模型資料2026

    零基礎(chǔ)純代碼手寫大模型:從數(shù)學(xué)原理到工程實踐的技術(shù)解析 深度學(xué)習(xí)框架高度封裝的今天,理解大模型底層原理的開發(fā)者愈發(fā)稀缺。本文將剝離復(fù)雜框架的依賴,從數(shù)學(xué)基礎(chǔ)出發(fā),解析如何用基礎(chǔ)代碼實現(xiàn)
    發(fā)表于 05-01 17:44

    AI Ceph 分布式存儲教程資料大模型學(xué)習(xí)資料2026

    的混合策略,存儲系統(tǒng)既能保證硬件故障(如硬盤損壞、節(jié)點宕機)下的數(shù)據(jù)高可靠性,又能提供比傳統(tǒng)多副本更高的存儲利用率。 分布式環(huán)境下,數(shù)據(jù)致性是另一個科技挑戰(zhàn)。
    發(fā)表于 05-01 17:35

    HM博學(xué)谷狂野AI大模型第四期

    的工程內(nèi)幕 模型的誕生,離不開海量數(shù)據(jù)的訓(xùn)練與精調(diào)。狂野 AI 第四期將視角深入到模型訓(xùn)練
    發(fā)表于 05-01 17:30

    Edge Impulse 喚醒詞模型訓(xùn)練 | 技術(shù)集結(jié)

    今天,將手把手帶領(lǐng)學(xué)習(xí)如何訓(xùn)練語音關(guān)鍵詞模型部署到嵌入式硬件上,采用Edgi-Talk平臺適配EdgeImpulse,當(dāng)然原理在其他的ARM嵌入式平臺也是通用的。讓我們看看如何讓
    的頭像 發(fā)表于 04-20 10:05 ?1375次閱讀
    Edge Impulse 喚醒詞<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b> | 技術(shù)集結(jié)

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)課

    從零開始預(yù)訓(xùn)練。事實上,微調(diào)技術(shù)的成熟,徹底打破了這門檻。 微調(diào)的本質(zhì),是“舉反三”的遷移學(xué)習(xí)。就好比
    發(fā)表于 04-16 18:48

    AI模型訓(xùn)練與部署實戰(zhàn) | 線下免費培訓(xùn)

    你是否想系統(tǒng)了解AI落地全鏈路,但缺少完整的實戰(zhàn)項目練手?模型部署環(huán)節(jié)繁多,缺乏套清晰的實戰(zhàn)路徑?4月18日、4月25日、5月16日RT-Thread將分別在蘇州、成都、南京舉辦
    的頭像 發(fā)表于 04-07 13:08 ?702次閱讀
    AI<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>與部署實戰(zhàn) | 線下免費培訓(xùn)

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中模型訓(xùn)練所需的算力投入。
    的頭像 發(fā)表于 02-05 16:07 ?1061次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進行預(yù)訓(xùn)練,學(xué)會語
    的頭像 發(fā)表于 02-02 16:36 ?1157次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    C語言插入排序算法和代碼

    插入排序排序算法的種,它不改變原有的序列(數(shù)組),而是創(chuàng)建新的序列,新序列上進行操作。
    發(fā)表于 01-15 06:44

    Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗

    本帖欲分享Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為
    發(fā)表于 10-22 07:03

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3702次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機器人操作領(lǐng)域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導(dǎo)致統(tǒng)訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1253次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發(fā)表于 07-30 08:15

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    運行kmodel模型驗證直報錯怎么解決?

    我這運行kmodel模型驗證直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓(xùn)練
    發(fā)表于 06-10 08:02
    镇远县| 双峰县| 西充县| 民县| 措美县| 油尖旺区| 关岭| 剑河县| 凉城县| 报价| 个旧市| 海安县| 濉溪县| 武威市| 兴国县| 巧家县| 临江市| 鄢陵县| 晋宁县| 福海县| 绥芬河市| 南部县| 贺州市| 彰化市| 大安市| 来凤县| 三穗县| 阿拉善左旗| 建湖县| 彭泽县| 岐山县| 荔波县| 绿春县| 南川市| 五指山市| 信丰县| 华蓥市| 四川省| 任丘市| 昭觉县| 财经|