日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

ERNIE-Search模型結構

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2022-08-03 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說來慚愧,之前寫了一篇對向量召回的總結(前沿重器[28] | 前沿的向量召回都是怎么做的),萬萬沒想到現(xiàn)在就來寫新文章了,而且上面的總結還沒提到,大家當做擴展和補充吧。

眾所周知,在語義相似度上,交互式方案總會比非交互方案更容易獲得較好的效果,然而在召回上,非交互式方案(也就是表征式)具有得天獨厚的優(yōu)勢,我們最終使用的,又不得不是非交互的方案,因此我們會嘗試進一步優(yōu)化非交互方案。

最近開始發(fā)現(xiàn)一些從交互式蒸餾到交互的方案,例如21年年末美團提出的VIRT(VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction),今天我們來聊的是百度在22年5月份提出的方案,我認為這篇論文是這個領域內(nèi)目前比較有代表性的,主要有這幾個原因:

整理了一些比較好的蒸餾思路和方向。

對這些蒸餾方案做了一些消融實驗。

試驗了一些前處理的方案,甚至包括一些furture pretrain。

論文和有關資料放這里:

原論文:ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval

文章講解:

https://zhuanlan.zhihu.com/p/522301876

https://blog.csdn.net/moxibingdao/article/details/125713542

https://zhuanlan.zhihu.com/p/518577648

表征式能逼近交互式嗎

之所以想先聊這個,是因為想說一下這兩者之間存在的可能性,即表征式是否可以達到交互式的效果,從蘇神有關這塊的推理來看(https://spaces.ac.cn/archives/8860),其實是可行的,雖然這塊的推理并不算嚴格,但是這個推理已經(jīng)相對可靠了,換言之,我們可能可以找到更好的學習方法,找到這樣一組參數(shù),使表征式能達到交互式效果的這個理論高度。

ERNIE-Search模型結構

模型結構,我比較想從損失函數(shù)開始講,其實從損失函數(shù)看就能看出本文很大部分的貢獻:

這個損失的內(nèi)容非常多,我把他分為兩個部分,一個是獨立訓練的部分(不帶箭頭的),另一個是蒸餾部分(帶箭頭的)。首先是獨立訓練的部分,這部分主要是直接針對標簽進行訓練的,無論是teacher模型還是student模型,其實都是需要這個部分的。

:cross-encoder,交互式的方案,在這篇論文里,使用的是ERNIE2.0(4.1.3中提到)。

:late-interaction,延遲交互方案,這里是指介于交互式和表征式之間的方案,開頭是雙塔,后續(xù)的交互式并非cos而是更復雜的交互方式,如ColBERT(ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT)。

:Dual-encoder,表征式方案,就是常說的雙塔,本文用的是同樣是ERNIE2.0(4.1.3中提到)。

另一部分則是蒸餾部分,這里的蒸餾部分作者是做了很多的心血進行分析的,構造了好幾個損失函數(shù),分別是這些,這里的幾個蒸餾損失函數(shù)用的都是KL散度:

:交互方案蒸餾到延遲交互方案。

:延遲交互方案蒸餾到表征式方案(和共同形成級聯(lián)蒸餾)。

:交互方案蒸餾到表征式方案。

:最特別的一個。實質上是一個token級別的交互損失,旨在希望延遲交互得到的attn矩陣和交互式的attn矩陣盡可能接近。

回到損失函數(shù)本身,其實會發(fā)現(xiàn)這個損失函數(shù)是由多個損失函數(shù)組合起來的,敏銳的我們可以發(fā)現(xiàn),這里的幾個損失之間的權重是完全一樣的,估計調(diào)整下可能還有些空間吧,不過也考慮到損失函數(shù)實在夠多了,調(diào)起來真的不容易。

說起效果,這點作者是做了消融實驗的:

2da671d4-1258-11ed-ba43-dac502259ad0.jpg

損失函數(shù)消融實驗

從實驗結果來看,其中貢獻最大的是,也就是交互方案蒸餾到延遲交互方案,其二是(我感覺就是),這個也挺符合直覺的吧,但是比較神奇的是去掉了比較多以后,就是#6的實驗,好像最終對結果的損失反而會變少,這個有些神奇,有待進一步實驗和探索吧,當然,我感覺這里可能和權重也有關。

訓練策略

還需要提一個關鍵點就是文章在4.1.3中提到的訓練策略,這個特別的訓練策略為最終的結果貢獻度不少(可以參考消融實驗),因此展開說一下:

使用對應語料對預訓練模型(應該就是ERNIR2.0)進行繼續(xù)預訓練,這個階段在文中也被稱為post-train。

對QA任務,使用交互式蒸餾到表征式的方案,訓練表征式模型。

對QA任務,再使用上面的級聯(lián)蒸餾方案,訓練表征式模型,和上一條被聯(lián)合稱為finetune階段。

另外,在3.4中,有提到一個訓練策略叫Dual Regularization(DualReg),其實我感覺這個和r-dropout很相似(前沿重器[15] | R-Dropout——一次不行就兩次),用兩個不同隨機種子的dropout對表征式進行前向訓推理,得到兩個表征結果,用KL散度進行學習,而因為雙塔,實際上要對q1和q2都這么做一次,所以實際上會多兩個損失函數(shù)。

2dbf2ca6-1258-11ed-ba43-dac502259ad0.jpg

訓練策略消融實驗

這些訓練策略的效果,在4.3.1中有進行消融實驗,如上圖所示,直觀地,從這個表其實可以發(fā)現(xiàn)幾個信息:

ID'(也就是交互式蒸餾)具有一定的優(yōu)勢,尤其是在Finetuning階段,但是在Post-train中的收益似乎不那么明顯。

DualReg似乎是有些效果的,但是不清楚為什么要把CB(RocketQA中的提到的跨batch負采樣策略)也放一起,就感覺這個東西和本文的創(chuàng)新點沒啥關系,讓我們并不知道是CB的貢獻,還是DualReg的貢獻了。

但是感覺做的有一些馬虎,主要是為了證明這個ID'(也就是交互式整流)的方案比較厲害,但是從這個表來看收效沒有想象的大額,不過有一說一,前面的繼續(xù)預訓練還是非常值得我們學習和嘗試的,這點我在(前沿重器[26] | 預訓練模型的領域適配問題)中有提到過。

小結

總結下來,這篇文章最大的特點是把“通過學習交互式,來讓表征式效果進一步提升”這個思路發(fā)揮很極致,讓我們知道了這個方案的潛力,這個是有些實驗和落地價值的。

除此之外,這篇文章在初讀的時候,其實發(fā)現(xiàn)了不少新的概念(可能也是我有些匱乏吧),所以挖了不少坑,論文里的下面這張表其實都值得我好好讀一下,當然也包括introduction里面的。

2dd06cfa-1258-11ed-ba43-dac502259ad0.jpg

對比實驗

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關注

    關注

    3

    文章

    4423

    瀏覽量

    67886
  • 模型
    +關注

    關注

    1

    文章

    3839

    瀏覽量

    52293

原文標題:ERNIE-Search:向交互式學習的表征式語義匹配代表作

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    沐曦股份曦云C系列GPU產(chǎn)品Day 0適配百度文心ERNIE-Image文生圖模型

    4月15日,百度文心大模型團隊重磅推出ERNIE?Image文生圖模型,沐曦股份曦云 C 系列 GPU 已完成對 ERNIE?Image 的Day 0 深度適配,同步支持
    的頭像 發(fā)表于 04-15 17:39 ?522次閱讀

    海光DCU Day0適配百度文心ERNIE-Image文生圖模型

      今天,百度文心大模型團隊發(fā)布ERNIE-Image文生圖模型,海光DCU同步完成Day0適配與深度調(diào)優(yōu)。全球開發(fā)者、科研機構和企業(yè)現(xiàn)可免費在光合開發(fā)者社區(qū)下載模型并使用,以極致輕量
    的頭像 發(fā)表于 04-15 15:47 ?315次閱讀

    知識分享-嵌入式系統(tǒng)可靠性模型

    嵌入式系統(tǒng)可靠性設計技術及案例解析1.3嵌入式系統(tǒng)可靠性模型嵌入式系統(tǒng)可靠性模型分為兩種:串聯(lián)結構模型和并聯(lián)結構模型。在進行嵌入式系統(tǒng)設計時,為了保證部分關鍵環(huán)節(jié)的可靠性,會采取并聯(lián)備
    的頭像 發(fā)表于 03-11 16:43 ?442次閱讀
    知識分享-嵌入式系統(tǒng)可靠性<b class='flag-5'>模型</b>

    RDMA設計37:RoCE v2 子系統(tǒng)模型設計

    、五個處理單元及一個 CM 管理器。 RoCE v2 子系統(tǒng)模型結構如圖1所示: 圖1 RoCE v2 子系統(tǒng)模型結構如圖 AXIS 總線接口及輸入輸出緩沖:用于從 DUT 的 AX
    發(fā)表于 02-06 16:19

    京東關鍵詞item_search-按關鍵字搜索京東商品

    京東關鍵詞搜索(item_search)技術實現(xiàn)指南:合規(guī) API 調(diào)用 + 數(shù)據(jù)運營實戰(zhàn) 京東商品關鍵詞搜索(item_search)是電商技術從業(yè)者核心需求之一,需優(yōu)先采用 京東官方開放平臺
    的頭像 發(fā)表于 01-06 09:27 ?1439次閱讀

    京東按關鍵字搜索商品 API接口item_search Pro

    京東搜索商品 API(item_search Pro)賦能電商運營全指南 item_search Pro 是京東商品搜索接口的增強版(第三方封裝或官方增強能力),核心用于按關鍵詞 / 條件檢索商品
    的頭像 發(fā)表于 01-05 11:03 ?752次閱讀

    百度文心大模型5.0 Preview榮登LMArena文本榜國內(nèi)第一

    12月23日,LMArena大模型競技場發(fā)布最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名國內(nèi)第一該模型在創(chuàng)意寫作、高難度指
    的頭像 發(fā)表于 12-23 15:02 ?698次閱讀

    二進制查找(Binary Search)介紹

    二進制查找(Binary Search)用于在已排序的數(shù)組中執(zhí)行二進制查找的函數(shù)。 int binary_search(int arr[], int size, int target
    發(fā)表于 12-12 06:54

    百度文心大模型5.0-Preview文本能力國內(nèi)第一

    11月8日凌晨,LMArena大模型競技場最新排名顯示,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中國第一該模型在創(chuàng)意寫作、復雜長問題理解、指
    的頭像 發(fā)表于 11-11 17:15 ?1681次閱讀

    Siumulink模型測試典型問題分享——模型層級設計不合理

    典型測試問題分享-模型層級設計不合理 問題描述: ?重點功能與非重點功能混合,導致測試層級選擇困難。 ?模型未體現(xiàn)層級劃分,結構平鋪導致層級圈復雜度異常。 ?部分計算/判斷/賦值等結構
    的頭像 發(fā)表于 09-20 12:31 ?3119次閱讀
    Siumulink<b class='flag-5'>模型</b>測試典型問題分享——<b class='flag-5'>模型</b>層級設計不合理

    NVMe高速傳輸之擺脫XDMA設計27: 橋設備模型設計

    構造 PCIe Switch 模型。 最小橋設備模型結構如圖 1所示。圖1 最小橋設備模型結構圖 最小橋設備
    發(fā)表于 09-18 09:11

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰(zhàn)解析

    摘要 :小語種OCR研發(fā)的核心瓶頸在于高質量標注數(shù)據(jù)的稀缺與高昂成本。本文介紹一種創(chuàng)新的自動化標注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調(diào)用 ERNIE 4.5 大模型進行雙重預測
    的頭像 發(fā)表于 08-29 11:26 ?3894次閱讀
    小語種OCR標注效率提升10+倍:PaddleOCR+<b class='flag-5'>ERNIE</b> 4.5自動標注實戰(zhàn)解析

    模型推理顯存和計算量估計方法研究

    、顯存估計方法 基于模型結構的顯存估計 根據(jù)深度學習模型的層次結構和參數(shù)數(shù)量,可以估算模型在推理過程中所需的顯存大小。具體方法如下: (1)
    發(fā)表于 07-03 19:43

    Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端側部署

    ImaginationTechnologies宣布率先完成百度文心大模型ERNIE4.5開源版)在其GPU硬件上的端側部署。適配完成后,開發(fā)者可在搭載ImaginationGPU的設備上實現(xiàn)高效
    的頭像 發(fā)表于 07-01 08:17 ?1125次閱讀
    Say Hi to <b class='flag-5'>ERNIE</b>!Imagination GPU率先完成文心大<b class='flag-5'>模型</b>的端側部署

    NVIDIA助力圖靈新訊美推出企業(yè)級多模態(tài)視覺大模型融合解決方案

    憑借深厚的行業(yè)經(jīng)驗和系統(tǒng)集成能力,圖靈新訊美率先基于 NVIDIA 用于視頻搜索與總結 (VSS, Video Search and Summarization) 的 AI Blueprint,在
    的頭像 發(fā)表于 06-26 09:17 ?1554次閱讀
    蚌埠市| 泊头市| 三亚市| 宣城市| 阳泉市| 石阡县| 宁城县| 兴化市| 巴林左旗| 古田县| 玉林市| 岫岩| 蕲春县| 长沙县| 清丰县| 莒南县| 东乡| 青铜峡市| 舟曲县| 宜兰市| 蛟河市| 阳泉市| 玛纳斯县| 宁化县| 商河县| 河池市| 通许县| 太白县| 三穗县| 高密市| 永年县| 沂南县| 满城县| 合肥市| 攀枝花市| 麻城市| 潼南县| 陵水| 阿合奇县| 广宗县| 开原市|