日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

雙塔模型擴(kuò)量負(fù)樣本的方法比較

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NewBeeNLP ? 作者:雨下 ? 2022-07-08 10:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

之前有一段時(shí)間做過(guò)雙塔的召回模型[1],線(xiàn)上各個(gè)指標(biāo)有了不錯(cuò)的提升。目前雙塔模型也是被各大公司鐘愛(ài)的召回模型。對(duì)主流召回模型的分享整理在:總結(jié)下自己做過(guò)的深度召回模型

雙塔模型在訓(xùn)練時(shí)是對(duì)一個(gè)batch內(nèi)樣本訓(xùn)練。一個(gè)batch內(nèi)每個(gè)樣本 (user和item對(duì))為正樣本,該user與batch內(nèi)其它item為負(fù)樣本。這樣訓(xùn)練的方式可能有以下問(wèn)題:

負(fù)樣本的個(gè)數(shù)不足。訓(xùn)練時(shí)負(fù)樣本個(gè)數(shù)限制在了batch內(nèi)樣本數(shù)減1,而線(xiàn)上serving時(shí)需要在所有候選集中召回用戶(hù)感興趣的樣本。模型只能從當(dāng)前batch內(nèi)區(qū)分出batch內(nèi)正樣本,無(wú)法很好地從所有候選集中區(qū)分正樣本。

未點(diǎn)擊的item沒(méi)有做負(fù)樣本。由于batch內(nèi)的item都是被點(diǎn)擊過(guò)的,因此沒(méi)有被點(diǎn)擊item無(wú)法成為負(fù)樣本,在線(xiàn)上serving容易它們被召回出來(lái)。一種解決方法是之前沒(méi)被點(diǎn)擊過(guò)的item不導(dǎo)出到候選集中,然而這樣存在的問(wèn)題是召回的item很多是之前點(diǎn)擊的熱門(mén)item,而很多冷門(mén)的item沒(méi)有機(jī)會(huì)召回。

最近,有兩篇文章提出了雙塔模型擴(kuò)量負(fù)樣本的方法。這兩種方法我也曾嘗試過(guò),線(xiàn)下線(xiàn)上指標(biāo)也有一定的提升。

一、Two Tower Model

再介紹其它方法之前,先回顧一下經(jīng)典的雙塔模型建模過(guò)程。

用 表示雙塔模型計(jì)算的user 和item 的相似性:

是表示user塔,輸出user表示向量; 是item,輸出item表示向量。最后相似性是兩個(gè)向量的余弦值。batch內(nèi)概率計(jì)算公式為:表示一個(gè)batch的意思。損失函數(shù)是交叉熵。

作者在計(jì)算user和item的相似度時(shí),用了兩個(gè)優(yōu)化方法:

。 可以擴(kuò)大相似度范圍,擴(kuò)大差距。

。 是item 在隨機(jī)樣本中被采樣的概率,也就是被點(diǎn)擊的概率。

關(guān)于優(yōu)化2的解釋有很多。論文中說(shuō)熱門(mén)item出現(xiàn)在batch內(nèi)概率較大,因此會(huì)被大量做負(fù)樣本。另一種解釋是增加對(duì)冷門(mén)item的相似度。相比熱門(mén)item,冷門(mén)item更能反映用戶(hù)興趣。

圖1反映了雙塔模型的batch采樣過(guò)程。query也可以表示user。我們采樣一個(gè)batch的user和對(duì)應(yīng)正樣本的item,計(jì)算各自的embedding后,通過(guò)點(diǎn)乘得到logits(B*B)的矩陣。label矩陣是一個(gè)單位矩陣。logit矩陣與label矩陣的每對(duì)行向量一起求交叉熵。

e387cbe6-f6d4-11ec-ba43-dac502259ad0.png

圖1:雙塔模型batch采樣

二、Mixed Negative Samping(MNS)

MNS[2]與雙塔模型[1]出自谷歌團(tuán)隊(duì)的同一批作者。用一個(gè)batch數(shù)據(jù)訓(xùn)練時(shí),MNS還會(huì)在所有的數(shù)據(jù)集中采樣出 個(gè)item。這樣可以讓所有的item參與到訓(xùn)練中,一些曝光未點(diǎn)擊的item也會(huì)當(dāng)作負(fù)樣本。同時(shí),雙塔模型中使用的 等于訓(xùn)練樣本中的頻率加上所有數(shù)據(jù)集中的頻率分布。概率公式重新定義如下:

作者在這里只對(duì)負(fù)樣本的相似性減去了頻率的log值。

MNS的batch采樣方法見(jiàn)圖2。最終計(jì)算的logits和label矩陣是一個(gè)B*(B+B')維的。其實(shí)就是在圖1展示的基礎(chǔ)上再增加B'列。logits的最后B'列是user與B‘內(nèi)的item計(jì)算的相似性,label的最后B'列是全0矩陣。

相比于每個(gè)樣本都隨機(jī)采樣出一定量的負(fù)樣本,為每個(gè)batch都采樣出B‘個(gè)負(fù)樣本的不僅有先前雙塔模型的計(jì)算效率,也緩和負(fù)樣本不足的問(wèn)題,并且讓每個(gè)樣本均有機(jī)會(huì)做負(fù)樣本。

e3a3695a-f6d4-11ec-ba43-dac502259ad0.png

圖2:MNS的batch采樣

三、Cross Batch Negative Samping(CBNS)

CBNS[2]是清華大學(xué)和華為合作提出的方法。文中提到,雙塔模型的計(jì)算優(yōu)勢(shì)在于利用了batch內(nèi)的負(fù)樣本,減小的計(jì)算量。如果我們想擴(kuò)大batch內(nèi)樣本個(gè)數(shù),加大負(fù)樣本個(gè)數(shù),需要很多的內(nèi)存。因此,作者提出一個(gè)使用之前訓(xùn)練過(guò)的item作為負(fù)樣本的方法。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練達(dá)到一定輪數(shù)后,會(huì)對(duì)相同的樣本產(chǎn)生穩(wěn)定的向量。作者在論文中定義了這個(gè)想法。因此把之前訓(xùn)練過(guò)的item作為當(dāng)前訓(xùn)練的負(fù)樣本時(shí),模型只需要把這些item的向量拿過(guò)來(lái)使用,不需要再輸出到神經(jīng)網(wǎng)絡(luò)中產(chǎn)生新的向量,畢竟這兩種向量的差距較小。

作者使用了FIFO(先進(jìn)先出)隊(duì)列,item塔輸出向量時(shí),會(huì)放進(jìn)FIFO中。當(dāng)warm-up training達(dá)到一定的輪數(shù)后,訓(xùn)練模型時(shí),會(huì)從FIFO拿出一批向量作為負(fù)樣本的向量。這樣做不僅減少了計(jì)算量,在擴(kuò)充負(fù)樣本的時(shí)候也減少了內(nèi)存的使用。計(jì)算公式與MNS差別不大:

也就是內(nèi)容一中的優(yōu)化2。B'在這里是從FIFO中取出的一批向量。

圖3展示了CBNS與只用batch內(nèi)負(fù)樣本的不同。CBNS維持了一個(gè)memory bank。在訓(xùn)練時(shí),會(huì)從里面拿出一定量的向量。

然而,CBNS的負(fù)樣本只有點(diǎn)擊過(guò)的樣本,未點(diǎn)擊的樣本無(wú)法作為負(fù)樣本。

e3b87548-f6d4-11ec-ba43-dac502259ad0.png

圖3:CBNS采樣方法

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108206
  • fifo
    +關(guān)注

    關(guān)注

    3

    文章

    407

    瀏覽量

    45923

原文標(biāo)題:雙塔模型如何選擇負(fù)樣本?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    : CLIP模型 :采用雙塔結(jié)構(gòu),分別用圖像編碼器和文本編碼器提取特征,通過(guò)對(duì)比損失(Contrastive Loss)使匹配的圖文對(duì)在特征空間中距離更近。例如訓(xùn)練時(shí)將\"貓\"
    發(fā)表于 05-01 17:46

    航空發(fā)動(dòng)機(jī)滑油箱負(fù)過(guò)載腔隔板溢流通道內(nèi)油液輸運(yùn)行為及對(duì)供油能力貢獻(xiàn)度量化分析

    針對(duì)滑油箱過(guò)載試驗(yàn)驗(yàn)證能力不足的工程瓶頸,基于VOF多相流模型與可實(shí)現(xiàn)的k-ε湍流模型,建立了滑油箱負(fù)過(guò)載腔動(dòng)態(tài)供油的數(shù)值模擬方法。通過(guò)構(gòu)建包含負(fù)
    的頭像 發(fā)表于 04-21 09:50 ?276次閱讀
    航空發(fā)動(dòng)機(jī)滑油箱<b class='flag-5'>負(fù)</b>過(guò)載腔隔板溢流通道內(nèi)油液輸運(yùn)行為及對(duì)供油能力貢獻(xiàn)度量化分析

    海光DCU完成Qwen3.5多模態(tài)MoE模型適配

    近日,海光DCU完成Qwen3.5-397B MoE旗艦多模態(tài)模型、Qwen3.5-35B-A3B MoE多模態(tài)模型適配、精度對(duì)齊與推理部署驗(yàn)證。本次適配依托FlagOS專(zhuān)屬vLLM-plugin-FL多芯片插件實(shí)現(xiàn)落地。
    的頭像 發(fā)表于 03-26 09:35 ?768次閱讀

    新一代單目標(biāo) AI 跟蹤算法,解決典型困難場(chǎng)景下的跟蹤穩(wěn)定性問(wèn)題

    作為具備算法定制開(kāi)發(fā)的公司,成都慧視之前的目標(biāo)跟蹤算法均是采用相關(guān)跟蹤,通過(guò)在線(xiàn)更新分類(lèi)模型來(lái)實(shí)現(xiàn)目標(biāo)的定位跟蹤。即以當(dāng)前幀目標(biāo)區(qū)域?yàn)檎?b class='flag-5'>樣本,背景區(qū)域?yàn)?b class='flag-5'>負(fù)樣本,基于機(jī)器學(xué)習(xí)或其他
    的頭像 發(fā)表于 03-17 17:59 ?710次閱讀
    新一代單目標(biāo) AI 跟蹤算法,解決典型困難場(chǎng)景下的跟蹤穩(wěn)定性問(wèn)題

    模型 ai coding 比較

    第三方裁判更客觀 樣本說(shuō)明:當(dāng)前樣本30題,統(tǒng)計(jì)意義有限,建議后續(xù)擴(kuò)大到100+題 數(shù)據(jù)污染風(fēng)險(xiǎn):評(píng)估經(jīng)典題目被模型訓(xùn)練集見(jiàn)過(guò)的可能性
    發(fā)表于 02-19 13:43

    請(qǐng)問(wèn)單片機(jī)程序存儲(chǔ)器64KB是外擴(kuò)的還是外擴(kuò)加內(nèi)部的呢?

    單片機(jī)程序存儲(chǔ)器64KB是外擴(kuò)的還是外擴(kuò)加內(nèi)部的呢?
    發(fā)表于 01-06 08:24

    模板驅(qū)動(dòng) 無(wú)需訓(xùn)練數(shù)據(jù) SmartDP解決小樣本AI算法模型開(kāi)發(fā)難題

    。但是這個(gè)平臺(tái)不適用于小樣本AI模型開(kāi)發(fā),特別是一些特殊行業(yè),數(shù)據(jù)本來(lái)就不多,但又有著需求,因此陷于兩難。面臨這種市場(chǎng)困境,慧視光電推出了一個(gè)全新的AI平臺(tái)Sma
    的頭像 發(fā)表于 09-09 17:57 ?1576次閱讀
    模板驅(qū)動(dòng)  無(wú)需訓(xùn)練數(shù)據(jù)  SmartDP解決小<b class='flag-5'>樣本</b>AI算法<b class='flag-5'>模型</b>開(kāi)發(fā)難題

    模型推理顯存和計(jì)算估計(jì)方法研究

    過(guò)程中需要占用大量顯存,導(dǎo)致推理速度變慢,甚至無(wú)法進(jìn)行。 計(jì)算量過(guò)大:大模型的計(jì)算較大,導(dǎo)致推理速度慢,難以滿(mǎn)足實(shí)時(shí)性要求。 為了解決這些問(wèn)題,本文將針對(duì)大模型推理顯存和計(jì)算的估計(jì)
    發(fā)表于 07-03 19:43

    提高SEA模型PBNR計(jì)算精度的方法及策略

    方案即聲學(xué)包對(duì)整車(chē)噪聲傳遞的影響,同時(shí)克服了NR方法中由于聲源特性、聲源處麥克風(fēng)安裝位置等因素給測(cè)試帶來(lái)的不利影響,PBNR已廣泛用應(yīng)用于整車(chē)SEA模型對(duì)標(biāo)及聲學(xué)包目標(biāo)的設(shè)定及分解工作中,故而在數(shù)字開(kāi)發(fā)階段,提高整車(chē)SEA 模型
    的頭像 發(fā)表于 06-30 09:30 ?1579次閱讀
    提高SEA<b class='flag-5'>模型</b>PBNR計(jì)算精度的<b class='flag-5'>方法</b>及策略

    碳化硅襯底切割進(jìn)給與磨粒磨損狀態(tài)的協(xié)同調(diào)控模型

    摘要:碳化硅襯底切割過(guò)程中,進(jìn)給與磨粒磨損狀態(tài)緊密關(guān)聯(lián),二者協(xié)同調(diào)控對(duì)提升切割質(zhì)量與效率至關(guān)重要。本文深入剖析兩者相互作用機(jī)制,探討協(xié)同調(diào)控模型構(gòu)建方法,旨在為優(yōu)化碳化硅襯底切割工藝提供理論與技術(shù)
    的頭像 發(fā)表于 06-25 11:22 ?866次閱讀
    碳化硅襯底切割進(jìn)給<b class='flag-5'>量</b>與磨粒磨損狀態(tài)的協(xié)同調(diào)控<b class='flag-5'>模型</b>

    EastWave應(yīng)用:負(fù)折射現(xiàn)象實(shí)時(shí)演示

    本案例使用“自定義模式”演示負(fù)折射現(xiàn)象。 模型示意圖 本案例為二維結(jié)構(gòu),將Y、Z 方向設(shè)置為周期邊界,即Y、Z 方向?yàn)闊o(wú)限大拓展的平板,X 方向設(shè)置開(kāi)放邊界。本案例主要采用點(diǎn)光源入射到平板上來(lái)實(shí)時(shí)
    發(fā)表于 06-13 08:41

    嵌入式AI技術(shù)漫談:怎么為訓(xùn)練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶(hù)介紹如何使用AI方法設(shè)計(jì)一款客戶(hù)產(chǎn)品時(shí),客戶(hù)理解,AI嵌入式項(xiàng)目的開(kāi)發(fā)都是圍繞數(shù)據(jù)展開(kāi)的,如此,我經(jīng)常會(huì)被問(wèn)到這樣的問(wèn)題:客戶(hù)的工程師需要采集
    的頭像 發(fā)表于 06-11 16:30 ?1576次閱讀

    FA模型訪問(wèn)Stage模型DataShareExtensionAbility說(shuō)明

    FA模型訪問(wèn)Stage模型DataShareExtensionAbility 概述 無(wú)論FA模型還是Stage模型,數(shù)據(jù)讀寫(xiě)功能都包含客戶(hù)端和服務(wù)端兩部分。 FA
    發(fā)表于 06-04 07:53

    Stage模型綁定FA模型ServiceAbility的方法

    Stage模型綁定FA模型ServiceAbility 本小節(jié)介紹Stage模型的兩種應(yīng)用組件如何綁定FA模型ServiceAbility組件。 UIAbility關(guān)聯(lián)訪問(wèn)
    發(fā)表于 06-04 06:54

    Stage模型啟動(dòng)FA模型PageAbility方法

    Stage模型啟動(dòng)FA模型PageAbility 本小節(jié)介紹Stage模型的兩種應(yīng)用組件如何啟動(dòng)FA模型的PageAbility組件。 UIAbility啟動(dòng)PageAbility
    發(fā)表于 06-04 06:36
    吉林省| 莱芜市| 右玉县| 合川市| 灯塔市| 万全县| 雅安市| 黑山县| 罗源县| 板桥市| 玉林市| 密山市| 福建省| 察哈| 兰考县| 永善县| 介休市| 江安县| 蓝田县| 加查县| 北碚区| 宜丰县| 台中市| 克拉玛依市| 万荣县| 康平县| 疏勒县| 湘乡市| 桓台县| 出国| 宝兴县| 唐山市| 西峡县| 迭部县| 安阳市| 思南县| 衡水市| 鹿泉市| 扶绥县| 祁东县| 红桥区|