日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

融合Image-Text和Image-Label兩種數(shù)據(jù)的多模態(tài)訓(xùn)練新方式

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-07-14 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前CV領(lǐng)域中包括兩種典型的訓(xùn)練模式,第一種是傳統(tǒng)的圖像分類訓(xùn)練,以離散的label為目標(biāo),人工標(biāo)注、收集干凈、大量的訓(xùn)練數(shù)據(jù),訓(xùn)練圖像識(shí)別模型。第二種方法是最近比較火的基于對(duì)比學(xué)習(xí)的圖文匹配訓(xùn)練方法,利用圖像和其對(duì)應(yīng)的文本描述,采用對(duì)比學(xué)習(xí)的方法訓(xùn)練模型。這兩種方法各有優(yōu)劣,前者可以達(dá)到非常高的圖像識(shí)別精度、比較強(qiáng)的遷移能力,但是依賴人工標(biāo)注數(shù)據(jù);后者可以利用海量噪聲可能較大的圖像文本對(duì)作為訓(xùn)練數(shù)據(jù),在few-shot learning、zero-shot learning上取得很好的效果,但是判別能力相比用干凈label訓(xùn)練的方法較弱。今天給大家介紹一篇CVPR 2022微軟發(fā)表的工作,融合兩種數(shù)據(jù)的一個(gè)大一統(tǒng)對(duì)比學(xué)習(xí)框架。

78152864-033a-11ed-ba43-dac502259ad0.png

論文題目:Unified Contrastive Learning in Image-Text-Label Space

下載地址:https://arxiv.org/pdf/2204.03610.pdf

CVPR 2022微軟發(fā)表的這篇工作,希望同時(shí)利用圖像、文本、label三者的信息,構(gòu)建一個(gè)統(tǒng)一的對(duì)比學(xué)習(xí)框架,同時(shí)利用兩種訓(xùn)練模式的優(yōu)勢(shì)。下圖反映了兩種訓(xùn)練模式的差異,Image-Label以離散label為目標(biāo),將相同概念的圖像視為一組,完全忽視文本信息;而Image-Text以圖文對(duì)匹配為目標(biāo),每一對(duì)圖文可以視作一個(gè)單獨(dú)的label,文本側(cè)引入豐富的語(yǔ)義信息。

7828afec-033a-11ed-ba43-dac502259ad0.png

1

兩種數(shù)據(jù)的融合

上面所說(shuō)的Image-Label和Image-Text兩種數(shù)據(jù),可以表示成一個(gè)統(tǒng)一的形式:(圖像,文本,label)三元組。其中,對(duì)于Image-Lable數(shù)據(jù),文本是每個(gè)label對(duì)應(yīng)的類別名稱,label對(duì)應(yīng)的每個(gè)類別的離散標(biāo)簽;對(duì)于Image-Text數(shù)據(jù),文本是每個(gè)圖像的文本描述,label對(duì)于每對(duì)匹配的圖文對(duì)都是不同的。將兩種數(shù)據(jù)融合到一起,如下圖右側(cè)所示,可以形成一個(gè)矩陣,填充部分為正樣本,其他為負(fù)樣本。Image-Label數(shù)據(jù)中,對(duì)應(yīng)類別的圖文為正樣本;Image-Text中對(duì)角線為正樣本。

785b4fba-033a-11ed-ba43-dac502259ad0.png

2

損失函數(shù)

在上述矩陣的基礎(chǔ)上,可以利用對(duì)比學(xué)習(xí)的思路構(gòu)建融合Image-Label和Image-Text兩種數(shù)據(jù)優(yōu)化函數(shù)。對(duì)于一個(gè)batch內(nèi)的所有樣本,分別使用圖像Encoder和文本Encoder得到圖像和文本的表示,并進(jìn)行歸一化,然后計(jì)算圖像文本之間的相似度,和CLIP類似。其中Image-to-Text損失函數(shù)可以表示為:

7881cfb4-033a-11ed-ba43-dac502259ad0.png

以樣本i(文本)為中心,k表示當(dāng)前batch內(nèi),和樣本i的label相同的圖像,j表示batch內(nèi)所有其他樣本。也就是說(shuō),對(duì)于每個(gè)文本,損失函數(shù)的分子是和該文本匹配的圖像,分母是batch內(nèi)所有圖像。Text-to-Image損失函數(shù)也類似。最終BiC loss是二者之和:

789533f6-033a-11ed-ba43-dac502259ad0.png

3

與其他損失函數(shù)的對(duì)比

BiC loss和交叉熵、Supervised Contrast以及CLIP三種方法的損失函數(shù)差別如下圖所示,這幾種損失函數(shù)之間存在著一定的聯(lián)系。

78a56e88-033a-11ed-ba43-dac502259ad0.png

與交叉熵?fù)p失的關(guān)系:如果text encoder只是一個(gè)普通的全連接,并且batch size相比類別數(shù)量足夠大,以至于一個(gè)batch內(nèi)所有類別的樣本都出現(xiàn)過(guò),那么BiC和交叉熵等價(jià)。因此BiC相比交叉熵更具一般性,BiC讓具有相似文本描述的圖像表示形成類簇,不具有相似文本描述的圖像被拉遠(yuǎn)。文本側(cè)也更加靈活,能夠使用任意種類的文本輸入,結(jié)合更豐富的文本Encoder聯(lián)合學(xué)習(xí)。

與SupCon的關(guān)系:SupCon是圖像對(duì)比學(xué)習(xí),訓(xùn)練數(shù)據(jù)每對(duì)pair都是圖像,共用一個(gè)Encoder;而B(niǎo)iC針對(duì)的是跨模態(tài)對(duì)比學(xué)習(xí),圖片和文本跨模態(tài)對(duì)齊。但是兩者的核心思路都是根據(jù)有l(wèi)abel數(shù)據(jù),將batch內(nèi)出現(xiàn)樣本更多置為正樣本。

與CLIP的關(guān)系:和CLIP的主要差別在于,利用label信息將一部分非對(duì)角線上的元素視為正樣本。如果這里不使用Image-Label數(shù)據(jù),那么就和CLIP相同。

4

實(shí)驗(yàn)效果

圖像分類效果對(duì)比:相比使用交叉熵?fù)p失和有監(jiān)督對(duì)比學(xué)習(xí),文中提出的UniCL在多個(gè)模型和數(shù)據(jù)集上取得較好的效果。尤其是在小數(shù)據(jù)集上訓(xùn)練時(shí),UniCL比交叉熵訓(xùn)練效果提升更明顯,因?yàn)橐氲膱D文匹配方式讓具有相似語(yǔ)義圖像聚集在一起,緩解了過(guò)擬合問(wèn)題。

78b9b1cc-033a-11ed-ba43-dac502259ad0.png

文本Encoder和損失函數(shù)對(duì)比:文中也對(duì)比了文本Encoder是否引入的效果,如果將Transformer替換成線性層,效果有所下降,表明文本Encoder的引入能夠幫助模型學(xué)習(xí)到1000多個(gè)類別之間的關(guān)系文本語(yǔ)義關(guān)系,有助于提升圖像分類效果。同時(shí),如果去掉i2t的loss只保留t2i的loss,會(huì)導(dǎo)致效果大幅下降。

78d53dde-033a-11ed-ba43-dac502259ad0.png

Image-Text引入對(duì)Image-Label效果提升:對(duì)于上面3行和下面3行,下面3行引入額外Image-Text數(shù)據(jù)的圖像分類效果要顯著優(yōu)于只使用圖像分類數(shù)據(jù)的效果。

78f8c3b2-033a-11ed-ba43-dac502259ad0.png

Image-Label引入對(duì)Image-Text效果提升:通過(guò)下面實(shí)驗(yàn)對(duì)比,引入Image-Label對(duì)Image-Text效果有一定提升作用。

792c30f8-033a-11ed-ba43-dac502259ad0.png

下圖繪制了使用CLIP(左)和UniCL(右)兩種方法訓(xùn)練的圖像embedding的t-sne圖??梢钥吹?,使用CLIP訓(xùn)練的模型,不同類別的圖像表示混在一起;而使用UniCL訓(xùn)練的模型,不同類別的圖像表示能夠比較好的區(qū)分。

7946524e-033a-11ed-ba43-dac502259ad0.png

5

總結(jié)

本文介紹了融合Image-Text和Image-Label兩種數(shù)據(jù)的的多模態(tài)訓(xùn)練新方式,充分利用了不同的圖像-文本數(shù)據(jù),信息相互補(bǔ)充,相比單獨(dú)使用一個(gè)數(shù)據(jù)取得非常好的效果。Label的引入也讓對(duì)比學(xué)習(xí)的正負(fù)樣本構(gòu)造更加科學(xué)。

原文標(biāo)題:圖文匹配 + 圖像分類 = 統(tǒng)一多模態(tài)對(duì)比學(xué)習(xí)框架

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95058
  • 圖像識(shí)別
    +關(guān)注

    關(guān)注

    9

    文章

    535

    瀏覽量

    40198
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4422

    瀏覽量

    67876

原文標(biāo)題:圖文匹配 + 圖像分類 = 統(tǒng)一多模態(tài)對(duì)比學(xué)習(xí)框架

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第一季》精品課程簡(jiǎn)介

    ,提高肺癌診斷準(zhǔn)確率。 3. 自動(dòng)駕駛系統(tǒng):視覺(jué)+激光雷達(dá)+高精地圖的模態(tài)感知 數(shù)據(jù)對(duì)齊 :將激光雷達(dá)的3D點(diǎn)云投影到圖像平面,建立像素與點(diǎn)云的對(duì)應(yīng)關(guān)系。 特征
    發(fā)表于 05-01 17:46

    視美泰模態(tài)融合+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    如果說(shuō)傳統(tǒng)監(jiān)控是記錄世界的"眼睛",那么融合模態(tài)融合算法與姿態(tài)估計(jì)算法的視美泰解決方案,則是一顆能理解物理世界的"大腦"。它不再局限于單一的視覺(jué)識(shí)別,而是
    的頭像 發(fā)表于 04-29 14:59 ?170次閱讀
    視美泰<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>融合</b>+姿態(tài)感知技術(shù),讓機(jī)器真正 “讀懂” 世界

    沐曦股份曦云C系列GPU產(chǎn)品Day 0適配百度文心ERNIE-Image文生圖模型

    4月15日,百度文心大模型團(tuán)隊(duì)重磅推出ERNIE?Image文生圖模型,沐曦股份曦云 C 系列 GPU 已完成對(duì) ERNIE?Image 的Day 0 深度適配,同步支持 ERNIE?Image Turbo 極速推理版本,以輕量
    的頭像 發(fā)表于 04-15 17:39 ?516次閱讀

    GoogleDrive 中缺少 Image-55,怎么處理?

    剛剛拿到我的 VF2 并嘗試下載 image-55,這不再存在于 googledrive 中。在百度中,它存在,但我只能很難用翻譯器閱讀一些東西,它希望我安裝一些東西以便能夠下載。 這是錯(cuò)誤嗎?除了使用百度下載image-55,還有別的方法嗎?
    發(fā)表于 03-16 06:23

    深入解析U-Boot image.c:RK平臺(tái)鏡像處理核心邏輯

    的SD/NAND/SPI等啟動(dòng)方式做了專屬適配。本文將拆解image.c的核心邏輯,梳理RK平臺(tái)鏡像處理的關(guān)鍵流程,幫助開(kāi)發(fā)者理解和調(diào)試啟動(dòng)相關(guān)問(wèn)題。 一、文件定位與核心作用 image.c是U-Boot中鏡像管理的核心模塊,主
    的頭像 發(fā)表于 02-24 16:46 ?1855次閱讀
    深入解析U-Boot <b class='flag-5'>image</b>.c:RK平臺(tái)鏡像處理核心邏輯

    格靈深瞳模態(tài)大模型榮登InfoQ 2025中國(guó)技術(shù)力量年度榜單

    靈感實(shí)驗(yàn)室聯(lián)合LLaVA社區(qū)發(fā)布的模態(tài)大模型LLaVA-OneVision-1.5,實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)、代碼和模型權(quán)重的全鏈路開(kāi)源,在多項(xiàng)公開(kāi)
    的頭像 發(fā)表于 01-05 10:05 ?711次閱讀

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個(gè)性化用戶體驗(yàn),有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其一是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?578次閱讀

    使用lv_label_set_text釋放內(nèi)存沒(méi)對(duì)齊是什么原因?qū)е碌模?/a>

    )Air_Data[1]); rt_mutex_take(lv_mutex, RT_WAITING_FOREVER); // 確保線程安全 lv_label_set_text
    發(fā)表于 09-16 06:44

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    首輪推理延遲,適配對(duì)響應(yīng)速度敏感的車載、醫(yī)療等場(chǎng)景; 其二,模態(tài)融合再升級(jí)—— 在圖文基礎(chǔ)上集成語(yǔ)音、傳感器數(shù)據(jù),實(shí)現(xiàn) “看 + 聽(tīng) + 感知” 的跨
    發(fā)表于 09-05 17:25

    淺析模態(tài)標(biāo)注對(duì)大模型應(yīng)用落地的重要性與標(biāo)注實(shí)例

    ”的關(guān)鍵工序——模態(tài)標(biāo)注重要性日益凸顯。 一、什么是模態(tài)標(biāo)注? 模態(tài)標(biāo)注是指對(duì)文本、圖像、
    的頭像 發(fā)表于 09-05 13:49 ?2833次閱讀

    振弦式應(yīng)變計(jì)兩種數(shù)據(jù)傳輸方式介紹

    采集的效率與可靠性。下面給大家介紹振弦式應(yīng)變計(jì)兩種數(shù)據(jù)傳輸方式。一、有線傳輸:穩(wěn)定可靠的傳統(tǒng)方案有線傳輸是振弦式應(yīng)變計(jì)最傳統(tǒng)的數(shù)據(jù)傳輸方式,通過(guò)專用電纜將傳感器與采集終
    的頭像 發(fā)表于 07-15 13:38 ?778次閱讀
    振弦式應(yīng)變計(jì)<b class='flag-5'>兩種數(shù)據(jù)</b>傳輸<b class='flag-5'>方式</b>介紹

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式

    模態(tài)+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理新方式
    的頭像 發(fā)表于 06-12 10:17 ?813次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>+空間智能:盾華以AI+智慧路燈桿,點(diǎn)亮城市治理<b class='flag-5'>新方式</b>

    如何將K230 image轉(zhuǎn)成jpg?

    如何將K230image轉(zhuǎn)成jpg,我想獲取圖片,傳回我自己的系統(tǒng) 你好,可以使用img.to_jpeg()來(lái)對(duì)其進(jìn)行壓縮。
    發(fā)表于 06-12 06:41

    商湯日日新SenseNova融合模態(tài)大模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)完成可信AI模態(tài)大模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)大模型在所有模型中,獲得當(dāng)前最高評(píng)級(jí)——4+級(jí),并成為國(guó)內(nèi)首家
    的頭像 發(fā)表于 06-11 11:57 ?1589次閱讀

    普密斯IMAGE 3系列:珠寶加工行業(yè)的尺寸測(cè)量新寵

    普密斯?IMAGE?3?系列圖像尺寸測(cè)量?jī)x憑借其適應(yīng)珠寶材質(zhì)的先進(jìn)技術(shù)、高精度的測(cè)量能力和高效的檢測(cè)流程,為珠寶加工行業(yè)的尺寸測(cè)量提供了全方位的解決方案。
    的頭像 發(fā)表于 06-11 08:59 ?820次閱讀
    普密斯<b class='flag-5'>IMAGE</b> 3系列:珠寶加工行業(yè)的尺寸測(cè)量新寵
    万州区| 抚松县| 特克斯县| 平遥县| 苍南县| 丽江市| 昂仁县| 洪江市| 宁化县| 桐庐县| 焉耆| 荆门市| 柳州市| 扎鲁特旗| 邻水| 凤庆县| 田东县| 丰都县| 宁德市| 正宁县| 呼伦贝尔市| 句容市| 万盛区| 浏阳市| 喜德县| 颍上县| 建德市| 大新县| 吉林市| 呼图壁县| 九江县| 庆阳市| 建平县| 临沭县| 共和县| 莫力| 河间市| 盐山县| 丹巴县| 乾安县| 美姑县|