日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ACL2021的跨視覺語言模態(tài)論文之跨視覺語言模態(tài)任務與方法

深度學習自然語言處理 ? 來源:復旦DISC ? 作者:王雨晴 ? 2021-10-13 10:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自:復旦DISC

引言

本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態(tài)的論文。這三篇文章分別介紹了如何在圖像描述任務中生成契合用戶意圖的圖像描述、端對端的視覺語言預訓練模型和如何生成包含更多細節(jié)的圖像描述。

文章概覽

Control Image Captioning Spatially and Temporally

論文地址:https://aclanthology.org/2021.acl-long.157.pdf

該篇文章基于對比學習和注意力機制引導提出了LoopCAG模型。LoopCAG可以根據(jù)輸入的鼠標軌跡,生成與鼠標軌跡相匹配的圖像描述,從而增強了圖片描述生成的可控性和可解釋性。

E2E-VLP: End-to-End Vision-Language Pretraining Enhanced by Visual Learning

論文地址:https://arxiv.org/pdf/2106.01804.pdf

這篇文章提出了一個端到端的視覺語言預訓練模型。模型不需要利用預訓練的目標檢測器抽取基于區(qū)域的視覺特征,直接以圖片作為輸入。并且設計了兩個額外的視覺預訓練任務幫助模型學習細粒度的信息,達到了和兩階段模型相似的效果,并且提高了運算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

論文地址:https://aclanthology.org/2021.acl-short.36.pdf

這篇文章通過推理圖和PageRank對圖像描述進行描述性打分。再通過參考抽樣和加權(quán)指定獎勵來生成具有更多細節(jié)的圖像描述。模型生成了比一般方法具有更多細節(jié)的圖像描述,這些圖像描述可以包含基線方法生成的圖像描述。

論文細節(jié)

1

動機

圖像描述任務主要針對圖片上比較突出的物體和物體關(guān)系展開描述,這樣的圖片描述沒有考慮到用戶意圖。為了生成具備可控性和可解釋性的圖像描述,最近的工作提出了生成可控性的圖像描述任務。為了生成符合用戶意圖的圖像描述,通常會對描述加以情感、邊界框和鼠標軌跡限制。與此同時,近期提出的 Localized-Narratives 數(shù)據(jù)集將鼠標軌跡作為圖像描述任務的另一個輸入,為圖像描述生成任務中所涉及的語義概念進行空間和時序關(guān)系上的控制提供了可能。

模型

LoopCAG 可以總結(jié)為三部分:用于生成圖片描述且以 Transformer 為主干網(wǎng)絡的編碼器-解碼器;用于視覺對象空間定位的注意力引導(Attention Guidance)組件;用于句子級時序?qū)R的對比性約束(Contrastive Constraints)組件。

a20e2908-15e3-11ec-8fb8-12bb97331649.png

(1)Caption Generation

作者將視覺特征V和軌跡特征T分別編碼,并疊加位置信息后得 和 ,然后串聯(lián)在一起作為一個統(tǒng)一的序列輸入編碼器。解碼器通過交叉注意力模塊與編碼器最后一層的隱藏狀態(tài)相連,將視覺和軌跡信息結(jié)合起來作為生成的前置條件。解碼器的優(yōu)化目標是將以下目標函數(shù)最小化:

a22c1850-15e3-11ec-8fb8-12bb97331649.png

(2)Attention Guidance

為了定位物體,作者用軌跡作為中間橋梁聯(lián)系物體和語義token。作者構(gòu)建了一個監(jiān)督矩陣來引導詞語和視覺對象之間的注意力,即需要物體軌跡點盡可能多的落入對象邊界框中。當注意力監(jiān)督矩陣和模型的交叉注意力矩陣盡可能接近時,詞語則可以準確的對應到圖片的空間視覺物體上。

(3)Contrastive Constraints

作者使用對比損失函數(shù)來約束生成過程的時間順序,對比損失的形式是 NCE 函數(shù),用來學習區(qū)分軌跡-描述對之中的正例和負例。正例是指在順序上自然對應的描述句和軌跡段,而其余的軌跡-描述對組合均為負例。

最后作者通過將所有損失的總和最小化來聯(lián)合優(yōu)化模型。

實驗

作者在Localized-Narratives COCO 這個數(shù)據(jù)集上進行了訓練和測試。在測試集上的結(jié)果如圖所示,LoopCAG 方法在所有的自動評測指標上都達到了先進水平。從表中可以看出,ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了對順序敏感的最長共同子序列計分方式,這表明對比約束可以促進生成句子的順序和用戶意圖的對應。

2

動機

基于海量圖文對的多模態(tài)預訓練在下游的跨模態(tài)任務中已經(jīng)取得巨大的成功?,F(xiàn)有的多模態(tài)預訓練的方法主要基于兩階段訓練,首先利用預訓練的目標檢測器抽取基于區(qū)域的視覺特征,然后拼接視覺表示和文本向量作為Transformer的輸入進行訓練。這樣的模型存在兩點問題,一個是第一階段通常在特定數(shù)據(jù)集進行訓練模型泛化能力不好,此外提取區(qū)域的視覺特征比較耗費時間?;诖俗髡咛岢隽硕说蕉说南袼丶墑e的視覺語言預訓練模型。模型通過一個統(tǒng)一的Transformer框架同時學習圖像特征和多模態(tài)表示

模型

本文的模型如圖所示。E2E-VLP用一個CNN 模型提取圖片視覺特征的同時用一個Transformer進行多模態(tài)特征學習。

a270188e-15e3-11ec-8fb8-12bb97331649.png

(1) Input Representations

模型首先用WordPiece tokenizer 分詞進行序列化。圖片則直接以三通道的像素矩陣輸入。

(2) Cross-modal Encoder Pre-training:Transformer

模型用Resnet提取圖片的特征向量。用Transformer模塊接受圖像-句子的序列輸入,進行跨模態(tài)語義學習。

為了提取跨模態(tài)語義信息,模型設計了兩個預訓練任務。一個是與Bert類似的Masked Language Modeling,只是在該任務中除去上下文信息還可以利用圖片信息避免語義混淆,第二個任務是進行圖片文本匹配。

(3) Visual-enhanced Decoder

為了提取更細粒度的視覺特征,接入了物體檢測和描述生成兩個任務。在物體檢測中,為了增強視覺語義特征的學習,除去常規(guī)的位置和物體種類預測,我們引入了屬性預測這一任務。描述生成圖片對應的描述。

實驗

根據(jù)實驗結(jié)果,E2E-VLP 和兩階段模型相比,也取得了比較好效果,可以理解和完成兩種任務。同時在參數(shù)量上,E2E-VLP 則具有更加輕量的優(yōu)勢。

3

動機

現(xiàn)階段的圖像描述模型通常傾向于生成比較安全的較為籠統(tǒng)的描述,而忽略圖像細節(jié)。為了生成包含更多細節(jié)的圖像描述,作者基于更具有細節(jié)的圖像描述通常包含籠統(tǒng)描述的全部信息這一觀點提出了基于自然語言推斷的描述關(guān)系模型。

方法

這篇文章的具體方法如下:

(1)Constructing Inference Graphs

首先用基于Bert的自然語言推斷模型判斷圖像描述之間的關(guān)系,由于圖像描述之間不存在沖突因此挪去了沖突關(guān)系。并對一張圖的描述構(gòu)建如圖所示的推斷關(guān)系圖,并利用Pagerank的方法對推斷圖計算描述性評分。

(2)Descriptiveness Regularized Learning

由于傳統(tǒng)圖像描述的第一階段生成描述和圖像描述最小化交叉熵損失函數(shù)等同于生成描述和均勻分布的圖像描述之間的KL Divergence,為了生成更具有描述性的圖像描述。則采用歸一化的描述性評分分布取代均勻分布,認為更具有描述性的圖像描述具有更高的生成概率。

a2d4abbe-15e3-11ec-8fb8-12bb97331649.png

在第二階段,最大化生成圖像描述的期望收益時,也同時用描述性評分取代均勻分布來計算期望收益。

a2e2129a-15e3-11ec-8fb8-12bb97331649.png

實驗

根據(jù)實驗結(jié)果,模型在多數(shù)指標特別是CIDER評分上超過了Baseline,這是因為CIDER傾向于具有更加特殊的細節(jié)描述。

此外根據(jù)自然語言推斷模型判斷文章模型生成的圖像描述對baseline的圖像描述形成更多的包含關(guān)系。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1225

    瀏覽量

    43789
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4013

    瀏覽量

    143461
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42448
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4422

    瀏覽量

    67873
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    356

    瀏覽量

    23558

原文標題:ACL2021 | 跨視覺語言模態(tài)任務與方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    《多模態(tài)大模型 前沿算法與實戰(zhàn)應用 第一季》精品課程簡介

    全棧掌握多模態(tài):從算法原理到項目落地的技術(shù)實踐 在人工智能從單模態(tài)向多模態(tài)跨越的進程中,全棧開發(fā)者需要同時理解視覺、語言、音頻等不同
    發(fā)表于 05-01 17:46

    人工智能多模態(tài)視覺大模型開發(fā)實戰(zhàn) - 2026必會

    和訓練,模型可以逐漸提升對圖像的理解能力,實現(xiàn)對各種視覺任務的精準處理。 此外,視覺大模型的發(fā)展還得益于大規(guī)模數(shù)據(jù)集和強大計算資源的支持。海量標注數(shù)據(jù)為模型提供了豐富的學習樣本,使其能夠?qū)W習到更廣泛、更
    發(fā)表于 04-15 16:06

    使用PYTHON進行的平臺仿真

    內(nèi)部的解決方案,而且還允許平臺模擬,以從其他程序或編程語言獲益,并結(jié)合熟悉物理光學特性的VirtualLab Fusion,從而擴展模擬、優(yōu)化、設計和后處理的選項。 因此,我們正在深入研究
    發(fā)表于 04-02 08:21

    商湯科技NEO-unify如何打造原生視覺語言理解與生成

    當前,多模態(tài)模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設計。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。
    的頭像 發(fā)表于 03-10 14:37 ?435次閱讀
    商湯科技NEO-unify如何打造原生<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>理解與生成

    眾智FlagOS適配面壁智能開源全模態(tài)大模型MiniCPM-o 4.5

    2月3日,面壁智能正式發(fā)布并開源了集語言視覺、語音于一體的全模態(tài)大模型 MiniCPM-o 4.5。作為首個全雙工全模態(tài)大模型,MiniCPM-o 4.5 首次實現(xiàn)“類人”感知交互,
    的頭像 發(fā)表于 02-09 14:45 ?1030次閱讀
    眾智FlagOS適配面壁智能開源全<b class='flag-5'>模態(tài)</b>大模型MiniCPM-o 4.5

    全球首個最大規(guī)模本體視觸覺多模態(tài)數(shù)據(jù)集白虎-VTouch發(fā)布

    全球首個最大規(guī)模本體視觸覺多模態(tài)數(shù)據(jù)集——白虎-VTouch(Vision-Based Tactile Sensor),總規(guī)模超過60,000分鐘。
    的頭像 發(fā)表于 01-29 14:41 ?828次閱讀

    商湯科技日日新V6.5榮獲2025年多模態(tài)大模型全國第一

    近日,權(quán)威大模型評測基準 SuperCLUE 發(fā)布《中文多模態(tài)視覺語言模型測評基準12月報告》,商湯日日新V6.5(SenseNova V6.5 Pro)以75.35的總分位列國內(nèi)第一,斬獲金牌,并在
    的頭像 發(fā)表于 01-06 14:44 ?962次閱讀
    商湯科技日日新V6.5榮獲2025年多<b class='flag-5'>模態(tài)</b>大模型全國第一

    格靈深瞳多模態(tài)大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的多模態(tài)表征方法相繼提出,過去單一模態(tài)搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、音頻乃至視頻,實現(xiàn)
    的頭像 發(fā)表于 11-02 15:56 ?1881次閱讀
    格靈深瞳多<b class='flag-5'>模態(tài)</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    專為Agentic RAG與語義搜索量身打造,以行業(yè)頂尖的準確率實現(xiàn)模態(tài)檢索 北京2025年10月29日 /美通社/ -- 亞馬遜云科技宣布,Amazon Nova Multimodal
    的頭像 發(fā)表于 10-29 17:15 ?389次閱讀
    亞馬遜云科技上線Amazon Nova多<b class='flag-5'>模態(tài)</b>嵌入模型

    語言交流的全場景解決方案,時空壺X1的進化之路

    在全球化浪潮洶涌的時代,語言溝通宛如連接世界的橋梁,其重要性不言而喻。時空壺自2016年成立以來,始終秉持創(chuàng)新精神,深耕語言溝通領(lǐng)域,憑借一系列卓越產(chǎn)品,不僅在全球范圍內(nèi)樹立起強大
    的頭像 發(fā)表于 09-08 16:55 ?1924次閱讀
    <b class='flag-5'>跨</b><b class='flag-5'>語言</b>交流的全場景解決方案,時空壺X1的進化之路

    時空壺W4Pro:商務語言場景的高效溝通解決方案

    在全球化商務交流日益頻繁的當下,語言溝通的效率與準確性直接影響合作推進節(jié)奏。時空壺W4ProAI同傳耳機憑借針對性的技術(shù)優(yōu)化與功能設計,在面對面商務洽談、跨國行業(yè)展會等核心商務場景中,為用戶提供
    的頭像 發(fā)表于 09-08 16:53 ?1491次閱讀
    時空壺W4Pro:商務<b class='flag-5'>跨</b><b class='flag-5'>語言</b>場景的高效溝通解決方案

    米爾RK3576部署端側(cè)多模態(tài)多輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    細化需求,系統(tǒng)需實時調(diào)整響應策略 1.2 多輪對話系統(tǒng)鳥瞰:三顆“核心”協(xié)同驅(qū)動RK3576 多模態(tài)交互對話方案基于 RKLLM 的核心運作,依賴于圖像視覺編碼器、大語言模型與對話管家這三大模塊的協(xié)同
    發(fā)表于 09-05 17:25

    淺析多模態(tài)標注對大模型應用落地的重要性與標注實例

    ”的關(guān)鍵工序——多模態(tài)標注重要性日益凸顯。 一、什么是多模態(tài)標注? 多模態(tài)標注是指對文本、圖像、語音、視頻、點云等異構(gòu)數(shù)據(jù)進行模態(tài)語義關(guān)聯(lián)
    的頭像 發(fā)表于 09-05 13:49 ?2828次閱讀

    飛凌嵌入式RK3576多模態(tài)大模型圖像理解助手,讓嵌入式設備“看懂”世界

    (LLM)+視覺語言模型(VLM)多模態(tài)架構(gòu),推出多模態(tài)大模型圖像理解助手,為嵌入式設備打造 “智能視覺中樞”,讓終端設備能夠真正 “看懂”
    的頭像 發(fā)表于 07-25 11:09 ?1847次閱讀
    飛凌嵌入式RK3576多<b class='flag-5'>模態(tài)</b>大模型圖像理解助手,讓嵌入式設備“看懂”世界

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    結(jié)果正式公布。云知聲在此次國際學術(shù)盛會中表現(xiàn)卓越,共有4篇論文被接收,其中包括2篇主會論文(Main Paper)和2篇Findings。入選的4篇論文聚焦大語言模型知識溯源、圖文音多
    的頭像 發(fā)表于 05-26 14:15 ?1482次閱讀
    云知聲四篇<b class='flag-5'>論文</b>入選自然<b class='flag-5'>語言</b>處理頂會<b class='flag-5'>ACL</b> 2025
    武陟县| 沭阳县| 突泉县| 大连市| 新密市| 云梦县| 巴南区| 银川市| 荃湾区| 漠河县| 阜南县| 邮箱| 乌兰察布市| 禹城市| 云南省| 彰武县| 井研县| 大渡口区| 凭祥市| 泉州市| 乌拉特后旗| 肥东县| 嘉黎县| 怀化市| 常宁市| 洛扎县| 孝义市| 德惠市| 社会| 嘉定区| 东乡| 河曲县| 上虞市| 塘沽区| 上犹县| 和平县| 三江| 德安县| 安阳市| 巢湖市| 清丰县|