99精品100,91嫩操亚洲人妻,人妻一本久道久久

以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型，為安防、電商等應(yīng)用場(chǎng)景提供了強(qiáng)大的跨模態(tài)理解基礎(chǔ)，但也存在多種技術(shù)局限性。

格靈深瞳參與研究的3項(xiàng)最新技術(shù)成果，涵蓋圖文檢索、高質(zhì)量圖文對(duì)數(shù)據(jù)集、組合概念理解等多模態(tài)研究關(guān)鍵領(lǐng)域，突破了現(xiàn)有CLIP框架的局限，多項(xiàng)任務(wù)性能達(dá)到最先進(jìn)水平，有效提升多模態(tài)表達(dá)能力。

3篇論文已入選第33屆ACM國(guó)際多媒體大會(huì)(ACM MM)，獲得國(guó)際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可。以下是論文的核心內(nèi)容：

圖文互搜更精準(zhǔn)!新框架UniME判別力up

對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練框架CLIP已成為多模態(tài)領(lǐng)域的主流方法，廣泛應(yīng)用于“以圖搜文”或“以文搜圖”等任務(wù)中。但CLIP存在三個(gè)明顯短板：無(wú)法處理過(guò)長(zhǎng)的文本;圖像和文本編碼器各自獨(dú)立，交互不足;組合推理能力不足，例如只能看懂單詞，卻讀不懂句子。

盡管最近的多模態(tài)大型語(yǔ)言模型(MLLMs)在通用視覺(jué)-語(yǔ)言理解方面取得了顯著進(jìn)展，但在學(xué)習(xí)可遷移的多模態(tài)表征方面，潛力尚未充分發(fā)揮。

為此，研究團(tuán)隊(duì)提出了UniME(Universal Multimodal Embedding，通用多模態(tài)嵌入)，一個(gè)新穎的兩階段訓(xùn)練框架，利用MLLMs學(xué)習(xí)判別性強(qiáng)、可應(yīng)用到多樣化下游任務(wù)的表征向量。在第一階段，團(tuán)隊(duì)借助強(qiáng)大的基于LLM的教師模型，通過(guò)知識(shí)蒸餾技術(shù)，提升多模態(tài)大語(yǔ)言模型中的文本嵌入能力;在第二階段，團(tuán)隊(duì)引入困難負(fù)樣本增強(qiáng)指令微調(diào)，進(jìn)一步增強(qiáng)判別性表示學(xué)習(xí)。

經(jīng)過(guò)MMEB基準(zhǔn)測(cè)試和在多個(gè)檢索任務(wù)(包括短長(zhǎng)標(biāo)題檢索和組合檢索)上的大量實(shí)驗(yàn)，結(jié)果表明UniME在所有任務(wù)中均實(shí)現(xiàn)了穩(wěn)定的性能提升，展現(xiàn)了卓越的判別能力和組合理解能力。

論文題目：Breaking the Modality Barrier：Universal Embedding Learning with Multimodal LLMs

研究團(tuán)隊(duì)：格靈深瞳、悉尼大學(xué)、通義實(shí)驗(yàn)室、帝國(guó)理工學(xué)院

報(bào)告鏈接：https://arxiv.org/abs/2504.17432

項(xiàng)目主頁(yè)：https://garygutc.github.io/UniME/

多模態(tài)學(xué)習(xí)新范式：數(shù)據(jù)集RealSyn解鎖海量未配對(duì)文檔

在海量圖文對(duì)上進(jìn)行預(yù)訓(xùn)練后，CLIP在各種基準(zhǔn)測(cè)試中表現(xiàn)出色。但現(xiàn)實(shí)中還存在大量非配對(duì)的多模態(tài)數(shù)據(jù)，例如圖文交織的文檔，它們蘊(yùn)藏豐富的視覺(jué)-語(yǔ)言語(yǔ)義信息，尚未得到有效挖掘。

為了充分利用這些未配對(duì)文檔，研究團(tuán)隊(duì)構(gòu)建了RealSyn數(shù)據(jù)集——一種高效且可擴(kuò)展的多模態(tài)文檔轉(zhuǎn)換新范式。團(tuán)隊(duì)首先建立了一套真實(shí)數(shù)據(jù)提取流程，能夠從圖文交錯(cuò)的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上，通過(guò)分層檢索方法，高效地將每個(gè)圖像與多個(gè)語(yǔ)義相關(guān)的現(xiàn)實(shí)文本關(guān)聯(lián)起來(lái)。

為進(jìn)一步增強(qiáng)視覺(jué)信息的細(xì)粒度表達(dá)，RealSyn還引入了圖像語(yǔ)義增強(qiáng)生成模塊，可生成與圖像內(nèi)容高度契合的合成文本。同時(shí)，借助語(yǔ)義均衡采樣策略來(lái)提高數(shù)據(jù)集的多樣性，讓模型更好地學(xué)習(xí)長(zhǎng)尾概念。

基于以上技術(shù)突破，團(tuán)隊(duì)構(gòu)建了不同規(guī)模的RealSyn數(shù)據(jù)集(15M、30M 和 100M)，融合了真實(shí)與合成文本。廣泛的實(shí)驗(yàn)表明，RealSyn有效地提升了視覺(jué)-語(yǔ)言表示學(xué)習(xí)性能，并展現(xiàn)出強(qiáng)大的可擴(kuò)展性。相較于現(xiàn)有大規(guī)模圖文對(duì)數(shù)據(jù)集，模型在RealSyn上預(yù)訓(xùn)練后，在多項(xiàng)下游任務(wù)中達(dá)到了最先進(jìn)的性能。

論文題目：RealSyn：An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

研究團(tuán)隊(duì)：格靈深瞳、悉尼大學(xué)、帝國(guó)理工學(xué)院

報(bào)告鏈接：https://arxiv.org/abs/2502.12513

項(xiàng)目主頁(yè)：https://garygutc.github.io/RealSyn/

新框架DeGLA：既保留模型通用能力，又提升組合理解性能

通過(guò)對(duì)齊圖像和文本模態(tài)，CLIP在多項(xiàng)下游任務(wù)中表現(xiàn)出色。然而，全局對(duì)比學(xué)習(xí)的特性限制了CLIP對(duì)于組合概念(例如關(guān)系和屬性)的理解能力。盡管有研究采用困難負(fù)樣本的方法來(lái)提高組合理解能力，但這類(lèi)方法是在嵌入空間內(nèi)強(qiáng)制使文本負(fù)樣本遠(yuǎn)離圖像，會(huì)顯著損害模型已經(jīng)掌握的通用能力。

為了解決這一矛盾，研究團(tuán)隊(duì)提出了一種名為“ 解耦全局-局部對(duì)齊(DeGLA)”的新訓(xùn)練框架，能夠顯著提升組合理解能力的同時(shí)，最大限度保留模型的通用能力。

首先，為保留模型的通用能力，團(tuán)隊(duì)在全局對(duì)齊過(guò)程中整合了自我蒸餾機(jī)制，能夠有效減輕在微調(diào)過(guò)程中預(yù)訓(xùn)練知識(shí)的災(zāi)難性遺忘;接下來(lái)，為了提高組合理解能力，團(tuán)隊(duì)利用大語(yǔ)言模型的上下文學(xué)習(xí)能力，構(gòu)建了約200萬(wàn)個(gè)高質(zhì)量、涵蓋五種類(lèi)型的困難負(fù)樣本，進(jìn)而提出了基于圖像的局部對(duì)比(IGC)損失和基于文本的局部對(duì)比(TGC)損失，以此增強(qiáng)視覺(jué)-語(yǔ)言組合理解能力。

廣泛的實(shí)驗(yàn)結(jié)果證明了DeGLA框架的有效性。與先前的最先進(jìn)方法相比，DeGLA在VALSE、SugarCrepe和ARO基準(zhǔn)測(cè)試中平均提升了3.5%。同時(shí)，在11個(gè)數(shù)據(jù)集上的零樣本分類(lèi)任務(wù)中，性能平均提升了13.0%。

論文題目：Decoupled Global-Local Alignment for Improving Compositional Understanding

研究團(tuán)隊(duì)：格靈深瞳、北京理工大學(xué)、浙江大學(xué)

報(bào)告鏈接：https://arxiv.org/abs/2504.16801

項(xiàng)目主頁(yè)：https://xiaoxing2001.github.io/DeGLA.github.io/

未來(lái)，格靈深瞳將在Glint Tech技術(shù)專(zhuān)欄分享更多前沿動(dòng)態(tài)與創(chuàng)新成果，歡迎持續(xù)關(guān)注。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3831

瀏覽量
52287
格靈深瞳

格靈深瞳

+關(guān)注

關(guān)注
1

文章
97

瀏覽量
6015

原文標(biāo)題：格靈深瞳3項(xiàng)成果入選ACM MM25，聚焦多模態(tài)表征、圖文對(duì)數(shù)據(jù)集及跨模態(tài)組合理解 | Glint Tech

文章出處：【微信號(hào)：shentongzhineng，微信公眾號(hào)：格靈深瞳】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

格靈深瞳三項(xiàng)成果獲得國(guó)際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

評(píng)論