日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

格靈深瞳三項(xiàng)成果獲得國(guó)際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可

格靈深瞳 ? 來(lái)源:格靈深瞳 ? 2025-09-15 14:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以O(shè)penAI CLIP為代表的多模態(tài)預(yù)訓(xùn)練模型,為安防、電商等應(yīng)用場(chǎng)景提供了強(qiáng)大的跨模態(tài)理解基礎(chǔ),但也存在多種技術(shù)局限性。

格靈深瞳參與研究的3項(xiàng)最新技術(shù)成果,涵蓋圖文檢索、高質(zhì)量圖文對(duì)數(shù)據(jù)集、組合概念理解等多模態(tài)研究關(guān)鍵領(lǐng)域,突破了現(xiàn)有CLIP框架的局限,多項(xiàng)任務(wù)性能達(dá)到最先進(jìn)水平,有效提升多模態(tài)表達(dá)能力。

3篇論文已入選第33屆ACM國(guó)際多媒體大會(huì)(ACM MM),獲得國(guó)際頂級(jí)學(xué)術(shù)會(huì)議認(rèn)可。以下是論文的核心內(nèi)容:

圖文互搜更精準(zhǔn)!新框架UniME判別力up

對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練框架CLIP已成為多模態(tài)領(lǐng)域的主流方法,廣泛應(yīng)用于“以圖搜文”或“以文搜圖”等任務(wù)中。但CLIP存在三個(gè)明顯短板:無(wú)法處理過(guò)長(zhǎng)的文本;圖像和文本編碼器各自獨(dú)立,交互不足;組合推理能力不足,例如只能看懂單詞,卻讀不懂句子。

盡管最近的多模態(tài)大型語(yǔ)言模型(MLLMs)在通用視覺(jué)-語(yǔ)言理解方面取得了顯著進(jìn)展,但在學(xué)習(xí)可遷移的多模態(tài)表征方面,潛力尚未充分發(fā)揮。

為此,研究團(tuán)隊(duì)提出了UniME(Universal Multimodal Embedding,通用多模態(tài)嵌入),一個(gè)新穎的兩階段訓(xùn)練框架,利用MLLMs學(xué)習(xí)判別性強(qiáng)、可應(yīng)用到多樣化下游任務(wù)的表征向量。在第一階段,團(tuán)隊(duì)借助強(qiáng)大的基于LLM的教師模型,通過(guò)知識(shí)蒸餾技術(shù),提升多模態(tài)大語(yǔ)言模型中的文本嵌入能力;在第二階段,團(tuán)隊(duì)引入困難負(fù)樣本增強(qiáng)指令微調(diào),進(jìn)一步增強(qiáng)判別性表示學(xué)習(xí)。

經(jīng)過(guò)MMEB基準(zhǔn)測(cè)試和在多個(gè)檢索任務(wù)(包括短長(zhǎng)標(biāo)題檢索和組合檢索)上的大量實(shí)驗(yàn),結(jié)果表明UniME在所有任務(wù)中均實(shí)現(xiàn)了穩(wěn)定的性能提升,展現(xiàn)了卓越的判別能力和組合理解能力。

論文題目:Breaking the Modality Barrier:Universal Embedding Learning with Multimodal LLMs

研究團(tuán)隊(duì):格靈深瞳、悉尼大學(xué)、通義實(shí)驗(yàn)室、帝國(guó)理工學(xué)院

報(bào)告鏈接:https://arxiv.org/abs/2504.17432

項(xiàng)目主頁(yè):https://garygutc.github.io/UniME/

多模態(tài)學(xué)習(xí)新范式:數(shù)據(jù)集RealSyn解鎖海量未配對(duì)文檔

在海量圖文對(duì)上進(jìn)行預(yù)訓(xùn)練后,CLIP在各種基準(zhǔn)測(cè)試中表現(xiàn)出色。但現(xiàn)實(shí)中還存在大量非配對(duì)的多模態(tài)數(shù)據(jù),例如圖文交織的文檔,它們蘊(yùn)藏豐富的視覺(jué)-語(yǔ)言語(yǔ)義信息,尚未得到有效挖掘。

為了充分利用這些未配對(duì)文檔,研究團(tuán)隊(duì)構(gòu)建了RealSyn數(shù)據(jù)集——一種高效且可擴(kuò)展的多模態(tài)文檔轉(zhuǎn)換新范式。團(tuán)隊(duì)首先建立了一套真實(shí)數(shù)據(jù)提取流程,能夠從圖文交錯(cuò)的文檔中提取高質(zhì)量的圖像和文本。在此基礎(chǔ)上,通過(guò)分層檢索方法,高效地將每個(gè)圖像與多個(gè)語(yǔ)義相關(guān)的現(xiàn)實(shí)文本關(guān)聯(lián)起來(lái)。

為進(jìn)一步增強(qiáng)視覺(jué)信息的細(xì)粒度表達(dá),RealSyn還引入了圖像語(yǔ)義增強(qiáng)生成模塊,可生成與圖像內(nèi)容高度契合的合成文本。同時(shí),借助語(yǔ)義均衡采樣策略來(lái)提高數(shù)據(jù)集的多樣性,讓模型更好地學(xué)習(xí)長(zhǎng)尾概念。

基于以上技術(shù)突破,團(tuán)隊(duì)構(gòu)建了不同規(guī)模的RealSyn數(shù)據(jù)集(15M、30M 和 100M),融合了真實(shí)與合成文本。廣泛的實(shí)驗(yàn)表明,RealSyn有效地提升了視覺(jué)-語(yǔ)言表示學(xué)習(xí)性能,并展現(xiàn)出強(qiáng)大的可擴(kuò)展性。相較于現(xiàn)有大規(guī)模圖文對(duì)數(shù)據(jù)集,模型在RealSyn上預(yù)訓(xùn)練后,在多項(xiàng)下游任務(wù)中達(dá)到了最先進(jìn)的性能。

論文題目:RealSyn:An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

研究團(tuán)隊(duì):格靈深瞳、悉尼大學(xué)、帝國(guó)理工學(xué)院

報(bào)告鏈接:https://arxiv.org/abs/2502.12513

項(xiàng)目主頁(yè):https://garygutc.github.io/RealSyn/

新框架DeGLA:既保留模型通用能力,又提升組合理解性能

通過(guò)對(duì)齊圖像和文本模態(tài),CLIP在多項(xiàng)下游任務(wù)中表現(xiàn)出色。然而,全局對(duì)比學(xué)習(xí)的特性限制了CLIP對(duì)于組合概念(例如關(guān)系和屬性)的理解能力。盡管有研究采用困難負(fù)樣本的方法來(lái)提高組合理解能力,但這類(lèi)方法是在嵌入空間內(nèi)強(qiáng)制使文本負(fù)樣本遠(yuǎn)離圖像,會(huì)顯著損害模型已經(jīng)掌握的通用能力。

為了解決這一矛盾,研究團(tuán)隊(duì)提出了一種名為“ 解耦全局-局部對(duì)齊(DeGLA)”的新訓(xùn)練框架,能夠顯著提升組合理解能力的同時(shí),最大限度保留模型的通用能力。

首先,為保留模型的通用能力,團(tuán)隊(duì)在全局對(duì)齊過(guò)程中整合了自我蒸餾機(jī)制,能夠有效減輕在微調(diào)過(guò)程中預(yù)訓(xùn)練知識(shí)的災(zāi)難性遺忘;接下來(lái),為了提高組合理解能力,團(tuán)隊(duì)利用大語(yǔ)言模型的上下文學(xué)習(xí)能力,構(gòu)建了約200萬(wàn)個(gè)高質(zhì)量、涵蓋五種類(lèi)型的困難負(fù)樣本,進(jìn)而提出了基于圖像的局部對(duì)比(IGC)損失和基于文本的局部對(duì)比(TGC)損失,以此增強(qiáng)視覺(jué)-語(yǔ)言組合理解能力。

廣泛的實(shí)驗(yàn)結(jié)果證明了DeGLA框架的有效性。與先前的最先進(jìn)方法相比,DeGLA在VALSE、SugarCrepe和ARO基準(zhǔn)測(cè)試中平均提升了3.5%。同時(shí),在11個(gè)數(shù)據(jù)集上的零樣本分類(lèi)任務(wù)中,性能平均提升了13.0%。

論文題目:Decoupled Global-Local Alignment for Improving Compositional Understanding

研究團(tuán)隊(duì):格靈深瞳、北京理工大學(xué)、浙江大學(xué)

報(bào)告鏈接:https://arxiv.org/abs/2504.16801

項(xiàng)目主頁(yè):https://xiaoxing2001.github.io/DeGLA.github.io/

未來(lái),格靈深瞳將在Glint Tech技術(shù)專(zhuān)欄分享更多前沿動(dòng)態(tài)與創(chuàng)新成果,歡迎持續(xù)關(guān)注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3831

    瀏覽量

    52287
  • 格靈深瞳
    +關(guān)注

    關(guān)注

    1

    文章

    97

    瀏覽量

    6015

原文標(biāo)題:格靈深瞳3項(xiàng)成果入選ACM MM25,聚焦多模態(tài)表征、圖文對(duì)數(shù)據(jù)集及跨模態(tài)組合理解 | Glint Tech

文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    亮相2026 ITES深圳工業(yè)展

    3月31日-4月3日,第27屆ITES深圳工業(yè)展暨高端裝備產(chǎn)業(yè)集群展在深圳寶安舉行。在工創(chuàng)聯(lián)企業(yè)家交流會(huì)圓桌環(huán)節(jié),CEO吳一洲圍繞主題“AI的生產(chǎn)力在哪里”,分享AI技術(shù)如何與
    的頭像 發(fā)表于 04-08 15:36 ?319次閱讀

    與佳都科技達(dá)成授權(quán)合作協(xié)議

    3月27日,與佳都科技集團(tuán)股份有限公司(簡(jiǎn)稱“佳都科技”)達(dá)成授權(quán)合作協(xié)議,雙方將圍繞
    的頭像 發(fā)表于 03-30 11:21 ?272次閱讀

    2025年度關(guān)鍵詞回顧

    過(guò)去一年,深耕視覺(jué)算法與多模態(tài)大模型,自研視覺(jué)基礎(chǔ)模型Glint-MVT系列持續(xù)升級(jí):MVT v1.5提升局部和文字特征表達(dá)能力,收獲國(guó)際
    的頭像 發(fā)表于 02-24 17:17 ?1488次閱讀

    榮獲量子位2025人工智能年度領(lǐng)航企業(yè)

    12月10日,量子位發(fā)布“2025人工智能年度榜單”。入選“2025人工智能年度領(lǐng)航企業(yè)”。
    的頭像 發(fā)表于 12-17 15:23 ?707次閱讀

    科微電子榮膺三項(xiàng)權(quán)威認(rèn)可

    近期,獲得由政府、媒體與專(zhuān)業(yè)機(jī)構(gòu)頒發(fā)的三項(xiàng)權(quán)威認(rèn)可,覆蓋CMOS圖像傳感器細(xì)分市場(chǎng)競(jìng)爭(zhēng)力、技術(shù)創(chuàng)新成果和質(zhì)量管理體系建設(shè)
    的頭像 發(fā)表于 12-01 16:30 ?646次閱讀

    受邀參加百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國(guó)家會(huì)議中心二期舉行。在分論壇環(huán)節(jié),靈感實(shí)驗(yàn)室負(fù)責(zé)人馮子勇、
    的頭像 發(fā)表于 11-14 15:47 ?813次閱讀

    邀您相約百度世界2025大會(huì)

    11月13日,百度世界2025大會(huì)將在北京國(guó)家會(huì)議中心二期舉行,主題為“效果涌現(xiàn) | AI In Action”。在公開(kāi)課環(huán)節(jié),副總
    的頭像 發(fā)表于 11-12 16:57 ?1039次閱讀

    突破文本人物檢索技術(shù)難題

    參與研究的GA-DMS框架,為攻破上述技術(shù)難題提供了全新解決方案。研究團(tuán)隊(duì)通過(guò)數(shù)據(jù)構(gòu)建和模型架構(gòu)的協(xié)同改進(jìn),推動(dòng)CLIP在人物表征學(xué)習(xí)中的應(yīng)用,顯著提升了基于文本的人物檢索效果
    的頭像 發(fā)表于 09-28 09:42 ?765次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>突破文本人物檢索技術(shù)難題

    視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    此前,8月28-30日,2025百度云智大會(huì)在北京舉辦。在算力平臺(tái)專(zhuān)題論壇上,技術(shù)副總裁、算法研究院院長(zhǎng)馮子勇分享了《視覺(jué)基座:通向世界模型之路——
    的頭像 發(fā)表于 09-05 17:13 ?1903次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺(jué)基礎(chǔ)模型Glint-MVT的發(fā)展脈絡(luò)

    加入海光產(chǎn)業(yè)生態(tài)合作組織

    近日,正式加入海光產(chǎn)業(yè)生態(tài)合作組織(簡(jiǎn)稱“光合組織”),成為該組織成員單位。
    的頭像 發(fā)表于 08-25 16:10 ?1023次閱讀

    智慧金融產(chǎn)品家族全新升級(jí)

    智能體時(shí)代,如何打造能用、好用、有持續(xù)成長(zhǎng)性的智慧金融產(chǎn)品?這是探索 AI+金融深度融合的實(shí)踐方向。
    的頭像 發(fā)表于 08-19 17:53 ?1451次閱讀

    智慧體育產(chǎn)品全新升級(jí)

    智慧體育產(chǎn)品家族,近期迎來(lái)全新升級(jí)。
    的頭像 發(fā)表于 08-14 11:51 ?1640次閱讀

    視覺(jué)基礎(chǔ)模型Glint-MVT升級(jí)

    近日,靈感實(shí)驗(yàn)室和華為倫敦研究所發(fā)布最新版視覺(jué)基礎(chǔ)模型——Glint-MVT v1.5(RICE)。
    的頭像 發(fā)表于 07-31 11:01 ?1665次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺(jué)基礎(chǔ)模型Glint-MVT升級(jí)

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(huì)(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現(xiàn)場(chǎng),聯(lián)合華為昇騰、百度、飛騰等生態(tài)合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發(fā)表于 07-26 16:14 ?1252次閱讀

    六篇論文入選ICCV 2025

    近日,國(guó)際頂級(jí)會(huì)議ICCV 2025(計(jì)算機(jī)視覺(jué)國(guó)際大會(huì))公布論文錄用結(jié)果,
    的頭像 發(fā)表于 07-07 18:23 ?1750次閱讀
    平谷区| 会昌县| 武宁县| 内丘县| 安阳市| 太仆寺旗| 余庆县| 米林县| 汝城县| 日喀则市| 长寿区| 仪征市| 柏乡县| 尼勒克县| 汽车| 南充市| 婺源县| 环江| 建宁县| 进贤县| 海宁市| 大足县| 介休市| 峨眉山市| 临沭县| 沽源县| 正蓝旗| 晋宁县| 阳山县| 若尔盖县| 延庆县| 天水市| 方正县| 香河县| 建瓯市| 平顶山市| 耒阳市| 湛江市| 错那县| 虎林市| 岳池县|