日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

復(fù)旦&微軟提出?OmniVL:首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-14 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

基礎(chǔ)模型 (Foundation model) 指的是在大量數(shù)據(jù)上訓(xùn)練出來的、可以適應(yīng)一系列下游任務(wù)的模型[1],它被看作是邁向通用人工智能的重要一步。近些年來,隨著CLIP的橫空出世,視覺-文本預(yù)訓(xùn)練 (Vision-Language Pretraining) 及其在各類任務(wù)的遷移學(xué)習(xí)成為了備受關(guān)注的研究方向,并被認(rèn)為是建立視覺基礎(chǔ)模型的一個頗具前景的方向。

根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同,現(xiàn)有的VLP方法可以大致分為兩類:圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-文本對中學(xué)習(xí)視覺和語言表征的聯(lián)合分布,后者則從視頻-文本對中建立視頻幀和文本之間的語義關(guān)聯(lián)。然而,當(dāng)前尚無工作探索將二者統(tǒng)一起來,這篇文章認(rèn)為這主要因?yàn)楝F(xiàn)有的訓(xùn)練方式無法發(fā)揮圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練之間的互補(bǔ)性,但單純地實(shí)現(xiàn)統(tǒng)一而在兩類下游任務(wù)上折損性能將是沒有意義的。盡管困難重重,對于基礎(chǔ)模型的追求使得這一問題依舊難以回避。

這促使這篇工作思考并最終提出了一個真正統(tǒng)一的視覺-語言基礎(chǔ)模型OmniVL以同時(shí)支持圖像-文本和視頻-文本的預(yù)訓(xùn)練以及相應(yīng)的下游任務(wù),包括視覺任務(wù)(如圖像分類、視頻動作識別)、跨模態(tài)對齊任務(wù)(如圖像/視頻-文本檢索)以及多模態(tài)理解和生成任務(wù)(如圖像/視頻問答、字幕自動生成等)。OmniVL第一次探索出了圖像和視頻任務(wù)雙向互助的訓(xùn)練范式,而不是以往的單一方向,即用圖像(圖像-語言)來幫助視頻(視頻-語言)。

方法

OmniVL實(shí)現(xiàn)了模態(tài)、功能和訓(xùn)練數(shù)據(jù)三個維度的統(tǒng)一,本篇對方法的介紹也將圍繞著三個統(tǒng)一進(jìn)行展開。

7fa457fa-7b7e-11ed-8abf-dac502259ad0.png

統(tǒng)一的模態(tài).OmniVL采用了一個統(tǒng)一的基于Transformer的視覺編碼器來提取視覺表征,其中視頻與圖像輸入共享大部分網(wǎng)絡(luò)結(jié)構(gòu),對于視頻而言,OmniVL采用了3D patching embedding和時(shí)間注意力塊[4]。此外,OmniVL額外利用一個文本編碼器來提取語言表征。

統(tǒng)一的功能.OmniVL采用了編碼器-解碼器的結(jié)構(gòu),并具有兩個視覺引導(dǎo)的解碼器:跨模態(tài)對齊解碼器和文本生成解碼器,前者通過視覺-文本匹配(的二分類)損失進(jìn)行監(jiān)督以學(xué)習(xí)視覺和文本模態(tài)之間的對齊,后者則通過語言建模(的生成式回歸)損失進(jìn)行監(jiān)督以學(xué)習(xí)從視覺特征中生成文本的能力。這兩個解碼器與上述的兩個編碼器相互配合,賦予了OmniVL“理解“和“生成”的能力。

統(tǒng)一的數(shù)據(jù).受到Florence[5]中使用的統(tǒng)一對比學(xué)習(xí)[6]的啟發(fā),OmniVL統(tǒng)一了圖像-文本和圖像-標(biāo)簽數(shù)據(jù)作為預(yù)訓(xùn)練語料庫、并將其進(jìn)一步擴(kuò)展到視頻-文本和視頻-標(biāo)簽數(shù)據(jù)上。這基于兩個方面的考慮:1)利用盡可能多的有監(jiān)督(或無監(jiān)督)的數(shù)據(jù)來豐富語料庫;2)人工標(biāo)注的視覺-標(biāo)簽數(shù)據(jù)(如ImageNet和Kinetics-400)可以幫助模型學(xué)習(xí)出更具辨別性的表征,這有助于分類相關(guān)的遷移學(xué)習(xí)任務(wù),而從網(wǎng)絡(luò)爬取的視覺-語言數(shù)據(jù) (如CC12M和WebVid) 涵蓋更廣泛的視覺概念,這有助于跨模態(tài)任務(wù)。這種簡單的擴(kuò)展可以幫助OmniVL同時(shí)享有兩種優(yōu)勢。

最后回到了上面提到的最重要的問題:如何實(shí)現(xiàn)圖像-文本和視頻-文本學(xué)習(xí)的相互促進(jìn)。前文提到,現(xiàn)有工作往往只是單獨(dú)利用圖像-文本或者視頻-文本進(jìn)行預(yù)訓(xùn)練(如下圖2-3行),因此在另一類任務(wù)上的表現(xiàn)往往差強(qiáng)人意(多數(shù)情況被直接忽略)。尤其是如果只在視頻-文本上預(yù)訓(xùn)練的話,受限于有限的數(shù)據(jù)規(guī)模、以及視頻數(shù)據(jù)本身的復(fù)雜性,在對應(yīng)的視頻任務(wù)上表現(xiàn)也很糟糕。為了解決這一問題,一些工作如FiT[7]提出了將圖像看作單幀視頻、從而利用其和視頻數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練(如下圖第4行),這一做法相較單純地利用視頻數(shù)據(jù)有顯著提升,但是直接從零學(xué)習(xí)圖像和視頻的表征以及跨模態(tài)的對齊顯然頗具挑戰(zhàn)性,這為網(wǎng)絡(luò)的學(xué)習(xí)和收斂增加了困難。Pretrain-then-finetuning是視覺領(lǐng)域一個常用的做法,它指的是首先在標(biāo)準(zhǔn)的圖像數(shù)據(jù)集上訓(xùn)練骨干網(wǎng)絡(luò)如ResNet,然后將其在下游任務(wù)包括視頻動作識別上進(jìn)行微調(diào),這一方法在各類任務(wù)上都取得了顯著的成功。借鑒于此,一種簡單的做法是首先在圖像-文本上進(jìn)行第一階段的預(yù)訓(xùn)練、然后在視頻-文本上進(jìn)行第二階段的預(yù)訓(xùn)練(如下圖第5行)。這一做法是很有競爭力的一個baseline,但是在一方面在圖像任務(wù)上的性能有所下降、另一方面在視頻任務(wù)上的表現(xiàn)還不夠驚艷。

7fe9706a-7b7e-11ed-8abf-dac502259ad0.png

為了更加充分地利用圖像-文本和視頻-文本數(shù)據(jù)的互補(bǔ)性、進(jìn)一步提升在不同下游任務(wù)上的表現(xiàn),OmniVL提出了一個解藕的聯(lián)合訓(xùn)練方式,即首先在圖像-文本上進(jìn)行預(yù)訓(xùn)練、然后結(jié)合視頻-文本進(jìn)行聯(lián)合預(yù)訓(xùn)練(如上圖第6行),這不僅可以防止對圖像表征的遺忘、甚至可以在二者對應(yīng)的任務(wù)上繼續(xù)提高性能。這篇工作認(rèn)為這是由于第一階段網(wǎng)絡(luò)可以專注在學(xué)習(xí)空間表征和其與文本模態(tài)的對齊上、第二階段則可以增益性地學(xué)習(xí)運(yùn)動表征和跨模態(tài)的關(guān)系建模,這不僅使學(xué)習(xí)從空間維度到時(shí)間維度更加高效,而且還能使不同源的數(shù)據(jù)之間形成互補(bǔ)。

實(shí)驗(yàn)

視覺任務(wù)

文章首先采用經(jīng)典的圖像分類 (linear probing) 和視頻動作識別任務(wù) (finetuning) 作為基準(zhǔn)評估了視覺編碼器在視覺任務(wù)上的表現(xiàn)。

80165b84-7b7e-11ed-8abf-dac502259ad0.png

80549cbe-7b7e-11ed-8abf-dac502259ad0.png

遵從CLIP的實(shí)現(xiàn),OmniVL凍結(jié)了視覺編碼器的參數(shù)并對新附加的線性層進(jìn)行微調(diào)。在6個圖像分類數(shù)據(jù)集上,OmniVL相比于大多數(shù)baseline取得了一致更好的結(jié)果。與CLIP和FLAVA (70M) 相比,雖然使用明顯更少預(yù)訓(xùn)練數(shù)據(jù),OmniVL仍然取得了總體上有競爭力的結(jié)果。

對于視頻動作識別,文章在兩個規(guī)模較小的數(shù)據(jù)集UCF101和HMDB51上評估了linear probing的結(jié)果,并在兩個規(guī)模較大的數(shù)據(jù)集Kinetics-400和Something-something V2上評估了微調(diào)的結(jié)果,實(shí)驗(yàn)表明OmniVL都顯著地超越了baseline。

跨模態(tài)對齊任務(wù)

接下來文章探究了OmniVL在圖像-文本檢索和文本到視頻檢索任務(wù)上的表現(xiàn)。值得一提的是,為了平衡推理效率和多模態(tài)信息的深度融合,OmniVL首先根據(jù)單模態(tài)編碼器得到視覺和文本embedding的相似度得分選擇Top-K(默認(rèn)為K=128)候選者,然后利用跨模態(tài)對齊解碼器計(jì)算其成對的匹配得分對候選者重新排序,這種雙階段匹配的方式進(jìn)一步體現(xiàn)了該架構(gòu)的優(yōu)越性。

807604e4-7b7e-11ed-8abf-dac502259ad0.png

80d0a3b8-7b7e-11ed-8abf-dac502259ad0.png

從上圖可以看出,無論是在圖像-文本檢索還是文本到視頻檢索上,OmniVL都在不同數(shù)據(jù)集上取得了目前最佳的性能。尤其是在文本到視頻檢索任務(wù)上,得益于所提出的解藕聯(lián)合預(yù)訓(xùn)練方法,OmniVL顯著地超越了現(xiàn)有方法。

多模態(tài)理解和生成任務(wù)

以視覺為基礎(chǔ)的跨模態(tài)對齊解碼器和文本生成解碼器使OmniVL具備了多模態(tài)理解和生成的能力,在這一部分中,文章評估了它在字幕生成和圖像/視頻問題回答上的表現(xiàn)。

8107acf0-7b7e-11ed-8abf-dac502259ad0.png

8124b32c-7b7e-11ed-8abf-dac502259ad0.png

在這類任務(wù)上,OmniVL同樣取得了最好的結(jié)果。

總結(jié)和未來工作

這篇工作提出了OmniVL,一個全新的視覺-語言基礎(chǔ)模型,它將圖像-語言和視頻-語言統(tǒng)一起來,并同時(shí)支持視覺任務(wù)、跨模態(tài)對齊任務(wù)以及多模態(tài)的理解和生成任務(wù)。OmniVL采用了統(tǒng)一的視覺-語言對比損失,這讓其能夠同時(shí)利用圖像-文本、圖像-標(biāo)簽、視頻-文本和視頻-標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。另外,文章中提出了一個解耦地聯(lián)合訓(xùn)練范式,將視覺-語言建模解耦為空間和時(shí)間兩個維度,從而同時(shí)提高了在圖像和視頻任務(wù)的性能。

在這篇工作僅僅在CC12M和WebVid-2.5M這類相對小規(guī)模的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,隨著LAION、WebVid-10M的問世,可以在更大規(guī)模的數(shù)據(jù)上訓(xùn)練更大的模型,以探索具有更強(qiáng)零樣本、小樣本能力的模型。另外一個值得探索的方向是結(jié)合更豐富的有標(biāo)簽數(shù)據(jù)和更優(yōu)的監(jiān)督目標(biāo),使得模型可以支持細(xì)粒度的任務(wù)如物體檢測、追蹤等,從而朝著通用的統(tǒng)一模型更上一層臺階。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42448
  • 圖像分類
    +關(guān)注

    關(guān)注

    0

    文章

    97

    瀏覽量

    12538

原文標(biāo)題:NeurIPS 2022 | 復(fù)旦&微軟提出?OmniVL:首個統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    《多模態(tài)大模型 前沿算法與實(shí)戰(zhàn)應(yīng)用 第季》精品課程簡介

    為512維向量。 語言模態(tài) :BERT、GPT等預(yù)訓(xùn)練模型文本轉(zhuǎn)換為上下文相關(guān)的詞嵌入。例如\"蘋果\"在\"水果\"語境和\"科技公司\"
    發(fā)表于 05-01 17:46

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進(jìn)行預(yù)
    的頭像 發(fā)表于 02-02 16:36 ?1154次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機(jī)攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發(fā)表于 12-14 07:26 ?3364次閱讀

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    R&amp;SZNB3000以業(yè)界領(lǐng)先的測量速度、出色的擴(kuò)展能力及流射頻性能,為中端矢量網(wǎng)絡(luò)分析儀市場樹立了新標(biāo)桿。隨著高頻型號的加入,R&amp;SZNB3000將覆蓋更廣泛的應(yīng)用場景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?814次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達(dá) 54 GHz

    深度數(shù)科九周年發(fā)布:全國首個票據(jù)行業(yè)大模型&amp;quot;承心閱&amp;quot;,重塑產(chǎn)業(yè)數(shù)字信任新范式

    周年之際,正式推出全國首個聚焦票據(jù)與供應(yīng)鏈金融領(lǐng)域的行業(yè)大模型:承心閱。標(biāo)志著中國票據(jù)行業(yè)邁入"可信智能"發(fā)展的全新階段,為產(chǎn)業(yè)信用體系建設(shè)注入"數(shù)字信任"新動能。 、真實(shí)業(yè)務(wù)數(shù)據(jù)
    的頭像 發(fā)表于 11-29 20:20 ?272次閱讀

    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入模型

    Embeddings多模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖多模態(tài)嵌入模型。該模型
    的頭像 發(fā)表于 10-29 17:15 ?388次閱讀
    亞馬遜云科技上線Amazon Nova多模態(tài)嵌入<b class='flag-5'>模型</b>

    如何將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型部署到蜂鳥e203開發(fā)板上

    本帖欲分享如何將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型部署到蜂鳥e203開發(fā)板上。 1. 加載TFLite模型 std::unique_ptr interpreter(new tflite::Interpreter
    發(fā)表于 10-22 08:04

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練個卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫數(shù)字識別。模型
    發(fā)表于 10-22 07:03

    全球首個動漫專屬AI視頻生成平臺Animon,國內(nèi)版&amp;quot;萌動AI&amp;quot;正式發(fā)布

    Animon國內(nèi)版——"萌動AI"首秀:AI動漫創(chuàng)作進(jìn)入全民時(shí)代 北京2025年9月25日?/美通社/ -- CreateAI(OTC:TSPH)今日宣布,其打造的全球首個專注于動漫的AI視頻
    的頭像 發(fā)表于 09-25 12:33 ?1381次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)
    的頭像 發(fā)表于 08-21 09:56 ?1247次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進(jìn)行YOLO模型轉(zhuǎn)換?

    我目前使用的轉(zhuǎn)模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載預(yù)訓(xùn)練的YOLO模型
    發(fā)表于 08-14 06:03

    在對廬山派K230的SD卡data文件夾進(jìn)行刪除和新件文件夾時(shí)無法操作,且訓(xùn)練時(shí)線程異常,怎么解決?

    解決了其中訓(xùn)練線程報(bào)錯的故障,是因?yàn)槲业奈募A里只有個分類子目錄,于是在圖像分類中它會報(bào)錯,但是訓(xùn)練好后點(diǎn)擊部署會出現(xiàn)部署文件生成異常的問題 查看AICube_log,日志顯示如下
    發(fā)表于 08-01 08:03

    請問yolov8訓(xùn)練模型如何寫雙線程?

    用yolo8訓(xùn)練模型做送藥小車,看了yolov8的歷程,可以使用,但是不知道輸出時(shí)具體用的是什么通道?我看API發(fā)現(xiàn),是用get_frame()獲取幀圖片給AI程序使用,但是返回值
    發(fā)表于 07-30 06:23

    新知|Verizon與AT&amp;amp;amp;T也可以手機(jī)直接連接衛(wèi)星了

    近日,Verizon與AT&amp;T宣布,手機(jī)直連衛(wèi)星方面取得重要進(jìn)展,使用普通手機(jī)實(shí)現(xiàn)了通過衛(wèi)星的視頻通話。很顯然,Verizon與AT&amp;T的這舉措是針對此前T-Mobi
    的頭像 發(fā)表于 06-19 07:07 ?1407次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機(jī)直接連接衛(wèi)星了

    CPU密集型任務(wù)開發(fā)指導(dǎo)

    區(qū)提供的房價(jià)數(shù)據(jù)訓(xùn)練個簡易的房價(jià)預(yù)測模型,該模型支持通過輸入房屋面積和房間數(shù)量去預(yù)測該區(qū)域的房價(jià),模型需要長時(shí)間運(yùn)行,房價(jià)預(yù)測需要使用前面
    發(fā)表于 06-19 06:05
    新安县| 洮南市| 泗洪县| 苗栗县| 鹤山市| 常州市| 昭觉县| 五家渠市| 塔河县| 鲁甸县| 石棉县| 梅州市| 江油市| 安国市| 乐业县| 抚宁县| 惠水县| 通河县| 剑河县| 佛教| 湘阴县| 绿春县| 房产| 乌兰浩特市| 常州市| 遂川县| 秦安县| 柞水县| 太仓市| 体育| 汕尾市| 大方县| 闻喜县| 连州市| 信丰县| 客服| 桦川县| 柘城县| 资源县| 咸宁市| 手机|