日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DALL-E和Flamingo能相互理解嗎?

CVer ? 來源:機器之心 ? 2023-01-09 15:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文提出了一個統(tǒng)一的框架,其中包括文本到圖像生成模型和圖像到文本生成模型,該研究不僅為改進圖像和文本理解提供了見解,而且為多模態(tài)模型的融合提供了一個有前途的方向。

多模態(tài)研究的一個重要目標就是提高機器對于圖像和文本的理解能力。特別是針對如何在兩種模型之間實現(xiàn)有意義的交流,研究者們付出了巨大努力。舉例來說,圖像描述(image captioning)生成應當能將圖像的語義內(nèi)容轉(zhuǎn)換輸出為可被人們理解的連貫文本。相反,文本 - 圖像生成模型也可利用文本描述的語義來創(chuàng)建逼真的圖像。

這就會帶來一些同語義相關(guān)的有趣問題:對于給定的圖像,哪種文本描述最準確地描述了圖像?同樣地,對于給定的文本,最有意義的圖像實現(xiàn)方式又是哪種?針對第一個問題,一些研究宣稱最佳的圖像描述應該是既自然且還能還原視覺內(nèi)容的信息。而對于第二個問題,有意義的圖像應該是高質(zhì)量的、多樣性的且忠于文本內(nèi)容的。

不論怎樣,在人類交流的推動下,包含文本 - 圖像生成模型及圖像 - 文本生成模型的交互任務可以幫助我們選擇最準確的圖像文本對。

如圖 1 所示,在第一個任務中,圖像 - 文本模型是信息發(fā)送者,文本 - 圖像模型是信息接收者。發(fā)送者的目標是使用自然語言將圖像的內(nèi)容傳達給接收者,以便其理解該語言并重建真實的視覺表征。一旦接收者可以高保真地重建原始圖像信息,則表明信息已傳遞成功。研究者認為這樣生成的文本描述即為最優(yōu)的,通過其產(chǎn)生的圖像也最近似于原始圖像。

54695ade-8fdf-11ed-bfe3-dac502259ad0.png

這一規(guī)律受到人們使用語言進行交流的啟發(fā)。試想如下情形:在一個緊急呼救的場景中,警察通過電話獲知車禍的情況和受傷人員的狀況。這本質(zhì)上涉及現(xiàn)場目擊者的圖像描述過程。警方需要根據(jù)語言描述在腦海中重建環(huán)境場景,以組織恰當?shù)木仍袆印o@然,最好的文本描述應該是該場景重建的最佳指南。

第二個任務涉及文本重建:文本 - 圖像模型成為信息發(fā)送者,圖像 - 文本模型則成為信息接收者。一旦兩個模型就文本層面上信息內(nèi)容達成一致,那么用于傳達信息的圖像媒介即為重現(xiàn)源文本的最優(yōu)圖像。

本文中,來自慕尼黑大學、西門子公司等機構(gòu)的研究者提出的方法,同智能體間通信緊密相關(guān)。語言是智能體之間交換信息的主要方法??晌覀?nèi)绾未_定第一個智能體與第二個智能體對什么是貓或什么是狗這樣的問題有相同的理解呢?

549ea716-8fdf-11ed-bfe3-dac502259ad0.png

論文地址:https://arxiv.org/abs/2212.12249

本文所想要探求的想法是讓第一個智能體分析圖像并生成描述該圖像的文本,而后第二個智能體獲取該文本并據(jù)此來模擬圖像。其中,后一個過程可以被認為是一個具象化體現(xiàn)的過程。該研究認為,如果第二個智能體模擬的圖像與第一個智能體接收到的輸入圖像相似(見圖 1),則通信成功。

在實驗中,該研究使用現(xiàn)成的模型,特別是近期開發(fā)的大規(guī)模預訓練模型。例如,F(xiàn)lamingo 和 BLIP 是圖像描述模型,可以基于圖像自動生成文本描述。同樣地,基于圖像 - 文本對所訓練的圖像生成模型可以理解文本的深層語義并合成高質(zhì)量的圖像,例如 DALL-E 模型和潛在擴散模型 (SD) 即為這種模型。

此外,該研究還利用 CLIP 模型來比較圖像或文本。CLIP 是一種視覺語言模型,可將圖像和文本對應起來表現(xiàn)在共享的嵌入空間(embedding space)中。該研究使用手動創(chuàng)建的圖像文本數(shù)據(jù)集,例如 COCO 和 NoCaps 來評估生成的文本的質(zhì)量。圖像和文本生成模型具有允許從分布中采樣的隨機分量,因而可以從一系列候選的文本和圖像中選擇最佳的。不同的采樣方法,包括核采樣,均可以被用于圖像描述模型,而本文采用核采樣作為基礎模型,以此來顯示本文所使用方法的優(yōu)越性。

方法概覽

本文框架由三個預訓練的 SOTA 神經(jīng)網(wǎng)絡組成。第一,圖像 - 文本生成模型;第二,文本 - 圖像生成模型;第三,由圖像編碼器和文本編碼器組成的多模態(tài)表示模型,它可以將圖像或文本分別映射到其語義嵌入中。

54aabfce-8fdf-11ed-bfe3-dac502259ad0.png

通過文本描述的圖像重建

如圖 2 左半部分所示,圖像重建任務是使用語言作為指令重建源圖像,此過程的效果實現(xiàn)將促使描述源場景的最佳文本生成。首先,源圖像 x 被輸送到 BLIP 模型以生成多個候選文本 y_k。例如,一只小熊貓在樹林中吃樹葉。生成的文本候選集合用 C 表示,然后文本 y_k 被發(fā)送到 SD 模型以生成圖像 x’_k。這里 x’_k 是指基于小熊貓生成的圖像。隨后,使用 CLIP 圖像編碼器從源圖像和生成的圖像中提取語義特征:54eae806-8fdf-11ed-bfe3-dac502259ad0.png550395a4-8fdf-11ed-bfe3-dac502259ad0.png。

然后計算這兩個嵌入向量之間的余弦相似度,目的是找到候選的文本描述 y_s, 即

5514f268-8fdf-11ed-bfe3-dac502259ad0.png

其中 s 為最接近源圖像的圖像索引。

該研究使用 CIDEr(圖像描述度量指標)并參照人類注解來評估最佳文本。由于對生成的文本質(zhì)量感興趣,該研究將 BLIP 模型設定為輸出長度大致相同的文本。這樣就能保證進行相對公平的比較,因為文字的長度與可傳遞圖像中信息量的多少呈正相關(guān)。在這項工作中,所有模型都會被凍結(jié),不會進行任何微調(diào)。

通過圖像實現(xiàn)文本重建

圖 2 中右側(cè)部分顯示了與上一節(jié)描述過程的相反過程。BLIP 模型需要在 SD 的引導下猜測源文本,SD 可以訪問文本但只能以圖像的格式呈現(xiàn)其內(nèi)容。該過程始于使用 SD 為文本 y 生成候選圖像 x_k ,生成的候選圖像集用 K 來表示。使用 SD 生成圖像會涉及隨機采樣過程,其中每一次生成過程都可能會以在巨大的像素空間中得到不同的有效圖像樣本為終點。這種采樣多樣性會提供一個候選池來為篩選出最佳圖像。隨后,BLIP 模型為每個采樣圖像 x_k 生成一個文本描述 y’_k。這里 y’_k 指的是初始文本一只小熊貓在森林里爬行。然后該研究使用 CLIP 文本編碼器提取源文本和生成文本的特征,分別用552ad77c-8fdf-11ed-bfe3-dac502259ad0.png553954a0-8fdf-11ed-bfe3-dac502259ad0.png表示。此任務的目的是尋找匹配文本 y 語義的最佳候選圖像 x_s。為此,該研究需要比較生成文本和輸入文本之間的距離,然后選擇出配對文本距離最小的圖像,即

555003bc-8fdf-11ed-bfe3-dac502259ad0.png 該研究認為圖像 x_s 可以最好地描繪出文本描述 y,因為它可以以最小的信息損失將內(nèi)容傳遞給接收者。此外,該研究將與文本 y 相對應的圖像55665e32-8fdf-11ed-bfe3-dac502259ad0.png視為 y 的參考表示(reference presentation),并將最佳圖像量化為它與參考圖像的接近程度。實驗結(jié)果圖 3 中的左側(cè)圖表顯示了兩個數(shù)據(jù)集上圖像重建質(zhì)量和描述文本質(zhì)量之間的相關(guān)性。對于每個給定圖像,重建圖像質(zhì)量(在 x 軸中顯示)越好,文本描述質(zhì)量(在 y 軸中顯示的)也越好。 圖 3 的右側(cè)圖表揭示了恢復的文本質(zhì)量和生成的圖像質(zhì)量之間的關(guān)系:對于每個給定的文本,重建的文本描述(顯示在 x 軸上)越好,圖像質(zhì)量(顯示在 y 軸上)就越好。

5575dda8-8fdf-11ed-bfe3-dac502259ad0.png

圖 4(a)和(b)顯示了圖像重建質(zhì)量和基于源圖像的平均文本質(zhì)量之間的關(guān)系。圖 4(c)和(d)顯示了文本距離(text distance)與重建圖像質(zhì)量之間的相關(guān)性。

5593723c-8fdf-11ed-bfe3-dac502259ad0.png

表 1 顯示出該研究的采樣方法在每個度量標準下都優(yōu)于核采樣,模型的相對增益可以高達 7.7%。

5662a50c-8fdf-11ed-bfe3-dac502259ad0.png

圖 5 顯示了兩個重建任務的定性示例。

56b81780-8fdf-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108212
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42449
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3834

    瀏覽量

    52289

原文標題:DALL-E和Flamingo能相互理解嗎?三個預訓練SOTA神經(jīng)網(wǎng)絡統(tǒng)一圖像和文本

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    中央超算E/E架構(gòu),芯馳重磅發(fā)布“中央智控小腦AMU算力基座+IO型區(qū)域控制”全套解決方案

    基座,以及為新一代IO型區(qū)域控制器設計的E3610芯片方案。 芯馳MCU產(chǎn)品線總經(jīng)理張曦桐在發(fā)布會上介紹E3系列產(chǎn)品 超集成AMU:賦中央超算E/
    發(fā)表于 04-28 10:46 ?1007次閱讀
    賦<b class='flag-5'>能</b>中央超算<b class='flag-5'>E</b>/<b class='flag-5'>E</b>架構(gòu),芯馳重磅發(fā)布“中央智控小腦AMU算力基座+IO型區(qū)域控制”全套解決方案

    阻抗分析儀E4990A在太陽電池研究中的應用

    隨著清潔能源技術(shù)的快速發(fā)展,太陽電池作為核心的光電轉(zhuǎn)換器件,其性能優(yōu)化與可靠性評估成為科研與產(chǎn)業(yè)界關(guān)注的重點。在眾多測試手段中,是德科技(Keysight)E4990A阻抗分析儀憑借其高精度、寬頻帶和多功能特性,正逐漸成為太陽
    的頭像 發(fā)表于 04-20 16:41 ?147次閱讀
    阻抗分析儀<b class='flag-5'>E</b>4990A在太陽<b class='flag-5'>能</b>電池研究中的應用

    Z86E33/733/E34/E43/743/E44 CMOS Z8? OTP微控制器:特性、參數(shù)與應用解析

    Z86E33/733/E34/E43/743/E44 CMOS Z8? OTP微控制器:特性、參數(shù)與應用解析 在電子設計領(lǐng)域,微控制器是眾多項目的核心部件。今天我們要深入探討的是Zil
    的頭像 發(fā)表于 04-04 12:45 ?684次閱讀

    Z86E33/733/E34/E43/743/E44 CMOS Z8 OTP微控制器:特性與應用解析

    : Z86E3312PEC.pdf 一、基本特性 1. 存儲與性能 這些微控制器的ROM容量有4KB、8KB和16KB三種可選,滿足不同復雜程度的程序存
    的頭像 發(fā)表于 04-04 12:40 ?775次閱讀

    深入解析TLE8261 - 2E通用系統(tǒng)基礎芯片:特性、應用與設計要點

    CAN - LIN汽車應用(如車身控制器、網(wǎng)關(guān)應用)提供了全面的解決方案。本文將深入剖析TLE8261 - 2E的各項特性、工作模式以及應用要點,幫助電子工程師更好地理解和應用這款芯片。 文件下載: TLE8261-2E.pdf
    的頭像 發(fā)表于 03-29 10:45 ?264次閱讀

    探索MAX20004E/MAX20006E/MAX20008E:汽車級降壓轉(zhuǎn)換器的卓越之選

    探索MAX20004E/MAX20006E/MAX20008E:汽車級降壓轉(zhuǎn)換器的卓越之選 在汽車電子系統(tǒng)中,對高效、可靠的電源管理解決方案需求十分迫切。Maxim Integrate
    的頭像 發(fā)表于 03-05 11:10 ?254次閱讀

    Renesas E1/E20 仿真器使用指南:從基礎到實戰(zhàn)

    Renesas E1/E20 仿真器使用指南:從基礎到實戰(zhàn) 在嵌入式開發(fā)領(lǐng)域,一款高效可靠的仿真器對于調(diào)試程序、優(yōu)化性能至關(guān)重要。Renesas 的 E1/E20 仿真器就是這樣一款
    的頭像 發(fā)表于 03-02 15:10 ?395次閱讀

    SPI 為什么比 I2C 更快?

    當你將微控制器連接到傳感器、顯示器或其他模塊時,你有沒有想過這兩個設備是如何相互通信的?它們到底在說什么?它們是如何相互理解的?電子設備之間的通信就像人與人之間的通信。雙方需要使用相同的語言。在電子
    的頭像 發(fā)表于 01-04 09:14 ?918次閱讀
    SPI 為什么比 I2C 更快?

    自動駕駛汽車是如何進行“場景理解”的?

    [首發(fā)于智駕最前沿微信公眾號]場景理解這個詞聽起來可能有點深奧,但在自動駕駛里,它其實就是指車輛“看到周圍環(huán)境之后,能不能真正搞明白正在發(fā)生什么”。要把這個概念講清楚,不能只停留在感知系統(tǒng)識別
    的頭像 發(fā)表于 12-11 09:16 ?681次閱讀
    自動駕駛汽車是如何進行“場景<b class='flag-5'>理解</b>”的?

    能源物聯(lián)網(wǎng)加持!安科瑞能源管理解決方案讓園區(qū)用監(jiān)測 “實時可見”

    老化,數(shù)據(jù)時常丟失;地下水管網(wǎng)老舊,泄漏難以及時發(fā)現(xiàn)。這些問題不僅推高運營成本、影響效,也埋下安全隱患。安科瑞園區(qū)能源管理解決方案,旨在重塑園區(qū)能源與收費管理模式,提升運營效益與安全水平。 二、安科瑞園區(qū)能源管理解決方案
    的頭像 發(fā)表于 12-05 16:25 ?852次閱讀
    能源物聯(lián)網(wǎng)加持!安科瑞能源管<b class='flag-5'>理解</b>決方案讓園區(qū)用<b class='flag-5'>能</b>監(jiān)測 “實時可見”

    雙碳目標下中央空調(diào)系統(tǒng)效管理解決方案研究與應用

    摘要 隨著中國“2030年碳達峰、2060年碳中和”戰(zhàn)略目標的提出,建筑能源系統(tǒng)尤其是中央空調(diào)系統(tǒng)的節(jié)能降耗成為實現(xiàn)雙碳目標的關(guān)鍵環(huán)節(jié)。本文基于某高科技企業(yè)的中央空調(diào)效管理解決方案,結(jié)合多項國家
    的頭像 發(fā)表于 11-20 16:55 ?727次閱讀
    雙碳目標下中央空調(diào)系統(tǒng)<b class='flag-5'>能</b>效管<b class='flag-5'>理解</b>決方案研究與應用

    jf_58112309
    發(fā)布于 :2025年10月15日 10:36:52

    半導體亮相SEMI-e 2025深圳國際半導體展

    SEMI-e 2025深圳國際半導體展,旨在為行業(yè)帶來突破性的技術(shù)革新。 展會上,瑞半導體重點推介的最新一代車規(guī)級SiC MOSFET及二極管產(chǎn)品,在轉(zhuǎn)換效率、高溫穩(wěn)定性及長期可靠性方面實現(xiàn)了行業(yè)突破,并已具備規(guī)模化量產(chǎn)能力。 這意味著瑞
    的頭像 發(fā)表于 09-12 15:10 ?1126次閱讀

    別再搜了!國內(nèi)用戶搞定OpenAI API Key的兩種最佳實踐(保姆級教程)

    想玩轉(zhuǎn)GPT-5、DALL-E 3,在自己的項目里集成酷炫的AI能力,卻被一張小小的API Key攔在門外? 你是不是也遇到了這些問題: 官網(wǎng)注冊流程繁瑣,網(wǎng)絡時好時壞? 好不容易注冊完,發(fā)現(xiàn)支付
    的頭像 發(fā)表于 08-24 19:02 ?1.5w次閱讀

    【Sipeed MaixCAM Pro開發(fā)板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    1. 項目概述 本項目旨在開發(fā)并部署一個高精度的深度學習模型,用于自動鑒別一張圖片是由AI生成(如Stable Diffusion, DALL-E, Midjourney等工具生成)還是真實的畫家
    發(fā)表于 08-21 13:59
    新津县| 商丘市| 双柏县| 巴青县| 绩溪县| 芒康县| 长治县| 黎平县| 东至县| 泾阳县| 延吉市| 永年县| 惠州市| 土默特右旗| 肥西县| 凉城县| 乐安县| 沧源| 大英县| 刚察县| 墨脱县| 乌审旗| 南汇区| 南丰县| 成武县| 微博| 济宁市| 伊宁县| 太原市| 报价| 渭南市| 桐柏县| 新安县| 抚顺市| 香格里拉县| 怀宁县| 喀喇沁旗| 连山| 玉山县| 石河子市| 桂林市|