精品国产一区二区香蕉,久久久久夜夜夜夜香

本文提出了一個統(tǒng)一的框架，其中包括文本到圖像生成模型和圖像到文本生成模型，該研究不僅為改進圖像和文本理解提供了見解，而且為多模態(tài)模型的融合提供了一個有前途的方向。

多模態(tài)研究的一個重要目標就是提高機器對于圖像和文本的理解能力。特別是針對如何在兩種模型之間實現(xiàn)有意義的交流，研究者們付出了巨大努力。舉例來說，圖像描述（image captioning）生成應當能將圖像的語義內(nèi)容轉(zhuǎn)換輸出為可被人們理解的連貫文本。相反，文本 - 圖像生成模型也可利用文本描述的語義來創(chuàng)建逼真的圖像。

這就會帶來一些同語義相關(guān)的有趣問題：對于給定的圖像，哪種文本描述最準確地描述了圖像？同樣地，對于給定的文本，最有意義的圖像實現(xiàn)方式又是哪種？針對第一個問題，一些研究宣稱最佳的圖像描述應該是既自然且還能還原視覺內(nèi)容的信息。而對于第二個問題，有意義的圖像應該是高質(zhì)量的、多樣性的且忠于文本內(nèi)容的。

不論怎樣，在人類交流的推動下，包含文本 - 圖像生成模型及圖像 - 文本生成模型的交互任務可以幫助我們選擇最準確的圖像文本對。

如圖 1 所示，在第一個任務中，圖像 - 文本模型是信息發(fā)送者，文本 - 圖像模型是信息接收者。發(fā)送者的目標是使用自然語言將圖像的內(nèi)容傳達給接收者，以便其理解該語言并重建真實的視覺表征。一旦接收者可以高保真地重建原始圖像信息，則表明信息已傳遞成功。研究者認為這樣生成的文本描述即為最優(yōu)的，通過其產(chǎn)生的圖像也最近似于原始圖像。

這一規(guī)律受到人們使用語言進行交流的啟發(fā)。試想如下情形：在一個緊急呼救的場景中，警察通過電話獲知車禍的情況和受傷人員的狀況。這本質(zhì)上涉及現(xiàn)場目擊者的圖像描述過程。警方需要根據(jù)語言描述在腦海中重建環(huán)境場景，以組織恰當?shù)木仍袆印ｏ@然，最好的文本描述應該是該場景重建的最佳指南。

第二個任務涉及文本重建：文本 - 圖像模型成為信息發(fā)送者，圖像 - 文本模型則成為信息接收者。一旦兩個模型就文本層面上信息內(nèi)容達成一致，那么用于傳達信息的圖像媒介即為重現(xiàn)源文本的最優(yōu)圖像。

本文中，來自慕尼黑大學、西門子公司等機構(gòu)的研究者提出的方法，同智能體間通信緊密相關(guān)。語言是智能體之間交換信息的主要方法?？晌覀?nèi)绾未_定第一個智能體與第二個智能體對什么是貓或什么是狗這樣的問題有相同的理解呢？

論文地址：https://arxiv.org/abs/2212.12249

本文所想要探求的想法是讓第一個智能體分析圖像并生成描述該圖像的文本，而后第二個智能體獲取該文本并據(jù)此來模擬圖像。其中，后一個過程可以被認為是一個具象化體現(xiàn)的過程。該研究認為，如果第二個智能體模擬的圖像與第一個智能體接收到的輸入圖像相似（見圖 1），則通信成功。

在實驗中，該研究使用現(xiàn)成的模型，特別是近期開發(fā)的大規(guī)模預訓練模型。例如，F(xiàn)lamingo 和 BLIP 是圖像描述模型，可以基于圖像自動生成文本描述。同樣地，基于圖像 - 文本對所訓練的圖像生成模型可以理解文本的深層語義并合成高質(zhì)量的圖像，例如 DALL-E 模型和潛在擴散模型 (SD) 即為這種模型。

此外，該研究還利用 CLIP 模型來比較圖像或文本。CLIP 是一種視覺語言模型，可將圖像和文本對應起來表現(xiàn)在共享的嵌入空間（embedding space）中。該研究使用手動創(chuàng)建的圖像文本數(shù)據(jù)集，例如 COCO 和 NoCaps 來評估生成的文本的質(zhì)量。圖像和文本生成模型具有允許從分布中采樣的隨機分量，因而可以從一系列候選的文本和圖像中選擇最佳的。不同的采樣方法，包括核采樣，均可以被用于圖像描述模型，而本文采用核采樣作為基礎模型，以此來顯示本文所使用方法的優(yōu)越性。

方法概覽

本文框架由三個預訓練的 SOTA 神經(jīng)網(wǎng)絡組成。第一，圖像 - 文本生成模型；第二，文本 - 圖像生成模型；第三，由圖像編碼器和文本編碼器組成的多模態(tài)表示模型，它可以將圖像或文本分別映射到其語義嵌入中。

通過文本描述的圖像重建

如圖 2 左半部分所示，圖像重建任務是使用語言作為指令重建源圖像，此過程的效果實現(xiàn)將促使描述源場景的最佳文本生成。首先，源圖像 x 被輸送到 BLIP 模型以生成多個候選文本 y_k。例如，一只小熊貓在樹林中吃樹葉。生成的文本候選集合用 C 表示，然后文本 y_k 被發(fā)送到 SD 模型以生成圖像 x’_k。這里 x’_k 是指基于小熊貓生成的圖像。隨后，使用 CLIP 圖像編碼器從源圖像和生成的圖像中提取語義特征:和。

然后計算這兩個嵌入向量之間的余弦相似度，目的是找到候選的文本描述 y_s, 即

其中 s 為最接近源圖像的圖像索引。

該研究使用 CIDEr（圖像描述度量指標）并參照人類注解來評估最佳文本。由于對生成的文本質(zhì)量感興趣，該研究將 BLIP 模型設定為輸出長度大致相同的文本。這樣就能保證進行相對公平的比較，因為文字的長度與可傳遞圖像中信息量的多少呈正相關(guān)。在這項工作中，所有模型都會被凍結(jié)，不會進行任何微調(diào)。

通過圖像實現(xiàn)文本重建

圖 2 中右側(cè)部分顯示了與上一節(jié)描述過程的相反過程。BLIP 模型需要在 SD 的引導下猜測源文本，SD 可以訪問文本但只能以圖像的格式呈現(xiàn)其內(nèi)容。該過程始于使用 SD 為文本 y 生成候選圖像 x_k ，生成的候選圖像集用 K 來表示。使用 SD 生成圖像會涉及隨機采樣過程，其中每一次生成過程都可能會以在巨大的像素空間中得到不同的有效圖像樣本為終點。這種采樣多樣性會提供一個候選池來為篩選出最佳圖像。隨后，BLIP 模型為每個采樣圖像 x_k 生成一個文本描述 y’_k。這里 y’_k 指的是初始文本一只小熊貓在森林里爬行。然后該研究使用 CLIP 文本編碼器提取源文本和生成文本的特征，分別用和表示。此任務的目的是尋找匹配文本 y 語義的最佳候選圖像 x_s。為此，該研究需要比較生成文本和輸入文本之間的距離，然后選擇出配對文本距離最小的圖像，即

該研究認為圖像 x_s 可以最好地描繪出文本描述 y，因為它可以以最小的信息損失將內(nèi)容傳遞給接收者。此外，該研究將與文本 y 相對應的圖像視為 y 的參考表示（reference presentation），并將最佳圖像量化為它與參考圖像的接近程度。實驗結(jié)果圖 3 中的左側(cè)圖表顯示了兩個數(shù)據(jù)集上圖像重建質(zhì)量和描述文本質(zhì)量之間的相關(guān)性。對于每個給定圖像，重建圖像質(zhì)量（在 x 軸中顯示）越好，文本描述質(zhì)量（在 y 軸中顯示的）也越好。圖 3 的右側(cè)圖表揭示了恢復的文本質(zhì)量和生成的圖像質(zhì)量之間的關(guān)系：對于每個給定的文本，重建的文本描述（顯示在 x 軸上）越好，圖像質(zhì)量（顯示在 y 軸上）就越好。

圖 4（a）和（b）顯示了圖像重建質(zhì)量和基于源圖像的平均文本質(zhì)量之間的關(guān)系。圖 4（c）和（d）顯示了文本距離（text distance）與重建圖像質(zhì)量之間的相關(guān)性。

表 1 顯示出該研究的采樣方法在每個度量標準下都優(yōu)于核采樣，模型的相對增益可以高達 7.7%。

圖 5 顯示了兩個重建任務的定性示例。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡

+關(guān)注

關(guān)注
42

文章
4844

瀏覽量
108212
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42449
模型

模型

+關(guān)注

關(guān)注
1

文章
3834

瀏覽量
52289

原文標題：DALL-E和Flamingo能相互理解嗎？三個預訓練SOTA神經(jīng)網(wǎng)絡統(tǒng)一圖像和文本

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

DALL-E和Flamingo能相互理解嗎？

評論