av在线一线二线,五月丁香黄视频,午夜福利视频1

項目主頁：https://coser-main.github.io/ 論文：https://arxiv.org/abs/2311.16512 代碼：https://github.com/VINHYU/CoSeR

圖1. LR，GR和SR分別為低清圖像、基于對低清圖像的認知生成的參考圖像和超分圖像。

圖像超分辨率技術(shù)旨在將低分辨率圖像轉(zhuǎn)換為高分辨率圖像，從而提高圖像的清晰度和細節(jié)真實性。這項技術(shù)在手機拍照等領(lǐng)域有著廣泛的應(yīng)用和需求。隨著超分技術(shù)的發(fā)展和手機硬件性能的提升，人們期望拍攝出更加清晰的照片。然而，現(xiàn)有的超分方法存在一些局限性，如圖2所示，主要有以下兩個方面：

一是缺乏泛化能力。為了實現(xiàn)更好的超分效果，通常需要針對特定場景使用特定傳感器采集到的數(shù)據(jù)來進行模型訓(xùn)練，這種學(xué)習(xí)方式擬合了某種低清圖像和高清圖像間的映射，但在其他場景下表現(xiàn)不佳。此外，逐場景訓(xùn)練的方式計算成本較高，不利于模型的部署和更新。

二是缺乏理解能力?，F(xiàn)有的超分方法主要依賴于從大量數(shù)據(jù)中學(xué)習(xí)圖像的退化分布，忽視了對圖像內(nèi)容的理解，無法利用常識來準確恢復(fù)物體的結(jié)構(gòu)和紋理。

圖2. 真實場景超分SOTA方法的局限性：（行一）難以處理訓(xùn)練集外的退化分布；（行二）難以利用常識恢復(fù)物體結(jié)構(gòu)。

人類在處理信息時，有兩種不同的認知反饋系統(tǒng)。諾貝爾獎經(jīng)濟學(xué)得主丹尼爾·卡爾曼在《思考，快與慢》中將它們稱為系統(tǒng)一和系統(tǒng)二，如圖3所示。系統(tǒng)一是快速的、直覺的、基于記憶的反饋，比如，我們可以脫口而出十以內(nèi)的加減運算。系統(tǒng)二是緩慢的、多步的反饋，比如，28x39往往需要逐步運算。現(xiàn)有的超分方法更貼近系統(tǒng)一，它們主要依賴于從大量數(shù)據(jù)中學(xué)習(xí)圖像的退化分布，忽視了對圖像內(nèi)容的理解，無法按照常識來準確恢復(fù)物體的結(jié)構(gòu)和紋理，也無法處理域外的退化情況。本文認為，真正能有效應(yīng)用于真實場景的畫質(zhì)大模型應(yīng)該具備類似系統(tǒng)二的多步修復(fù)能力，即基于對圖像內(nèi)容的認知，結(jié)合先驗知識來實現(xiàn)圖像超分（Cognitive Super-Resolution，CoSeR）。

圖3. CoSeR采用類似于人腦中系統(tǒng)二的修復(fù)方式

CoSeR模仿了人類專家修復(fù)低質(zhì)量圖像自上而下的思維方式，首先建立對圖像內(nèi)容的全面認知，包括識別場景和主要物體的特征，隨后將重點轉(zhuǎn)移到對圖像細節(jié)的檢查和還原。本文的主要貢獻如下：

提出了一種通用的萬物超分畫質(zhì)大模型CoSeR，它能夠從低清圖像中提取認知特征，包括場景內(nèi)容理解和紋理細節(jié)信息，從而提高模型的泛化能力和理解能力。

提出了一種基于認知特征的參考圖像生成方法，它能夠生成與低清圖像內(nèi)容一致的高質(zhì)量參考圖像，用于指導(dǎo)圖像的恢復(fù)過程，增強圖像的保真度和美感度。

提出了一種“All-in-Attention”模塊，它能夠?qū)⒌颓鍒D像、認知特征、參考圖像三個條件注入到模型當中，實現(xiàn)多源信息的融合和增強。

在多個測試集和評價指標上，相較于現(xiàn)有方法，CoSeR均取得了更好的效果。同時，CoSeR在真實場景下也展現(xiàn)頗佳。

方法介紹

圖4展示了CoSeR的整體架構(gòu)。CoSeR首先使用認知編碼器來對低清圖像進行解析，將提取到的認知特征傳遞給Stable Diffusion模型，用以激活擴散模型中的圖像先驗，從而恢復(fù)更精細的細節(jié)。此外，CoSeR利用認知特征來生成與低清圖像內(nèi)容一致的高質(zhì)量參考圖像。這些參考圖像作為輔助信息，有助于提升超分辨率效果。最終，CoSeR使用提出的“All-in-Attention”模塊，將低清圖像、認知特征、參考圖像三個條件注入到模型當中，進一步提升結(jié)果的保真度。

圖4. 本文提出的萬物超分畫質(zhì)大模型CoSeR

圖5展示了CoSeR參考圖像生成的效果。與直接從低清圖像中獲取描述的方法相比，CoSeR的認知特征保留了細粒度的圖像特征，在生成具有高度相似內(nèi)容的參考圖像時具有優(yōu)勢。在圖5的第一行，使用BLIP2從低清圖像生成的描述無法準確識別動物的類別、顏色和紋理。此外，CoSeR的認知特征對于低清圖像更加魯棒。例如，在圖5的第二行，由于輸入分布的差異，BLIP2會生成錯誤的圖像描述，而CoSeR生成了內(nèi)容一致的高質(zhì)量參考圖像。最后，相比于BLIP2大模型接近7B的參數(shù)量，CoSeR的認知編碼器只有其3%的參數(shù)量，極大提升了推理速度。

圖5.（行一）使用BLIP2描述生成的參考圖和CoSeR生成的參考圖；（行二）CoSeR的高魯棒性

結(jié)果展示

表1和圖6展示了CoSeR與其他方法的定量和定性結(jié)果對比。CoSeR在含有豐富類別的ImageNet數(shù)據(jù)集及真實超分數(shù)據(jù)集RealSR和DRealSR上，都取得了不錯的結(jié)果。CoSeR能夠恢復(fù)出更加清晰和自然的圖像細節(jié)，同時保持了圖像的內(nèi)容一致性和結(jié)構(gòu)完整性。

表1. 定量結(jié)果對比

圖6. 定性結(jié)果對比

本文提出的CoSeR模型為圖像超分辨率技術(shù)提供了一種新的思路和方法，它能夠從低清圖像中提取認知特征，用于激活圖像先驗、生成參考圖像，從而實現(xiàn)高質(zhì)量的萬物超分效果。我們未來的研究重點是如何在不影響超分性能的情況下加速采樣，以獲得更高的視覺質(zhì)量。此外，我們還將探索統(tǒng)一模型在更多樣化的圖像修復(fù)任務(wù)中的表現(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

傳感器

傳感器

+關(guān)注

關(guān)注
2578

文章
55567

瀏覽量
794264
圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42448
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3797

瀏覽量
5280

原文標題：超分畫質(zhì)大模型！華為和清華聯(lián)合提出CoSeR：基于認知的萬物超分大模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

超分畫質(zhì)大模型！華為和清華聯(lián)合提出CoSeR：基于認知的萬物超分大模型

評論

搜索歷史

超分畫質(zhì)大模型！華為和清華聯(lián)合提出CoSeR：基于認知的萬物超分大模型

評論

超分畫質(zhì)大模型！華為和清華聯(lián)合提出CoSeR：基于認知的萬物超分大模型