av99免费观影,超碰av中文在线,操你久久的

多階段策略在圖像修復(fù)任務(wù)中被廣泛應(yīng)用，雖然基于Transformer的方法在單圖像超分辨率任務(wù)中表現(xiàn)出高效率，但在立體超分辨率任務(wù)中尚未展現(xiàn)出CNN-based方法的顯著優(yōu)勢(shì)。這可以歸因于兩個(gè)關(guān)鍵因素：首先，當(dāng)前單圖像超分辨率Transformer在該過(guò)程中無(wú)法利用互補(bǔ)的立體信息；其次，Transformer的性能通常依賴(lài)于足夠的數(shù)據(jù)，在常見(jiàn)的立體圖像超分辨率算法中缺乏這些數(shù)據(jù)。為了解決這些問(wèn)題，作者提出了一種混合Transformer和CNN注意力網(wǎng)絡(luò)(HTCAN)，它利用基于Transformer的網(wǎng)絡(luò)進(jìn)行單圖像增強(qiáng)和基于CNN的網(wǎng)絡(luò)進(jìn)行立體信息融合。此外，作者采用了多塊訓(xùn)練策略和更大的窗口尺寸，以激活更多的輸入像素進(jìn)行超分辨率。作者還重新審視了其他高級(jí)技術(shù)，如數(shù)據(jù)增強(qiáng)、數(shù)據(jù)集成和模型集成，以減少過(guò)擬合和數(shù)據(jù)偏差。最后，作者的方法在NTIRE 2023立體圖像超分辨率挑戰(zhàn)的Track 1中獲得了23.90dB的分?jǐn)?shù)，并成為優(yōu)勝者。

1 前言

立體圖像超分辨的最終性能取決于每個(gè)視圖的特征提取能力和立體信息交換能力。相比于卷積神經(jīng)網(wǎng)絡(luò)，變換器擁有更大的感受野和自我關(guān)注機(jī)制，可以更好地模擬長(zhǎng)期依賴(lài)。但是，其內(nèi)存和計(jì)算成本通常要高得多。因此，作者提出了一種混合架構(gòu)，利用了變換器的強(qiáng)大長(zhǎng)期依賴(lài)建模能力和卷積神經(jīng)網(wǎng)絡(luò)的信息交換的有效性。在作者的方法中，作者首先使用變換器來(lái)保留重要特征，然后使用CNN方法進(jìn)行信息交換。實(shí)驗(yàn)結(jié)果表明，該混合架構(gòu)具有較好的性能。

本文有以下三個(gè)貢獻(xiàn)：

一種混合立體圖像超分辨網(wǎng)絡(luò)。作者提出了一個(gè)統(tǒng)一的立體圖像超分辨算法，它集成了變換器和CNN架構(gòu)，其中變換器用于提取單視圖圖像的特征，而CNN模塊用于交換來(lái)自?xún)蓚€(gè)視圖的信息并生成最終的超分辨圖像。

全面的數(shù)據(jù)增強(qiáng)。作者對(duì)多補(bǔ)丁訓(xùn)練策略和其他技術(shù)進(jìn)行了全面研究，并將它們應(yīng)用于立體圖像超分辨。

新的最先進(jìn)性能。作者提出的方法實(shí)現(xiàn)了新的最先進(jìn)性能，并在立體圖像超分辨挑戰(zhàn)賽的第一軌中獲得了第一名。

2 相關(guān)背景

本文這一節(jié)介紹了單張圖像超分辨率和立體圖像超分辨率的相關(guān)工作。針對(duì)單張圖像超分辨率，研究人員一開(kāi)始使用外部圖像或樣本數(shù)據(jù)庫(kù)來(lái)生成超分辨圖像，手工制作的特征依賴(lài)于先驗(yàn)知識(shí)/假設(shè)，并存在很多局限性。后來(lái)引入了基于CNN的方法，CNN網(wǎng)絡(luò)通過(guò)學(xué)習(xí)局部結(jié)構(gòu)模式降低了計(jì)算成本。最近，基于Transformer的方法也受到越來(lái)越多的關(guān)注，因?yàn)樗鼊h除了先前卷積模塊使用的局部性先知，并允許更大的接收?qǐng)觥?duì)于立體圖像超分辨率，在以前的工作中，大多是從單張圖像超分辨率骨干出發(fā)的，并提出了通信分支來(lái)允許左右視圖之間的信息交換。然而，左右視圖之間的視差通常沿著基線(xiàn)而大于傳統(tǒng)卷積核的接收?qǐng)?。近年?lái)，采用了與單張超分辨率類(lèi)似的方法，引入了基于CNN和Transformer的方法，以修復(fù)立體圖像的超分辨率。

3 方法

本節(jié)中，作者詳細(xì)介紹所提出的混合Transformer和CNN Attention網(wǎng)絡(luò)（HTCAN）。所提出的HTCAN是一個(gè)多階段的恢復(fù)網(wǎng)絡(luò)。具體而言，給定低分辨率的立體圖像Llr和Rlr，作者首先使用基于Transformer的單圖像超分辨率網(wǎng)絡(luò)將其超分辨到Ls1和Rs1。在第二階段，作者采用基于CNN的網(wǎng)絡(luò)來(lái)增強(qiáng)Ls1和Rs1的立體效果，并得到增強(qiáng)的圖像Lsr和Rsr。在第三階段，作者使用與第2階段相同的基于CNN的網(wǎng)絡(luò)進(jìn)行進(jìn)一步的立體增強(qiáng)和模型集成。

3.1 階段1: 基于Transformer的單圖像超分辨率網(wǎng)絡(luò)結(jié)構(gòu)

作者提出了一個(gè)基于Transformer和CNN Attention網(wǎng)絡(luò)的立體圖像增強(qiáng)網(wǎng)絡(luò)，可以提高圖像分辨率和立體效果。首先采用HAT-L作為單圖像超分辨率的骨干，使用多塊訓(xùn)練策略和級(jí)聯(lián)殘差混合注意力組（RHAG）進(jìn)行自注意和信息聚合，最終生成高分辨率圖像。同時(shí)，通過(guò)轉(zhuǎn)動(dòng)和翻轉(zhuǎn)輸入圖像來(lái)實(shí)現(xiàn)自集成，使用SiLU激活函數(shù)替換GeLU激活函數(shù)進(jìn)一步增強(qiáng)性能。

4.2 階段2：基于卷積神經(jīng)網(wǎng)絡(luò)的立體增強(qiáng)網(wǎng)絡(luò)架構(gòu)

作者介紹了基于卷積神經(jīng)網(wǎng)絡(luò)的立體增強(qiáng)的第二階段流程。該流程使用了由NAFSSR-L作為骨干網(wǎng)絡(luò)，在提取淺層特征后，通過(guò)K2個(gè)NAF塊和SCAM模塊對(duì)左右圖像進(jìn)行跨視圖信息聚合，最終輸出立體增強(qiáng)后的圖像。為了提高性能，通過(guò)自組合策略對(duì)模型進(jìn)行了改進(jìn)。

4.3 階段3: 基于卷積神經(jīng)網(wǎng)絡(luò)的立體影像融合

作者介紹了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的立體影像融合的三階段流程。在第三階段中，使用第二階段自組合的輸出作為輸入，提高了模型的整體性能。雖然第三階段模型表現(xiàn)與第二階段類(lèi)似，但是作為一個(gè)集成模型，可以對(duì)第二階段模型進(jìn)行進(jìn)一步的改進(jìn)。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)細(xì)節(jié)

本文的實(shí)驗(yàn)部分訓(xùn)練了一個(gè) HTCAN 網(wǎng)絡(luò)，并對(duì)該網(wǎng)絡(luò)進(jìn)行了三個(gè)階段的訓(xùn)練。在第一階段的訓(xùn)練中，使用了 Charbonnier 損失和 MSE 損失，同時(shí)還使用了各種數(shù)據(jù)增強(qiáng)技術(shù)。在第二階段中，我們采用 NAFSSR-L 的原始代碼在 Flickr1024 圖像上進(jìn)行了訓(xùn)練，并在第二階段訓(xùn)練中使用 UnshuffleNAFSSR 模型的預(yù)訓(xùn)練模型。最后，在第三階段的訓(xùn)練中，采用與第二階段相同的設(shè)置，將網(wǎng)絡(luò)進(jìn)行了微調(diào)。我們的方法在 Flickr1024 測(cè)試集上進(jìn)行了評(píng)估，并通過(guò)與其他單幅圖像和立體圖像超分辨率方法的比較來(lái)證明其有效性。

5.2 實(shí)驗(yàn)結(jié)果

本文的實(shí)驗(yàn)結(jié)果顯示，與其他狀態(tài)-藝術(shù)單幅圖像超分辨率方法和立體圖像超分辨率方法相比，作者的方法在多數(shù)測(cè)試數(shù)據(jù)集上表現(xiàn)更好。此外，作者的方法在視覺(jué)效果上也表現(xiàn)出眾，能夠顯著地恢復(fù)圖像的細(xì)節(jié)和紋理。

5.3 實(shí)驗(yàn)分析

本文介紹了一種基于多塊訓(xùn)練、數(shù)據(jù)增強(qiáng)和自我集成的立體圖像超分辨率方法，并引入了基于CNN的立體增強(qiáng)模塊來(lái)進(jìn)一步提高性能。實(shí)驗(yàn)表明這種方法可以有效地恢復(fù)圖像紋理和細(xì)節(jié)。其中，采用較大的接受域和窗口大小，以及自我集成策略可以進(jìn)一步提高性能。本文提出的多階段方法將基于Transformer的SISR方法和基于CNN的立體增強(qiáng)方法相結(jié)合，進(jìn)一步恢復(fù)了細(xì)節(jié)。

7 總結(jié)

本文介紹了混合Transformers和CNN注意力網(wǎng)絡(luò)（HTCAN），采用兩階段方法使用基于Transformers的SISR模塊和基于CNN的立體增強(qiáng)模塊來(lái)超分辨低分辨率立體圖像。作者提出的多補(bǔ)丁訓(xùn)練策略和大窗口大小增加了SISR階段激活的輸入像素?cái)?shù)量，使結(jié)果相較于原始的HAT-L架構(gòu)有0.05dB的收益。此外，作者的方法采用先進(jìn)的技術(shù)，包括數(shù)據(jù)增強(qiáng)，數(shù)據(jù)集成和模型集成，以在測(cè)試集上實(shí)現(xiàn)23.90dB的PSNR并贏得立體圖像超分辨率挑戰(zhàn)賽第一名。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7349

瀏覽量
95055
變換器

變換器

+關(guān)注

關(guān)注
17

文章
2187

瀏覽量
112767
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
156

瀏覽量
6963

原文標(biāo)題：CVPR2023 I 混合Transformers和CNN的注意力網(wǎng)絡(luò)用于立體圖像超分辨率

文章出處：【微信號(hào)：3D視覺(jué)工坊，微信公眾號(hào)：3D視覺(jué)工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

單張圖像超分辨率和立體圖像超分辨率的相關(guān)工作

評(píng)論