亚洲精品福利av,婷婷视频夜夜,日韩91国产一区二区

導(dǎo)讀

現(xiàn)有的基于CNN 的全景深度估計(jì)方法側(cè)重于消除全景失真，由于CNN中固定的接收?qǐng)?，無法有效地感知全景結(jié)構(gòu)。本文提出了一種360°全景定制的Transformer框架，可以很容易地遷移到全景視覺其他dense prediction任務(wù)上，比如全景圖像語義分割，無需改變?nèi)魏尉W(wǎng)絡(luò)結(jié)構(gòu)便能取得SOTA性能。

論文鏈接：

https://arxiv.org/pdf/2203.09283.pdf

代碼鏈接：

https://github.com/zhijieshen-bjtu/PanoFormer

文案：申志杰，廖康

PanoFormer簡(jiǎn)介圖

1. 研究背景及動(dòng)機(jī)

單目全景深度估計(jì)（monocular omnidirectional depth estimation, MODE）是三維場(chǎng)景理解中的一個(gè)子領(lǐng)域，其任務(wù)設(shè)定為給定一張360°全景RGB圖像，通過網(wǎng)絡(luò)建模推理得到對(duì)應(yīng)的360°深度圖，相較于立體視覺而言具有更好的便利性。

MODE使用更為常見的等距柱狀投影（ERP）全景圖作為輸入。這與正常的2D perspective圖像存在較大差異：ERP全景圖的360°視角增益是以畸變?yōu)榇鷥r(jià)，因此導(dǎo)致整幅圖像存在規(guī)律性的扭曲（畸變程度由圖片水平軸線向垂直邊逐漸增大）。受限于CNN有限的感受野和固定的采樣位置，這種畸變特性使得MODE具有獨(dú)立于傳統(tǒng)單目深度估計(jì)任務(wù)之外的挑戰(zhàn)性。

當(dāng)然，此前的一些工作提出基于CUBE和ERP投影的雙分支融合結(jié)構(gòu)來增強(qiáng)網(wǎng)絡(luò)對(duì)于大畸變區(qū)域的特征提取和建模能力，但需要注意的是，CUBE格式的全景圖在投影過程中會(huì)有25%像素的丟失，這直接導(dǎo)致CUBE分支深度圖的模糊。如此兩個(gè)分支的有限結(jié)果決定了其性能上限。為了解決像素?fù)p失這一問題，后續(xù)有工作提出基于旋轉(zhuǎn)CUBE設(shè)計(jì)雙分支結(jié)構(gòu)，一定程度上緩和了這一矛盾。

隨著Transformer網(wǎng)絡(luò)框架的興起，其獨(dú)特的long-range建模能力為解決大畸變問題提供了一個(gè)新的思路。但“拿來主義”真能行得通嗎？

2. 應(yīng)用挑戰(zhàn)

首先，我們回顧一下傳統(tǒng)的視覺Transformer在處理圖像時(shí)的步驟并分析一下其在ERP圖像上的應(yīng)用挑戰(zhàn)：

劃分patch

在以ERP格式作為輸入的前提下會(huì)有兩種劃分patch的方法：（1）直接等間距劃分patch；（2）將球面全景圖投影成重疊的perspective視口自然地作為patch。首先，直接劃分patch的方法會(huì)顯著破壞大畸變區(qū)域的結(jié)構(gòu)，而perspective視口可以將跨度非常大的物體投影回一個(gè)patch。這樣對(duì)比來看似乎后者更有趣且合理。

Patch->Embedding->Token

視覺Transformer中做位置嵌入是通過線性層壓縮特征維度實(shí)現(xiàn)的，那這種特征維度的壓縮對(duì)于深度估計(jì)這一類像素級(jí)回歸任務(wù)來說會(huì)不會(huì)造成信息的丟失，從而導(dǎo)致性能的下降？

位置嵌入

此前的一些工作指出，在視覺領(lǐng)域位置嵌入能夠貢獻(xiàn)的力量似乎并沒有很大，且比較雞肋，很多工作甚至直接摒棄了位置嵌入模塊，他們認(rèn)為網(wǎng)絡(luò)中所引入的卷積結(jié)構(gòu)會(huì)暗含位置信息。但考慮步驟1，如果我們采用perspective視口patch的劃分方式，其真實(shí)的空間位置已經(jīng)發(fā)生了改變，因此一個(gè)合適的位置嵌入策略在MODE中是迫切需要的。那么如何設(shè)計(jì)一個(gè)合理的位置嵌入方式呢？

Self-attention

自注意力模塊通過壓縮后的特征生成q, k, v依次查詢計(jì)算全局注意力，如果我們的embedding設(shè)計(jì)成像素級(jí)，將會(huì)帶來很大的計(jì)算復(fù)雜度，如何解決？

為了解決這些問題我們提出了一種360°全景定制的Transformer框架。

3. 方法

Spherical Token Locating Model (STLM)

劃分patch

如前所述，我們劃分patch可以盡可能地通過投影的方式劃分patch而不是直接在ERP圖上劃分。投影我們選擇CUBE格式的perspective視口。那么問題是，我們?nèi)绾芜x擇CUBE patch的切點(diǎn)？以及如何確定patch的大?。坎豢紤]計(jì)算復(fù)雜度，我們可以將每個(gè)像素點(diǎn)都作為一次切點(diǎn)，這樣信息會(huì)盡可能地全部保留。至于大小，我們?cè)谇懊嬗懻摿薈UBE投影的弊端之一是像素丟失，在這里我們還要討論一種弊端：對(duì)于CUBE投影面，理想情況下僅有CUBE的中心點(diǎn)（即切點(diǎn)）不存在畸變，除此之外，其他位置會(huì)呈現(xiàn)出由切點(diǎn)向四周逐漸增大的畸變趨勢(shì)?？紤]一種極端的情況，當(dāng)CUBE的大小收縮到極致，即每個(gè)CUBE面僅由中心切點(diǎn)及其周圍的八個(gè)點(diǎn)組成，CUBE面近似貼近球面，畸變影響降至最小。我們將此時(shí)的CUBE面稱為Tangent patch。

Embedding

從盡可能提高性能的角度出發(fā)，我們可以通過等價(jià)映射將每個(gè)像素點(diǎn)映射成一個(gè)Token。區(qū)別于傳統(tǒng)Transformer中將每個(gè)Patch嵌入為每個(gè)Token，我們直接將每個(gè)Tangent Patch上的采樣點(diǎn)當(dāng)作Token。直觀的理解，我們的patch和token都是手工劃分的，patch在我們的網(wǎng)絡(luò)中多為一種抽象的概念，我們直接的操作對(duì)象是Token（采樣點(diǎn)），即每個(gè)切點(diǎn)及其周圍的八個(gè)點(diǎn)。

位置嵌入

Tangent Patch是相對(duì)于球面而言，為了定義其空間位置屬性，我們將手工劃分的patch反投影到ERP圖上。注意在球面全景圖上每個(gè)patch由切點(diǎn)及其周圍的八個(gè)投影點(diǎn)組成，而在ERP圖上這種空間對(duì)應(yīng)關(guān)系發(fā)生了改變，由于畸變的存在，他們?cè)贓RP上幾乎不再相鄰。這種位置投影對(duì)應(yīng)關(guān)系恰恰提供了我們Transformer里面所需要的位置嵌入。

Panoramic Structure-guided Transformer (PST) block

計(jì)算注意力

首先如果我們像傳統(tǒng)Transformer那樣計(jì)算注意力，其計(jì)算開銷非常大，但得益于我們patch劃分方式和位置嵌入策略，我們似乎找到了其最相關(guān)的位置對(duì)應(yīng)關(guān)系，即切點(diǎn)token及與其最相關(guān)的8個(gè)token。那么我們可以僅僅通過計(jì)算切點(diǎn)token（或中心token）與這8個(gè)token的注意力即可。但問題如果這樣做，我們會(huì)犯了一個(gè)非常大的錯(cuò)誤，即把token的位置鎖死了，使得我們的網(wǎng)絡(luò)架構(gòu)喪失了傳統(tǒng)Transformer固有的靈活性。為了解決這一問題，我們提出了token flow的概念，即通過學(xué)習(xí)一個(gè)偏移來彌補(bǔ)其結(jié)構(gòu)上靈活性的喪失。意外之喜是，這種流式的概念可以使網(wǎng)絡(luò)更好地建模全景結(jié)構(gòu)這一重要的深度線索。

最后，我們基于設(shè)計(jì)的PST block構(gòu)建最終的PanoFormer網(wǎng)絡(luò)框架：

PanoFormer網(wǎng)絡(luò)架構(gòu)圖

4. 新指標(biāo)

為了突出模型對(duì)于大畸變區(qū)域的建模能力，我們通過選取6個(gè)CUBE投影面的上下兩個(gè)面來設(shè)計(jì)Pole-RMSE指標(biāo)。（注意此指標(biāo)的應(yīng)用的一個(gè)前提條件是全景相機(jī)水平放置，目前的流行的數(shù)據(jù)集大都遵循這一假設(shè)。）

考慮到ERP全景圖的特性，左右可以實(shí)現(xiàn)無縫拼接，我們提出LRCE指標(biāo)來反映模型的長(zhǎng)距離建模能力。

詳細(xì)計(jì)算過程請(qǐng)參考論文。

5. 實(shí)驗(yàn)結(jié)果

我們?cè)谒膫€(gè)主流的MODE數(shù)據(jù)集上對(duì)我們的模型進(jìn)行了評(píng)估，結(jié)果顯示我們的模型取得了更有競(jìng)爭(zhēng)力的結(jié)果。但由于Stanford2D3D以及Matterport3D數(shù)據(jù)集的固有缺陷導(dǎo)致我們沒有辦法在這兩個(gè)數(shù)據(jù)集上評(píng)測(cè)我們的新指標(biāo)（P-RMSE），因此我們?cè)谶@兩個(gè)數(shù)據(jù)集上只報(bào)道了MRE和MAE的指標(biāo)性能，這兩個(gè)指標(biāo)的計(jì)算參照SliceNet（CVPR'21）所開源的代碼執(zhí)行。此外，關(guān)于數(shù)據(jù)集的一些討論詳情見gihub代碼鏈接。

值得一提的是，PanoFormer可以很容易地遷移到全景視覺其他dense prediction任務(wù)上，比如全景圖像語義分割，無需改變?nèi)魏尉W(wǎng)絡(luò)結(jié)構(gòu)便能取得SOTA性能。

客觀指標(biāo)

主觀對(duì)比

全景語義分割客觀指標(biāo)

6. 局限性

關(guān)于更高分辨率的擴(kuò)展計(jì)算復(fù)雜度可能是我們工作的一個(gè)待提升的點(diǎn)。這可以通過在encoder階段增加下采樣層，在decoder階段增加插值操作得到緩解。此外，如果仔細(xì)觀察可以發(fā)現(xiàn)attention計(jì)算部分存在比較多重復(fù)計(jì)算的情況，這可能是優(yōu)化我們網(wǎng)絡(luò)的一個(gè)方向。

希望我們的工作可以為該領(lǐng)域帶來啟發(fā)。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

框架

框架

+關(guān)注

關(guān)注
0

文章
404

瀏覽量
18511
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1240

瀏覽量
26271
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
156

瀏覽量
6965

原文標(biāo)題：首個(gè)360°全景定制的單目深度估計(jì)Transformer-PanoFormer（ECCV 2022）

文章出處：【微信號(hào)：3D視覺工坊，微信公眾號(hào)：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

一種360°全景定制的Transformer框架

評(píng)論