日本久久精品有码视频,搞女生在线观看网站,日韩有码在线播放

主要內(nèi)容：

提出了一種新的基于學(xué)習(xí)的用于車輛上的視覺定位算法，該算法可以在城市規(guī)模的環(huán)境中實時運行。

算法設(shè)計了隱式姿態(tài)編碼，通過2個獨立的神經(jīng)網(wǎng)絡(luò)將圖像和相機姿態(tài)嵌入到一個共同的潛在表示中來計算每個圖像-姿態(tài)對的相似性得分。通過以分層的方式在潛在空間來評估候選者，相機位置和方向不是直接回歸的，而是逐漸細(xì)化的。算法占的存儲量非常緊湊且與參考數(shù)據(jù)庫大小無關(guān)。

Pipeline：

輸入為查詢圖像

輸出為查詢圖像的六自由度姿態(tài)（t，q）∈SE（3），t是平移向量，q是旋轉(zhuǎn)四元數(shù)。

訓(xùn)練是在帶有相機姿態(tài)label的數(shù)據(jù)庫圖像上進行訓(xùn)練，沒有用額外的場景3D模型。

先通過圖像編碼器計算表示圖像向量。然后通過評估分布在地圖上的初始姿態(tài)候選來搜索相機姿態(tài)。姿態(tài)編碼器對相機姿態(tài)進行處理以產(chǎn)生可以與圖像向量相匹配的潛在表示，每個候選姿態(tài)都會有一個基于到相機姿態(tài)的距離的分?jǐn)?shù)。高分提供了用于選擇新候選者的粗略定位先驗。通過多次重復(fù)這個過程使候選池收斂到實際的相機姿態(tài)。

論文技術(shù)點：

圖像編碼器：

使用圖像編碼器從輸入的查詢圖像計算圖像特征向量。

編碼器架構(gòu)包括一個預(yù)訓(xùn)練的CNN backbone，然后是全局平均池以及一個具有d個輸出神經(jīng)元的全連接層。

特征向量比圖像檢索中常用的全局圖像描述符小一個數(shù)量級（使用d=256）以便在隨后的步驟中將其與一大組姿態(tài)候選進行有效比較。

初始姿態(tài)候選：

起點是一組N個相機姿態(tài)，這是從參考姿態(tài)（=訓(xùn)練時相機姿態(tài)）中采樣。通過這種初始選擇為定位過程引入了先驗，類似于選擇錨點姿態(tài)。

姿態(tài)編碼器：

姿態(tài)候選通過一個神經(jīng)網(wǎng)絡(luò)處理，輸出潛在向量，這種隱式表示學(xué)習(xí)到了給定場景中的相機視點與圖像編碼器提供的特征向量之間的對應(yīng)關(guān)系。

首先使用傅立葉特征將相機姿態(tài)的每個分量（tx，ty，tz，qx，qy，qz，qw）投影到更高維度：

，因為它有助于具有低維輸入的網(wǎng)絡(luò)擬合高頻函數(shù)。然后使用具有4層256個神經(jīng)元和隱藏層為ReLU激活的MLP。每一組候選姿態(tài)都是在一次batch的前向傳遞中計算出來的。

相似性分?jǐn)?shù)：

為每個圖像-姿態(tài)對計算余弦相似性來獲得相似性得分s。

在點積之后添加一個ReLU層，使得s∈［0，1］。

直觀地說，其目標(biāo)是學(xué)習(xí)與實際相機姿態(tài)接近的候選姿態(tài)的高分。

有了這個公式后可以評估關(guān)于相機姿態(tài)的假設(shè)，并搜索得分高的姿態(tài)候選者。

相似性分?jǐn)?shù)定義為：

建議新的候選姿態(tài)：

基于在上一次迭代中使用的姿態(tài)候選獲得的分?jǐn)?shù)，為這一次迭代選擇新的姿態(tài)候選。

首先選擇得分最高的B=100的姿態(tài)

然后從（hi）中以高斯混合模型的方式對新的候選者進行采樣：

迭代姿態(tài)優(yōu)化：

在每次迭代之后，將噪聲向量除以2，使得新的候選者被采樣為更接近先前的高分。

因此可以在千米級地圖中收斂到精確的姿態(tài)估計，同時只評估有限的稀疏姿態(tài)集。在每個時間步長獨立評估每個相機幀，但可以使用以前時間步長的定位先驗來減少車輛導(dǎo)航場景中的迭代次數(shù)。

每次迭代時所選姿態(tài)的示例如圖2所示。通過對初始姿態(tài)的N個候選進行采樣，保留了一個恒定的記憶峰值。

姿態(tài)平均：

最終的相機姿態(tài)估計是256個得分較高的候選姿態(tài)的加權(quán)平均值，與直接選擇得分最高的姿態(tài)相比，它具有更好的效果。使用分?jǐn)?shù)作為加權(quán)系數(shù)，并實現(xiàn)3D旋轉(zhuǎn)平均。

損失函數(shù)：

通過計算參考圖像和以K種不同分辨率采樣的姿態(tài)候選者之間的分?jǐn)?shù)來訓(xùn)練網(wǎng)絡(luò)，

其中，st是基于相機姿態(tài)和候選姿態(tài)之間的平移和旋轉(zhuǎn)距離來定義。

實驗：

與最近的方法在幾個數(shù)據(jù)集上進行了比較，這些數(shù)據(jù)集涵蓋了大規(guī)模室外環(huán)境中的各種自動駕駛場景。

由于戶外環(huán)境的動態(tài)部分（移動物體、照明、遮擋等），這項任務(wù)極具挑戰(zhàn)性。

驗證了其算法能夠在9個不同的大型室外場景中進行精確定位。

然后展示了算法可以擴展到多地圖場景

Baseline：

將ImPosing與基于學(xué)習(xí)的方法進行比較。使用CoordiNet報告了牛津數(shù)據(jù)集上絕對姿態(tài)回歸結(jié)果作為基線。

將ImPosing與檢索進行比較，使用了NetVLAD和GeM，使用全尺寸圖像來計算全局圖像描述符，然后使用余弦相似度進行特征比較，然后對前20個數(shù)據(jù)庫圖像的姿態(tài)進行姿態(tài)平均。

沒有使用基于結(jié)構(gòu)的方法進行實驗，因為使用3D模型進行幾何推理，這些方法比更準(zhǔn)確，但由于存儲限制使得嵌入式部署變得困難。

在Oxford RobotCar和Daoxiang Lake數(shù)據(jù)集上的定位誤差比較

Daoxiang Lake是一個比Oxford RobotCar更具挑戰(zhàn)性的數(shù)據(jù)集，因為它的重復(fù)區(qū)域幾乎沒有判別特征，環(huán)境也多種多樣（城市、城郊、高速公路、自然等）。因此，圖像檢索的性能比姿態(tài)回歸差。ImPosing要準(zhǔn)確得多，并且顯示出比競爭對手小4倍的中值誤差。

在4Seasons數(shù)據(jù)集上的比較：

4Seasons數(shù)據(jù)集包含慕尼黑地區(qū)在不同季節(jié)條件下的各種場景（城市、居民區(qū)、鄉(xiāng)村）中記錄的數(shù)據(jù)。

因為是針對車輛部署的視覺定位算法，比較了各種算法的性能效率：

論文的算法只需要在設(shè)備中存儲神經(jīng)網(wǎng)絡(luò)權(quán)重和初始姿態(tài)候選，其中圖像編碼器為23MB，姿態(tài)編碼器小于1MB，初始姿態(tài)候選為1MB。

在圖3中報告了不同類別視覺定位方法的內(nèi)存占用相對于參考數(shù)據(jù)庫大小的縮放規(guī)律。這是有大量數(shù)據(jù)可用的自動駕駛場景中的一個重要方面。對于給定的地圖，基于學(xué)習(xí)的方法具有恒定的內(nèi)存需求，因為地圖信息嵌入在網(wǎng)絡(luò)權(quán)重中。

總結(jié)：

提出了一種新的視覺定位范式，通過使用地圖的隱式表示，將相機姿態(tài)和圖像特征連接在一個非常適合定位的潛在高維流形中。

證明了通過一個簡單的姿態(tài)候選采樣過程，能夠估計圖像的絕對姿態(tài)。

通過提供一種高效準(zhǔn)確的基于圖像的定位算法，該算法可以實時大規(guī)模操作，使其可以直接應(yīng)用于自動駕駛系統(tǒng)。

但是方法的準(zhǔn)確性在很大程度上取決于可用的訓(xùn)練數(shù)據(jù)的數(shù)量。而且與回歸的方法類似，其不會泛化到遠(yuǎn)離訓(xùn)練示例的相機位置。

提出的方法可以在許多方面進行改進，包括探索更好的姿態(tài)編碼器架構(gòu)；找到一種隱式表示3D模型的方法，將隱式地圖表示擴展到局部特征，而不是全局圖像特征。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
4013

瀏覽量
143437
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4844

瀏覽量
108203
算法

算法

+關(guān)注

關(guān)注
23

文章
4810

瀏覽量
98603

原文標(biāo)題：WACV 2023 | ImPosing：用于視覺定位的隱式姿態(tài)編碼

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

ImPosing：用于視覺定位的隱式姿態(tài)編碼

評論