日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于深度學(xué)習(xí)的視覺(jué)SLAM綜述

INDEMIND ? 來(lái)源:INDEMIND ? 作者:INDEMIND ? 2022-12-02 15:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著計(jì)算機(jī)視覺(jué)機(jī)器人技術(shù)的發(fā)展,視覺(jué)同時(shí)定位與地圖創(chuàng)建已成為無(wú)人系統(tǒng)領(lǐng)域的研究焦點(diǎn),深度學(xué)習(xí)在圖像處理方面展現(xiàn)出的強(qiáng)大優(yōu)勢(shì),為二者的廣泛結(jié)合創(chuàng)造了機(jī)會(huì)。總結(jié)了深度學(xué)習(xí)與視覺(jué)里程計(jì)、閉環(huán)檢測(cè)和語(yǔ)義同時(shí)定位與地圖創(chuàng)建結(jié)合的突出研究成果,對(duì)傳統(tǒng)算法與基于深度學(xué)習(xí)的方法做了對(duì)比,展望了基于深度學(xué)習(xí)的視覺(jué)同時(shí)定位與地圖創(chuàng)建發(fā)展方向。

01引言

同時(shí)定位與地圖創(chuàng)建(Simultaneous Localization and Mapping,SLAM),是指在陌生環(huán)境中,機(jī)器實(shí)現(xiàn)環(huán)境感知、理解和完成自身定位,以及路徑規(guī)劃[1-2]。在某些特殊場(chǎng)合可以代替人工,比如軍事,交通,服務(wù)業(yè)等領(lǐng)域。長(zhǎng)期以來(lái),定位是實(shí)現(xiàn)路徑規(guī)劃的前提,在定位時(shí),機(jī)器的首要任務(wù)是對(duì)周圍環(huán)境的感知,然后對(duì)其刻畫?,F(xiàn)有許多針對(duì)已知先驗(yàn)環(huán)境信息的機(jī)器自主定位和地圖創(chuàng)建的解決方法[1]。但是在大多情況下,事先獲取環(huán)境先驗(yàn)信息很困難,因此,需要機(jī)器在陌生環(huán)境中,移動(dòng)時(shí)一邊計(jì)算自身位置,一邊創(chuàng)建環(huán)境地圖[3]。這也促進(jìn)了SLAM的研究,隨著算法和傳感器的發(fā)展,SLAM研究近些年來(lái)取得了巨大突破。

SLAM本質(zhì)上是一個(gè)狀態(tài)估計(jì)問(wèn)題,根據(jù)傳感器做劃分,主要是激光、視覺(jué)兩大類。激光SLAM的研究在理論和工程上都比較成熟,現(xiàn)有的很多行業(yè)已經(jīng)開(kāi)始使用激光SLAM完成工業(yè)工作;而視覺(jué)SLAM (Visual SLAM,VSLAM)是將圖像作為主要環(huán)境感知信息源的SLAM系統(tǒng),VSLAM以計(jì)算相機(jī)位姿為主要目標(biāo),通過(guò)多視幾何方法構(gòu)建3D地圖[4],視覺(jué)SLAM還處于實(shí)驗(yàn)室研究階段,實(shí)際應(yīng)用較少。SLAM系統(tǒng)的處理過(guò)程一般都是分為2個(gè)階段:幀間估計(jì)和后端優(yōu)化[5],這種處理方式是由PTAM[6]首先提出并實(shí)現(xiàn)的,它區(qū)分出前后端完成特征點(diǎn)跟蹤和建圖的并行化,前端跟蹤需要實(shí)時(shí)響應(yīng)圖像數(shù)據(jù),地圖優(yōu)化放在后端進(jìn)行,后續(xù)許多視覺(jué)SLAM系統(tǒng)設(shè)計(jì)也采取類似的結(jié)構(gòu)[5]。另外,PTAM也是第一個(gè)在后端優(yōu)化使用非線性優(yōu)化的系統(tǒng),提出了關(guān)鍵幀(keyframes)機(jī)制,不用精細(xì)處理每一幅圖像,而是把幾個(gè)關(guān)鍵圖像串起來(lái)優(yōu)化其軌跡和地圖。在整個(gè)SLAM系統(tǒng)中,幀間估計(jì)是根據(jù)相鄰兩幀間的傳感器信息獲取該時(shí)間間隔內(nèi)的運(yùn)動(dòng)估計(jì),后端優(yōu)化指對(duì)之前幀間估計(jì)產(chǎn)生的路徑累積漂移誤差做優(yōu)化,解決機(jī)器檢測(cè)到路徑閉環(huán)后歷史軌跡的優(yōu)化問(wèn)題。與激光SLAM相比,視覺(jué)SLAM對(duì)色彩和紋理等信息更敏感,在提高幀間的估計(jì)精度和閉環(huán)檢測(cè)方面有巨大潛力。

傳統(tǒng)的VSLAM分為特征點(diǎn)法和直接法。特征點(diǎn)法從每幀圖片中提取分布均勻的角點(diǎn)和周圍的描述子,通過(guò)這些角點(diǎn)周圍的描述子的不變性完成幀間匹配,接下來(lái)使用對(duì)極幾何恢復(fù)相機(jī)姿態(tài)并確定地圖坐標(biāo),最終根據(jù)最小化重投影誤差完成相機(jī)位姿和地圖的微調(diào)[7]。而直接法是根據(jù)光度誤差確定相機(jī)位姿和地圖的,不用提取角點(diǎn)和描述子,正因?yàn)檫@樣,直接法不能表征一張圖像的全局特征,直接法的閉環(huán)檢測(cè)面臨的累積漂移的消除問(wèn)題一直沒(méi)有得到很好的解決[8]。

傳統(tǒng)的VSLAM方法仍面對(duì)以下幾個(gè)問(wèn)題:

(1) 對(duì)光照較為敏感,在光照條件惡劣或者光照情況復(fù)雜的環(huán)境中魯棒性不高;

(2) 相機(jī)運(yùn)動(dòng)幅度較大時(shí),傳統(tǒng)方法的特征點(diǎn)追蹤容易丟失;

(3) 對(duì)于場(chǎng)景中的動(dòng)態(tài)對(duì)象的處理不夠理想;

(4) 計(jì)算量大,系統(tǒng)響應(yīng)較慢。

近些年,計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)相互結(jié)合,促使視覺(jué)相關(guān)任務(wù)的準(zhǔn)確率、執(zhí)行效率以及魯棒性等實(shí)際表現(xiàn)得到了巨大提升,比如實(shí)例分類[9]、對(duì)象檢測(cè)[10]、行為識(shí)別[11]等領(lǐng)域的表現(xiàn)。VSLAM系統(tǒng)以計(jì)算機(jī)視覺(jué)為基礎(chǔ),這為神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域的應(yīng)用提供了很大的發(fā)揮空間。將深度學(xué)習(xí)與VSLAM結(jié)合,有以下優(yōu)勢(shì):

(1) 基于深度學(xué)習(xí)的VSLAM系統(tǒng)有很強(qiáng)的泛化能力,可以在光線復(fù)雜的環(huán)境中工作;

(2) 對(duì)于動(dòng)態(tài)物體的識(shí)別和處理更加有效;

(3) 采用數(shù)據(jù)驅(qū)動(dòng)的方式,對(duì)模型進(jìn)行訓(xùn)練,更符合人類與環(huán)境交互的規(guī)律。有很大的研究和發(fā)展空間;

(4) 采用神經(jīng)網(wǎng)絡(luò)可以更好地將圖像信息與其他傳感器地?cái)?shù)據(jù)融合,優(yōu)化幀間漂移;

(5) 更高效地提取語(yǔ)義信息,有益于語(yǔ)義SLAM[12]的構(gòu)建和場(chǎng)景語(yǔ)義的理解;

(6) 端到端的VSLAM,舍去前端點(diǎn)跟蹤、后端優(yōu)化求解的一系列過(guò)程,直接輸入圖像給出位姿估計(jì)。

深度學(xué)習(xí)一般用在VSLAM系統(tǒng)的一個(gè)或多個(gè)環(huán)節(jié),基于前述分析,本文對(duì)基于深度學(xué)習(xí)的VSLAM方法做了廣泛調(diào)研。主要針對(duì)基于深度學(xué)習(xí)的視覺(jué)里程計(jì)[13-14]、閉環(huán)檢測(cè)[15-16]和語(yǔ)義SLAM做出了綜述,并討論了基于深度學(xué)習(xí)的VSLAM的研究方向和發(fā)展趨勢(shì)。

02VSLAM與深度學(xué)習(xí)的相關(guān)結(jié)合

VSLAM可以構(gòu)建周圍環(huán)境的3D地圖,并計(jì)算相機(jī)的位置和方向。深度學(xué)習(xí)和SLAM的結(jié)合是近幾年比較熱的一個(gè)研究方向,常用深度學(xué)習(xí)方法替換傳統(tǒng)SLAM中的一個(gè)或幾個(gè)模塊。

2.1深度學(xué)習(xí)與視覺(jué)里程計(jì)

移動(dòng)機(jī)器人完成自主導(dǎo)航,首先需要確定自身的位置和姿態(tài),即定位。視覺(jué)里程計(jì)(Visual Odometry,VO)通過(guò)跟蹤相鄰圖像幀間的特征點(diǎn)估計(jì)相機(jī)的運(yùn)動(dòng),并對(duì)環(huán)境進(jìn)行重建。VO大多借助計(jì)算幀間的運(yùn)動(dòng)估計(jì)當(dāng)前幀的位姿。基于深度學(xué)習(xí)的視覺(jué)里程計(jì),無(wú)需復(fù)雜的幾何運(yùn)算,端到端的運(yùn)算形式使得基于深度學(xué)習(xí)的方法更簡(jiǎn)潔。

Daniel和Malisiewicz[17]提出的網(wǎng)絡(luò)架構(gòu)完成點(diǎn)跟蹤,得到相鄰幀間的單應(yīng)性。如圖1所示,該模型主要特點(diǎn)是利用2個(gè)CNN[18]的協(xié)作生成單應(yīng)性矩陣,完成相機(jī)位姿的估計(jì)。第一個(gè)稱為MagicPoint網(wǎng)絡(luò),提取單張圖像的顯著點(diǎn),網(wǎng)絡(luò)采用類似VGG[9]風(fēng)格的結(jié)構(gòu),對(duì)灰度圖進(jìn)行運(yùn)算,并為每個(gè)像素輸出一個(gè)“點(diǎn)”概率,在最后生成的張量中每個(gè)空間位置代表分布在一個(gè)局部8×8區(qū)域的概率,加上一個(gè)沒(méi)有被檢測(cè)點(diǎn)的垃圾通道,再通過(guò)上采樣生成帶特征點(diǎn)標(biāo)記的熱圖。第二個(gè)名為MagicWarp,對(duì)MagicPoint的輸出進(jìn)行操作,結(jié)構(gòu)與第一個(gè)網(wǎng)絡(luò)類似,將卷積后的兩幀圖片對(duì)應(yīng)的張量連接起來(lái),通過(guò)特征點(diǎn)的匹配來(lái)獲取單應(yīng)性矩陣,然后估計(jì)跟輸入有關(guān)的單應(yīng)性。系統(tǒng)速度快且規(guī)模小,可以在單核CPU達(dá)到每秒處理30幀的速度。模型在訓(xùn)練之前,手工標(biāo)定了一個(gè)包含各種特征點(diǎn)的數(shù)據(jù)集,比如:角,邊,以及幾何特征不明顯的曲線等特征,用于訓(xùn)練MagicPoint,為了MagicWarp參數(shù)的學(xué)習(xí),設(shè)計(jì)了一個(gè)基于點(diǎn)云的三維相機(jī)運(yùn)動(dòng)軌跡的數(shù)據(jù)集,實(shí)現(xiàn)從三維向二維空間的映射,找到相鄰幀間相機(jī)位姿的變化矩陣,發(fā)現(xiàn)特征點(diǎn)的單應(yīng)性,這樣也更符合人類的感知。但是該模型不得不面對(duì)的一個(gè)問(wèn)題是它只能追蹤相鄰兩幀圖像的低級(jí)特征點(diǎn),完成位姿估計(jì),由于對(duì)上下文環(huán)境信息沒(méi)有記憶,所以得到結(jié)果精度還有待提高。

b936ecf4-71f5-11ed-8abf-dac502259ad0.jpg

圖1MagicPoint和MagicWarp結(jié)構(gòu)[17]Fig. 1MagicPoint and MagicWarp[17]

雖然深度學(xué)習(xí)已經(jīng)成為解決很多計(jì)算機(jī)視覺(jué)問(wèn)題的主流方法,并取得了不錯(cuò)的效果,但是關(guān)于VO的研究非常有限,尤其在三維幾何問(wèn)題上。因?yàn)楝F(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)訓(xùn)練模型大多是為了解決識(shí)別和分類問(wèn)題而設(shè)計(jì)的,這也就驅(qū)使深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從圖像中提取更高層次的外觀信息。學(xué)習(xí)圖像的表象特征,限制了VO只在經(jīng)過(guò)訓(xùn)練的環(huán)境中發(fā)揮作用,這也是傳統(tǒng)VO算法嚴(yán)重依賴幾何特征而不是外觀特征的原因。同時(shí),運(yùn)動(dòng)是一個(gè)連續(xù)的變化過(guò)程,理想的VO算法應(yīng)該針對(duì)一系列圖像的變化和連接來(lái)建模,而不是處理單個(gè)圖像,這也意味著我們要對(duì)圖像序列學(xué)習(xí)。

相較于MagicPoint和MagicWarp僅針對(duì)兩幀圖像的基礎(chǔ)幾何特征完成單應(yīng)性估計(jì),Wang等[19]針對(duì)圖像序列提出了一種基于深度學(xué)習(xí)的單目VO的DeepVO算法,如圖2所示,直接從原始RGB圖像提取實(shí)例表征完成姿態(tài)估計(jì)。證明了單目VO問(wèn)題可以通過(guò)基于深度學(xué)習(xí)端到端的方式高效解決,提出了一個(gè)RCNN[20]架構(gòu),利用CNN學(xué)習(xí)到的實(shí)例表征表示,使基于深度學(xué)習(xí)的VO算法能夠適應(yīng)全新的環(huán)境,對(duì)于圖像序列的序列依賴性和復(fù)雜運(yùn)動(dòng),利用深度遞歸神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)隱式封裝和自動(dòng)學(xué)習(xí)。DeepVO由基于CNN的特征提取和基于RNN[21]的特征序列模型兩部分組成。提出端到端的VO系統(tǒng)架構(gòu),如圖2所示,以視頻剪輯或單目圖像序列作為輸入,每個(gè)時(shí)間戳內(nèi),通過(guò)RGB圖像幀減去訓(xùn)練集的平均RGB值進(jìn)行預(yù)處理,將2幅連續(xù)的圖像疊加在一起,形成一個(gè)張量,訓(xùn)練深度RCNN提取運(yùn)動(dòng)信息和估計(jì)姿態(tài)。采用長(zhǎng)短時(shí)記憶(LSTM[22])作為RNN,它通過(guò)引入記憶門和記憶單元來(lái)學(xué)習(xí)上下文依賴關(guān)系。具體來(lái)說(shuō),將圖像張量輸入CNN,生成一個(gè)有效的單目VO特征,然后通過(guò)LSTM進(jìn)行序列學(xué)習(xí),每個(gè)圖像對(duì)在通過(guò)網(wǎng)絡(luò)的每個(gè)時(shí)間戳產(chǎn)生一個(gè)位姿估計(jì)。CNN部分使用非線性單元(ReLU)激活,獲取顯著特征,使用0-padding保留卷積后張量的空間維數(shù)。每個(gè)時(shí)刻使用LSTM更新?tīng)顟B(tài)狀態(tài),為了學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的超參θ,損失函數(shù)由位置向量p和角度變量φ組成的均方誤差構(gòu)成:

b9637c74-71f5-11ed-8abf-dac502259ad0.jpg

(1)

式中:||·||為2范數(shù);κ是一個(gè)比例因子用來(lái)平衡位置和角度的權(quán)重;N為樣本數(shù)量;角度φ用歐拉角定義。他們采用的這種VO方法它不依賴于位姿估計(jì)的傳統(tǒng)VO,通過(guò)將CNN和RNN相結(jié)合,實(shí)現(xiàn)了VO的特征提取和序列建模的同時(shí)進(jìn)行,無(wú)需對(duì)VO系統(tǒng)的參數(shù)進(jìn)行仔細(xì)調(diào)整。

b97859b4-71f5-11ed-8abf-dac502259ad0.jpg

圖2DeepVO網(wǎng)絡(luò)結(jié)構(gòu)[19]Fig. 2Architecture of DeepVO[19]

針對(duì)DeepVO這類數(shù)據(jù)驅(qū)動(dòng)的網(wǎng)絡(luò),常對(duì)于隱藏在數(shù)據(jù)背后的規(guī)律比較敏感,所以對(duì)于類似標(biāo)簽誤差這種信息干擾,DeepVO具備良好的魯棒性及擬合能力,體現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)模型的一個(gè)顯著優(yōu)勢(shì)。雖然基于深度學(xué)習(xí)的VO方法在相機(jī)的位姿估計(jì)方面得到了一些結(jié)果,但是目前還不能取代基于幾何的方法,深度學(xué)習(xí)方法是一個(gè)可行的補(bǔ)充,把幾何用深度神經(jīng)網(wǎng)絡(luò)的特征表示、知識(shí)以及模型做有機(jī)結(jié)合,進(jìn)一步提高VO的準(zhǔn)確性和魯棒性是目前可以預(yù)見(jiàn)的發(fā)展方向。

2.2深度學(xué)習(xí)與閉環(huán)檢測(cè)

閉環(huán)檢測(cè)應(yīng)用在機(jī)器人建圖環(huán)節(jié),新采集到一張圖像,判斷它是否在圖像序列中出現(xiàn)過(guò),即確定機(jī)器人是否進(jìn)入某同一歷史地點(diǎn),或者在特征點(diǎn)配準(zhǔn)丟失后重新獲取一個(gè)初始位置。高效的閉環(huán)檢測(cè)是SLAM精確求解的基礎(chǔ),幀間匹配主要集中在誤差累積的消除,圖優(yōu)化算法能夠有效地降低累計(jì)誤差。閉環(huán)檢測(cè)實(shí)質(zhì)上是場(chǎng)景的識(shí)別問(wèn)題,傳統(tǒng)SLAM的閉環(huán)檢測(cè)通過(guò)手工提取的稀疏特征或者像素稠密的特征完成匹配,深度學(xué)習(xí)則采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖片深層次特征的方法,場(chǎng)景識(shí)別率的表現(xiàn)更好。所以,基于深度學(xué)習(xí)的場(chǎng)景識(shí)別方法能夠有效提升閉環(huán)檢測(cè)的準(zhǔn)確率[23]。

許多研究人員針對(duì)閉環(huán)檢測(cè)問(wèn)題在網(wǎng)絡(luò)訓(xùn)練和數(shù)據(jù)處理方面做了部分優(yōu)化。比如文獻(xiàn)[24]提出的方法不是直接對(duì)整幅圖像做特征提取,而是根據(jù)預(yù)訓(xùn)練的網(wǎng)絡(luò)提取圖像中的路標(biāo)區(qū)域,然后通過(guò)ConvNet[27]計(jì)算每塊區(qū)域的特征并將其壓縮,完成路標(biāo)區(qū)域的特征匹配之后,利用各個(gè)路標(biāo)區(qū)域的相似性來(lái)計(jì)算全局圖像之間的相似性,為了降低假陽(yáng)性出現(xiàn)的概率,模型把路標(biāo)區(qū)域框的范圍作為監(jiān)督條件。該方法顯著提升了面對(duì)場(chǎng)景中視點(diǎn)變化或局部遮擋的魯棒性。

為了提高閉環(huán)檢測(cè)的準(zhǔn)確率和效率,Yi等[25]提出了一種BoCNF的特征詞袋匹配方法,該方法以視覺(jué)詞袋法為基礎(chǔ),將CNN提取到的特征建立視覺(jué)詞袋,通過(guò)Hash隨機(jī)映射[26]將降維的視覺(jué)詞和詞袋特征關(guān)聯(lián),實(shí)現(xiàn)快速準(zhǔn)確的場(chǎng)景識(shí)別。

BoCNF基于BoW (Bag of Visual Word)的想法將提取的視覺(jué)特征量化為離線的視覺(jué)詞匯的視覺(jué)詞,然后構(gòu)建用于在線檢索匹配圖像的倒排索引,如圖3所示。與其他基于BoW的算法類似,他們的框架包括離線階段和在線階段,每個(gè)階段包括2個(gè)部分。在離線和在線階段的開(kāi)始,數(shù)據(jù)庫(kù)圖像或查詢圖像的ConvNet功能分兩步提?。旱貥?biāo)檢測(cè)和ConvNet特征提取[23]。離線階段,將數(shù)據(jù)庫(kù)圖像的ConvNet特征提取并把它們量化為視覺(jué)詞之后,執(zhí)行倒排索引構(gòu)建,將視覺(jué)詞鏈接到數(shù)據(jù)庫(kù)圖像。在線階段,在將查詢圖像的ConvNet特征提取并將其量化為視覺(jué)詞之后,在稱為粗略匹配的階段中,首先使用倒排索引檢索前K候選數(shù)據(jù)庫(kù)圖像,隨后精細(xì)匹配執(zhí)行通過(guò)基于Hash的投票方案在前K個(gè)候選者中找到與查詢圖像的最終匹配。

b99e1ba4-71f5-11ed-8abf-dac502259ad0.jpg

圖3BoCNF特征匹配流程[25]Fig. 3Generation process of node-link graph[25]

深度VSLAM采用學(xué)習(xí)的方式,以后的發(fā)展與人類的感知和思考方式會(huì)更加相似。文獻(xiàn)[28]構(gòu)建的模型的輸入為圖像序列,第一步根據(jù)Local Pose Estimation Network[29]計(jì)算圖像間的相對(duì)位姿,然后通過(guò)位姿聚合方法壓縮相對(duì)位姿信息,把計(jì)算結(jié)果輸入到Neural Graph Optimization網(wǎng)絡(luò),輸出相對(duì)位姿的全局絕對(duì)位姿信息,通過(guò)Soft Attention模型提取關(guān)鍵信息,生成各幀之間的相似性矩陣,利用相似性矩陣完成SLAM中的閉環(huán)檢測(cè),輸出整個(gè)的路徑地圖,把模型的輸出與真實(shí)路徑的差異作為損失函數(shù)。該方法在模擬環(huán)境中表現(xiàn)優(yōu)秀,證明了Soft Attention[30]模型在閉環(huán)檢測(cè)環(huán)節(jié)的作用。根據(jù)觀察該模型的實(shí)驗(yàn)表現(xiàn),在實(shí)際環(huán)境中沒(méi)有達(dá)到預(yù)期的效果,但是端到端的學(xué)習(xí)模式,和整個(gè)模型的數(shù)據(jù)處理過(guò)程,符合人類的感知過(guò)程,未來(lái)有很大的發(fā)展空間。

2.3深度學(xué)習(xí)與語(yǔ)義SLAM

語(yǔ)義SLAM在建圖過(guò)程中獲取環(huán)境幾何信息的同時(shí),識(shí)別環(huán)境里的獨(dú)立對(duì)象,獲取其位置、姿態(tài)和個(gè)體輪廓等語(yǔ)義信息擴(kuò)展了傳統(tǒng)SLAM問(wèn)題的研究?jī)?nèi)容,將一些語(yǔ)義信息集成到SLAM的研究中,以應(yīng)對(duì)復(fù)雜場(chǎng)景的要求[31]。其實(shí)語(yǔ)義特征,本質(zhì)上把局部特征進(jìn)一步歸納,達(dá)到人類可以理解的分類層面。

在深度學(xué)習(xí)算法流行之前,物體識(shí)別方向評(píng)價(jià)最好的Bag of Visual Word算法將之前數(shù)據(jù)處理提取的SIFT[32]等特征融合成復(fù)雜且全面的特征,再送到分類器進(jìn)行分類。其實(shí)對(duì)于深度學(xué)習(xí)方法,圖像的語(yǔ)義表征也是一層層抽象的,根據(jù)對(duì)神經(jīng)網(wǎng)絡(luò)各層輸出進(jìn)行可視化的結(jié)果,我們發(fā)現(xiàn)底層網(wǎng)絡(luò)中提取出的特征大部分是點(diǎn)線等的低層語(yǔ)義,中間層的網(wǎng)絡(luò)將圖像特征抽象為一些標(biāo)識(shí)物的局部部件,而在頂層的圖像特征上升到了物體的級(jí)別,逐層特征提取抽象,這是神經(jīng)網(wǎng)絡(luò)的又一突出優(yōu)勢(shì)。

Lei等[33]以對(duì)象分類、語(yǔ)義分割為基準(zhǔn),提出了基于八叉樹(shù)的球形卷積核CNN,用于處理3D點(diǎn)云數(shù)據(jù)。將圖片轉(zhuǎn)換成原始點(diǎn)云,并基于八叉樹(shù)的結(jié)構(gòu)做空間劃分,把球形卷積核作用到網(wǎng)絡(luò)的每一層,對(duì)特征實(shí)現(xiàn)分層下采樣,球形卷積核把點(diǎn)xi附近的空間劃分為多個(gè)體積小塊。針對(duì)第j個(gè)鄰接點(diǎn)xj,卷積核首先確定其對(duì)應(yīng)的體積小塊,并通過(guò)該小塊的權(quán)重矩陣Wk來(lái)計(jì)算激活值。該模型對(duì)特征分層下采樣并根據(jù)空間分區(qū)構(gòu)建3D鄰域,代替常用的K-NN[34]范圍搜索,一定程度上減少了計(jì)算和存儲(chǔ)成本,適合高分辨率輸入。通過(guò)神經(jīng)元和3D點(diǎn)空間位置的對(duì)應(yīng)關(guān)系確定該點(diǎn)需要使用的球形卷積核,根據(jù)這種關(guān)聯(lián)避免訓(xùn)練過(guò)程中生成動(dòng)態(tài)卷積核,達(dá)到高效、高分辨率的點(diǎn)云學(xué)習(xí)。

目前的語(yǔ)義SLAM研究還處于初級(jí)階段,但其前景廣闊。語(yǔ)義SLAM的難點(diǎn)在于誤差函數(shù)的設(shè)定,將深度學(xué)習(xí)的檢測(cè)或分割結(jié)果作為一個(gè)觀測(cè)值,融入SLAM的優(yōu)化問(wèn)題中一起聯(lián)合優(yōu)化,同時(shí)還需要做到GPU的實(shí)時(shí)[35]。

Girisha等[36]針對(duì)無(wú)人機(jī)航拍視頻提出了一種語(yǔ)義解析的方法。如圖4所示,鏡頭邊界檢測(cè)算法首先用于識(shí)別關(guān)鍵幀,隨后,通過(guò)使用U-Net[37],對(duì)這些關(guān)鍵幀執(zhí)行語(yǔ)義分割,航拍數(shù)據(jù)頻率為29 fps,每個(gè)連續(xù)幀之間變化是微小的,因此,使用鏡頭邊界檢測(cè)算法來(lái)識(shí)別關(guān)鍵幀,以便于單幀和幀與幀之間的分析。而關(guān)鍵幀識(shí)別的過(guò)程,目的是從連續(xù)幀中識(shí)別出鏡頭邊界,并且將整個(gè)模塊用關(guān)鍵幀表示。通過(guò)將每一幀劃分為16×16大小的非重疊網(wǎng)格來(lái)識(shí)別每一幀的鏡頭邊界。采用卡方距離計(jì)算相鄰兩幀之間相應(yīng)的網(wǎng)格直方圖差:

b9c510d8-71f5-11ed-8abf-dac502259ad0.jpg

(2)


式中:Hi為第i幀直方圖;Hi+1為第(i+1+幀直方圖;I為兩幀中同一位置的圖像塊。連續(xù)兩幀之間的直方圖平均差計(jì)算如下:

b9db8c96-71f5-11ed-8abf-dac502259ad0.jpg

(3)

式中:D為連續(xù)兩幀的平均直方圖差;dk為第k個(gè)圖像塊之間的卡方差;N為圖像中圖像塊的總數(shù)。在直方圖差異大于閾值Tshot的幀上識(shí)別鏡頭邊界,利用語(yǔ)義分割算法對(duì)識(shí)別出的關(guān)鍵幀進(jìn)行進(jìn)一步處理,識(shí)別出場(chǎng)景中出現(xiàn)的各種對(duì)象(綠化、道路)。U-Net利用contracting path中提取的特征進(jìn)行反卷積完成區(qū)域定位,在contracting path實(shí)現(xiàn)卷積運(yùn)算,然后再通過(guò)ReLU激活函數(shù)提取特征。改進(jìn)后的網(wǎng)絡(luò)可以處理256×256大小的彩色圖像(RGB),而不僅僅是灰度圖像,這是通過(guò)在每一層使用3D卷積操作來(lái)實(shí)現(xiàn)的。除了最大池化操作,每個(gè)層還考慮填充,以保留最相關(guān)的特性,以便進(jìn)一步處理。另外,Bowman等[38]提出了一種將尺度信息和語(yǔ)義信息融合的理論框架,在語(yǔ)義SLAM的概率數(shù)據(jù)融合上做的工作具有創(chuàng)新性,引入EM估計(jì)[39]把語(yǔ)義SLAM轉(zhuǎn)換成概率問(wèn)題,優(yōu)化目標(biāo)仍然是常用的重投影誤差。

b9f10184-71f5-11ed-8abf-dac502259ad0.jpg

圖4修改后的U-Net結(jié)構(gòu)[37]Fig. 4Modified U-Net structure[37]

03深度學(xué)習(xí)方法與傳統(tǒng)VSLAM對(duì)比

用深度學(xué)習(xí)做端到端的VSLAM非常直接,能夠繞開(kāi)許多傳統(tǒng)VSLAM系統(tǒng)中極為麻煩的環(huán)節(jié),如外參標(biāo)定、多傳感器頻率的匹配,同時(shí)可以避開(kāi)前后端算法中一些棘手的問(wèn)題。結(jié)合深度學(xué)習(xí)作為一種新的VSLAM實(shí)現(xiàn)方法有很強(qiáng)的理論意義,但是端到端VSLAM的問(wèn)題也非常明顯,如表1所示。

表1VSLAM算法與基于深度學(xué)習(xí)的VSLAM方法的對(duì)比Tab. 1Comparison between traditional VSLAM algorithm and VSLAM method based on deep learning

ba39ee76-71f5-11ed-8abf-dac502259ad0.jpg

VSLAM這樣一個(gè)包含很多幾何模型數(shù)學(xué)的問(wèn)題,通過(guò)深度學(xué)習(xí)去端到端解決,使用數(shù)據(jù)驅(qū)動(dòng)的形式去學(xué)習(xí),在原理上是完全沒(méi)有依據(jù)的,而且也沒(méi)理由能得到高精度解。另一個(gè)很大的問(wèn)題是模型的泛化性很難得到保證,傳統(tǒng)的VSLAM系統(tǒng)通常是一個(gè)很復(fù)雜的結(jié)構(gòu),從前端到后端每一步操作都有明確的目的,傳統(tǒng)方法每個(gè)環(huán)節(jié)都有詳細(xì)的數(shù)學(xué)理論作支撐,具備很強(qiáng)的可解釋性,但是需要仔細(xì)挑選參數(shù)。而用高度依賴數(shù)據(jù)的深度學(xué)習(xí)去近似VSLAM系統(tǒng),對(duì)于某些數(shù)據(jù)集可能產(chǎn)生不錯(cuò)的效果,換個(gè)場(chǎng)景可能就不那么敏感了,但是如果數(shù)據(jù)集足夠大的話,神經(jīng)網(wǎng)絡(luò)還是能夠展現(xiàn)其在數(shù)據(jù)上極強(qiáng)的適應(yīng)性,所以數(shù)據(jù)集的體積對(duì)神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率是一個(gè)重要的影響因子。

傳統(tǒng)的VSLAM仍然面臨著對(duì)環(huán)境的適應(yīng)性問(wèn)題,深度學(xué)習(xí)有望在這方面發(fā)揮較大的作用。目前,深度學(xué)習(xí)已經(jīng)在語(yǔ)義地圖、重定位、回環(huán)檢測(cè)、特征點(diǎn)提取與匹配以及端到端的視覺(jué)里程計(jì)等問(wèn)題上完成了相關(guān)工作,但對(duì)于某些特殊場(chǎng)景的應(yīng)用需求,還需要進(jìn)一步的發(fā)展。

為了更詳細(xì)的表現(xiàn)深度VSLAM對(duì)數(shù)據(jù)的適應(yīng)性,這里我們使用KITTI數(shù)據(jù)集的單目序列對(duì)幾種現(xiàn)有計(jì)算VSLAM的VO解的結(jié)果做了簡(jiǎn)要對(duì)比,如表2所示。

表2傳統(tǒng)VSLAM算法與基于深度學(xué)習(xí)VSLAM方法關(guān)于VO的準(zhǔn)確度在KITTI數(shù)據(jù)集上的對(duì)比Tab. 2Comparison of accuracy of VO in KITTI dataset between traditional VSLAM algorithm and VSLAM method based on deep learning

ba5a97ac-71f5-11ed-8abf-dac502259ad0.jpg

VO作為VSLAM系統(tǒng)中必不可少的一環(huán),目的是為了獲取局部穩(wěn)定的運(yùn)動(dòng)軌跡,從而減輕后端優(yōu)化以及閉環(huán)檢測(cè)的壓力。我們將深度學(xué)習(xí)的方法,如DF-VO、SfM-Learner、CNN-SVO和基于幾何的方法,如ORB-SLAM2、DSO、VISO2進(jìn)行對(duì)比,然而,對(duì)于深度學(xué)習(xí)方法,一個(gè)有趣的結(jié)果是,除了深度模型外,參與測(cè)試的基于幾何方法在序列01上特征點(diǎn)跟蹤的表現(xiàn)并不好,這表明深度模型可以作為幾何方法的補(bǔ)充,在未來(lái)的設(shè)計(jì)中,可以通過(guò)深度學(xué)習(xí)與幾何方法的結(jié)合來(lái)克服幾何方法的失敗情形。此外,與幾何方法相比,深度VSLAM方法具有更好的相對(duì)姿態(tài)估計(jì)。在長(zhǎng)序列評(píng)價(jià)中,針對(duì)尺度漂移問(wèn)題,ORB-SLAM2表現(xiàn)出較少的旋轉(zhuǎn)漂移,但產(chǎn)生較高的平移漂移,尺度漂移問(wèn)題,有時(shí)這個(gè)問(wèn)題可以通過(guò)閉環(huán)檢測(cè)來(lái)解決。使用尺度一致的深度預(yù)測(cè)進(jìn)行尺度恢復(fù),這在大多數(shù)單目VO/SLAM系統(tǒng)中緩解了這個(gè)問(wèn)題。結(jié)果表明,該方法在長(zhǎng)序列上具有較小的平移漂移。更重要的是,深度學(xué)習(xí)VO表現(xiàn)出更小的相對(duì)位姿誤差,這使深度VO方法成為幀到幀跟蹤的健壯模塊。

傳統(tǒng)VSLAM方法過(guò)于依賴低級(jí)別幾何特征,例如點(diǎn)、邊和平面,僅憑低級(jí)特征很難對(duì)環(huán)境中觀察到的標(biāo)志物作語(yǔ)義表征。而深度學(xué)習(xí)方法的輸入可以是原始的RGB圖像,不像光流或者深度圖像這種經(jīng)過(guò)預(yù)處理的數(shù)據(jù)輸入,因?yàn)榫W(wǎng)絡(luò)可以學(xué)習(xí)一種有效的特征表示方法,這種學(xué)習(xí)后的特征表示不僅將原始的高維圖像壓縮成一個(gè)緊湊的表征,還促進(jìn)了后續(xù)環(huán)節(jié)的計(jì)算過(guò)程。另外,低級(jí)特征往往使閉環(huán)檢測(cè)過(guò)于依賴相機(jī)視角,這就導(dǎo)致在模糊或重復(fù)性較高的紋理環(huán)境中失敗率較高?;谏疃葘W(xué)習(xí)的目標(biāo)識(shí)別能夠估計(jì)出標(biāo)志物的大小,生成一組便于區(qū)分的語(yǔ)義表征,適和與視角無(wú)關(guān)的閉環(huán)檢測(cè)。在特征地圖中識(shí)別到多個(gè)同類物體時(shí),需要進(jìn)行關(guān)鍵數(shù)據(jù)的關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)和識(shí)別一般采用離散方法解決離散性問(wèn)題,但是傳統(tǒng)VSLAM解決的是尺度信息的連續(xù)優(yōu)化問(wèn)題,相比之下,基于深度學(xué)習(xí)的VSLAM可以把傳感器數(shù)據(jù)和語(yǔ)義表征的位置信息融合為一個(gè)優(yōu)化問(wèn)題,結(jié)合尺度信息,語(yǔ)義信息和數(shù)據(jù)關(guān)聯(lián)。隨后再把它拆分成兩個(gè)相互關(guān)聯(lián)的問(wèn)題:首先是離散數(shù)據(jù)的關(guān)聯(lián)和語(yǔ)義表征的種類估計(jì),另外是尺度信息的連續(xù)優(yōu)化問(wèn)題。推測(cè)出的語(yǔ)義表征和傳感器姿態(tài)影響著關(guān)聯(lián)數(shù)據(jù)和表征種類的分布,而這反過(guò)來(lái)又影響傳感器-標(biāo)志物姿態(tài)的優(yōu)化[37],這也是結(jié)合深度學(xué)習(xí)的VSLAM較傳統(tǒng)方法的一個(gè)明顯的優(yōu)勢(shì)。

04展望

就人類的感知方式來(lái)說(shuō),在面對(duì)場(chǎng)景中的對(duì)象時(shí),除了可以獲取位置信息(三維)外,還可以確定顏色數(shù)據(jù)(三維),此外,能夠獲取語(yǔ)義信息比如表面硬度、實(shí)例輪廓、是否可以觸摸等信息。但是,若僅憑深度VSLAM構(gòu)建三維點(diǎn)云,還是遠(yuǎn)遠(yuǎn)不夠的,因此,需要在更高維度上構(gòu)建內(nèi)容更為豐富的高階地圖,從而滿足各種需求。定位與感知不是VSLAM的最終目標(biāo),VSLAM是以精確的定位和感知為前提,完成復(fù)雜的任務(wù)。這對(duì)深度學(xué)習(xí)和VSLAM的結(jié)合提出了更高的要求,對(duì)深度VSLAM訓(xùn)練時(shí),以任務(wù)的完成情況為標(biāo)準(zhǔn)進(jìn)行訓(xùn)練。

4.1分布式的VSLAM建圖

分布式的VSLAM可以在絕對(duì)定位不可用的情況下,適用于多視覺(jué)傳感器應(yīng)用的強(qiáng)大工具。在傳感器分散情況下,它不依賴于與中央實(shí)體的通信。可以將分布式深度學(xué)習(xí)SLAM集成到一個(gè)完整的VSLAM系統(tǒng)中。為了實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)和優(yōu)化,現(xiàn)有的分布式VSLAM系統(tǒng)在所有傳感器之間交換完整的地圖數(shù)據(jù),從而以與傳感器數(shù)量平方成正比的復(fù)雜性進(jìn)行大規(guī)模數(shù)據(jù)傳輸。與之相比,文獻(xiàn)[45]提出的方法在兩個(gè)階段中實(shí)現(xiàn)有效的數(shù)據(jù)關(guān)聯(lián):首先,將密集的全局描述符定向地發(fā)送到一個(gè)傳感器,只有當(dāng)這一階段成功后,才會(huì)把實(shí)現(xiàn)相對(duì)位姿估計(jì)需要的數(shù)據(jù)再次發(fā)送給傳感器。所以,數(shù)據(jù)關(guān)聯(lián)可以通過(guò)傳感器計(jì)數(shù)擴(kuò)展,針對(duì)緊湊的場(chǎng)所表現(xiàn)更突出。使用分散式的位姿圖優(yōu)化方法,交換最小量的數(shù)據(jù),這些數(shù)據(jù)與軌跡重疊是線性的,最后對(duì)整個(gè)系統(tǒng)的輸出做描述,并確定每個(gè)組件中的瓶頸。但是,二維圖像、三維點(diǎn)云數(shù)據(jù)隨著場(chǎng)景規(guī)模的增大,信息規(guī)模也會(huì)越來(lái)越大,存儲(chǔ)大量的圖片或者點(diǎn)云是不可取的,因此對(duì)數(shù)據(jù)的壓縮和存儲(chǔ)方式的選擇是必要的,比如八叉樹(shù)的存儲(chǔ)方式和網(wǎng)格數(shù)據(jù)劃分等。人類對(duì)于場(chǎng)景的記憶是基于城市、街道等先驗(yàn)知識(shí)的掌握,通過(guò)對(duì)關(guān)鍵信息有選擇的記憶,不是存儲(chǔ)見(jiàn)到的每一幀圖像,只用記住去過(guò)哪個(gè)地點(diǎn)、哪個(gè)街區(qū),當(dāng)再次經(jīng)過(guò)同一地點(diǎn)時(shí),就能夠做到場(chǎng)景的對(duì)應(yīng),這也是未來(lái)分布式深度VSLAM所面臨的問(wèn)題,即固定存儲(chǔ)空間下對(duì)非關(guān)鍵信息的剔除,對(duì)不同傳感器間的聯(lián)合節(jié)點(diǎn)的識(shí)別,傳感器數(shù)據(jù)的存儲(chǔ),實(shí)現(xiàn)快速的匹配問(wèn)題。

4.2高維多傳感器數(shù)據(jù)處理與融合

深度學(xué)習(xí)的發(fā)展為傳感器大數(shù)據(jù)的特征提取與操作提供了新方法。激光測(cè)距傳感器是傳統(tǒng)SLAM的傳感器,具有高精度,數(shù)據(jù)采集不受時(shí)間限制等優(yōu)勢(shì)。Li等[46]提出Recurrent-OctoMap,從長(zhǎng)期的3D激光雷達(dá)數(shù)據(jù)中學(xué)習(xí),對(duì)語(yǔ)義建圖實(shí)現(xiàn)3D細(xì)化,是一種融合語(yǔ)義特征的學(xué)習(xí)方法,不僅僅是簡(jiǎn)單地融合分類器地預(yù)測(cè)。在他們的方法中,將創(chuàng)建的3D地圖用八叉樹(shù)[47]表示,并參與后面的計(jì)算,將每個(gè)節(jié)點(diǎn)建模為RNN,從而獲得Recurrent-OctoMap。在這種情形下,語(yǔ)義建圖過(guò)程被表達(dá)成序列到序列的編碼-解碼問(wèn)題。另外,為了延長(zhǎng)Recurrent-OctoMap觀察到的數(shù)據(jù)持續(xù)周期,他們開(kāi)發(fā)了一個(gè)強(qiáng)大的3D定位和建圖的SLAM系統(tǒng),并實(shí)現(xiàn)對(duì)兩周以上的雷達(dá)動(dòng)態(tài)數(shù)據(jù)持續(xù)建圖。通常用于3D語(yǔ)義地圖細(xì)化廣泛的方法是貝葉斯估計(jì),其融合了馬爾可夫鏈之后連續(xù)預(yù)測(cè)概率,但是傳統(tǒng)的貝葉斯方法被證實(shí)不如Recurrent-OctoMap的實(shí)驗(yàn)室表現(xiàn)。

機(jī)器人在環(huán)境變化比較復(fù)雜的場(chǎng)景中實(shí)現(xiàn)建圖時(shí),單一傳感器實(shí)現(xiàn)的特征檢測(cè)往往不夠全面,可能會(huì)有漏檢的情況發(fā)生,并且單一類型傳感器在復(fù)雜的環(huán)境中實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)成本過(guò)高,準(zhǔn)確性較低,不能滿足SLAM在部分特殊場(chǎng)景下的應(yīng)用需求。VSLAM對(duì)數(shù)據(jù)關(guān)聯(lián)非常敏感,數(shù)據(jù)關(guān)聯(lián)可以建立多傳感器數(shù)據(jù)與其他測(cè)量數(shù)據(jù)之間的關(guān)系,以確定它們是否有一個(gè)公共源。VSLAM中數(shù)據(jù)關(guān)聯(lián)用來(lái)確定測(cè)量數(shù)據(jù)與地圖特征的關(guān)系,機(jī)器人位姿的不確定性、特征密度的變化、環(huán)境中動(dòng)態(tài)特征的干擾以及觀測(cè)誤差的存在使得數(shù)據(jù)關(guān)聯(lián)的數(shù)據(jù)處理過(guò)程變得很復(fù)雜。錯(cuò)誤的關(guān)聯(lián)不但會(huì)使機(jī)器人的定位產(chǎn)生偏差,還會(huì)影響到已創(chuàng)建的地圖,導(dǎo)致算法發(fā)散。Zhang和Singh[48]提出的一個(gè)利用3D激光掃描儀數(shù)據(jù)、影像數(shù)據(jù)和IMU數(shù)據(jù)進(jìn)行運(yùn)動(dòng)估計(jì)和地圖創(chuàng)建的方法,使用一個(gè)有序多層的從粗濾配準(zhǔn)到精確優(yōu)化的處理流程。首先使用IMU數(shù)據(jù)做運(yùn)動(dòng)預(yù)測(cè),然后使用IMU和視覺(jué)結(jié)合的方法估計(jì)運(yùn)動(dòng),之后再使用激光雷達(dá)進(jìn)行幀與幀的匹配做更深一步的優(yōu)化和地圖創(chuàng)建,這樣,VSLAM就可以在高動(dòng)態(tài)的運(yùn)動(dòng)環(huán)境中使用,也可以在黑暗、無(wú)紋理、無(wú)顯著結(jié)構(gòu)的復(fù)雜環(huán)境里運(yùn)行。多傳感器的數(shù)據(jù)融合能夠確定各傳感器測(cè)量數(shù)據(jù)和特征源的對(duì)應(yīng)關(guān)系,并確保這些對(duì)應(yīng)關(guān)系在復(fù)雜環(huán)境中能發(fā)揮最優(yōu)性能,而深度神經(jīng)網(wǎng)絡(luò)在匹配多類型數(shù)據(jù),處理不同頻率的數(shù)據(jù)方面表現(xiàn)出強(qiáng)大的能力,多傳感器融合的VSLAM是未來(lái)的一個(gè)重要發(fā)展方向。

4.3自適應(yīng)的VSLAM

隨著機(jī)器人技術(shù)的高速發(fā)展,VSLAM也具有更多的實(shí)際應(yīng)用意義。VSLAM需要相機(jī)視野的三維環(huán)境信息和相應(yīng)的軌跡信息,所以VSLAM對(duì)相機(jī)定位的實(shí)時(shí)以及精度的依賴性較高[49]。隨著稀疏矩陣和非線性優(yōu)化理論在VSLAM中廣泛的應(yīng)用,逐漸提出了許多VSLAM實(shí)現(xiàn)方案,比如傳統(tǒng)的LSD-SLAM[50]、ORB-SLAM、RGBD-SLAM[51]等方案,基于深度學(xué)習(xí)的VSLAM如DeepVO、SFM-Net[52]等算法,然而,現(xiàn)存大部分VSLAM的實(shí)現(xiàn)方案在視覺(jué)里程計(jì)環(huán)節(jié)精度不夠,或者過(guò)于依賴硬件性能。因此,以幀到地圖的特征匹配為基礎(chǔ),面對(duì)特征地圖數(shù)據(jù)體積大、計(jì)算資源消耗過(guò)多等問(wèn)題,實(shí)現(xiàn)特征地圖的自適應(yīng)是必要的。張峻寧等[53]提出了一種自適應(yīng)特征地圖匹配的VSLAM方法,首先進(jìn)行數(shù)據(jù)初始化,將當(dāng)前幀轉(zhuǎn)化成對(duì)應(yīng)點(diǎn)云,把特征地圖劃分為多個(gè)子區(qū)域作為計(jì)算單位,利用角點(diǎn)的響應(yīng)程度提取少量顯著的特征點(diǎn),然后進(jìn)行各幀特征點(diǎn)匹配。接下來(lái),為解決局部地圖角點(diǎn)匹配消失問(wèn)題,提出子區(qū)域特征點(diǎn)補(bǔ)充和局部地圖擴(kuò)建的方法,實(shí)現(xiàn)當(dāng)前幀特征點(diǎn)的快速再匹配。最后,為了進(jìn)一步提高VO環(huán)節(jié)相機(jī)位姿估計(jì)精度,增加了特征地圖局部?jī)?yōu)化環(huán)節(jié),提出幀到幀、幀到特征地圖的局部地圖優(yōu)化模型,并通過(guò)加入g2o[54]算法實(shí)現(xiàn)了相機(jī)位姿和地圖特征點(diǎn)的同時(shí)優(yōu)化。通過(guò)子區(qū)域分塊、特征點(diǎn)補(bǔ)充與地圖擴(kuò)建的方式自適應(yīng)維護(hù)特征地圖規(guī)模,使得幀到特征地圖的位姿估計(jì)兼顧了實(shí)時(shí)性和精度,另一方面提出的幀到幀、幀到模型的g2o特征地圖更新方式,該方法在位姿估計(jì)的精度、累計(jì)誤差的消除等方面表現(xiàn)顯著[53]。鑒于深度學(xué)習(xí)在前端的優(yōu)異表現(xiàn),可以將深度VSLAM的結(jié)果與自適應(yīng)優(yōu)化結(jié)合,可以有效的降低VO相鄰幀間的漂移誤差,在保證實(shí)時(shí)性前提下,達(dá)到較好的定位精度和建圖能力。

05結(jié)論

本文以VSLAM和深度學(xué)習(xí)的結(jié)合為線索展開(kāi)論述,描述了深度學(xué)習(xí)與視覺(jué)里程計(jì)、閉環(huán)檢測(cè)和語(yǔ)義SLAM的結(jié)合現(xiàn)狀,敘述了算法的可行性和高效性。接下來(lái)把傳統(tǒng)VSLAM和深度VSLAM做了簡(jiǎn)要對(duì)比,如魯棒性、訓(xùn)練周期、泛化能力等方面。最后根據(jù)二者的發(fā)展現(xiàn)狀以及實(shí)際應(yīng)用需求,從分布式的VLSAM建圖、多傳感器數(shù)據(jù)融合以及自適應(yīng)3個(gè)方面做了展望。

自從深度學(xué)習(xí)在許多領(lǐng)域展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)后,很多研究人員試圖將深度學(xué)習(xí)端到端的理念整個(gè)應(yīng)用到VSLAM中。但是,截止到目前,效果不夠理想,大多深度學(xué)習(xí)的方法用來(lái)代替VSLAM部分環(huán)節(jié),傳統(tǒng)的基于幾何的方法現(xiàn)在仍是主流。但是隨著深度學(xué)習(xí)和多傳感器的發(fā)展,VSLAM會(huì)逐漸吸收深度學(xué)習(xí)帶來(lái)的優(yōu)勢(shì),提升其準(zhǔn)確性和泛化能力。相信在不遠(yuǎn)的將來(lái),VSLAM的整個(gè)系統(tǒng)都會(huì)被深度學(xué)習(xí)取代,而不僅僅作為其中某個(gè)環(huán)節(jié)的實(shí)現(xiàn)方法,實(shí)現(xiàn)精確的基于深度學(xué)習(xí)的VSLAM方法。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2578

    文章

    55567

    瀏覽量

    794191
  • SLAM
    +關(guān)注

    關(guān)注

    24

    文章

    460

    瀏覽量

    33426
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124652

原文標(biāo)題:前沿丨基于深度學(xué)習(xí)的視覺(jué)SLAM綜述

文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深度學(xué)習(xí)驅(qū)動(dòng)的超構(gòu)表面設(shè)計(jì)進(jìn)展及其在全息成像中的應(yīng)用

    可實(shí)現(xiàn)高質(zhì)量圖像的獲取?;谏窠?jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法進(jìn)行超構(gòu)表面設(shè)計(jì)的文章數(shù)量日益增多,但關(guān)于該主題的綜述仍較為匱乏。據(jù)麥姆斯咨詢報(bào)道,近期,中國(guó)計(jì)量大學(xué)田穎教授等人
    的頭像 發(fā)表于 04-09 13:55 ?167次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>驅(qū)動(dòng)的超構(gòu)表面設(shè)計(jì)進(jìn)展及其在全息成像中的應(yīng)用

    2026視覺(jué)檢測(cè)產(chǎn)業(yè)深度調(diào)研及未來(lái)趨勢(shì)分析

    視覺(jué)檢測(cè)技術(shù)融合深度學(xué)習(xí)與多模態(tài)傳感,實(shí)現(xiàn)從輔助工具向決策中樞的轉(zhuǎn)變,推動(dòng)智能制造與工業(yè)4.0發(fā)展。
    的頭像 發(fā)表于 04-01 09:26 ?271次閱讀
    2026<b class='flag-5'>視覺(jué)</b>檢測(cè)產(chǎn)業(yè)<b class='flag-5'>深度</b>調(diào)研及未來(lái)趨勢(shì)分析

    穿孔機(jī)頂頭檢測(cè)儀 機(jī)器視覺(jué)深度學(xué)習(xí)

    LX01Z-DG626穿孔機(jī)頂頭檢測(cè)儀采用深度學(xué)習(xí)技術(shù),能夠?qū)崿F(xiàn)頂頭狀態(tài)的在線實(shí)時(shí)檢測(cè),頂頭丟失報(bào)警,頂頭異常狀態(tài)報(bào)警等功能,響應(yīng)迅速,異常狀態(tài)視頻回溯,檢測(cè)頂頭溫度,配備吹掃清潔系統(tǒng),維護(hù)周期長(zhǎng)
    發(fā)表于 12-22 14:33

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    行業(yè)市場(chǎng)具備深度學(xué)習(xí)能力的視覺(jué)系統(tǒng)占比已突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺(jué)算法工程師全國(guó)缺口15萬(wàn)+,缺陷檢測(cè)專項(xiàng)人才招聘響應(yīng)率僅32% ? 薪資水平:掌握L
    發(fā)表于 12-04 09:28

    【團(tuán)購(gòu)】獨(dú)家全套珍藏!龍哥LabVIEW視覺(jué)深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    行業(yè)市場(chǎng)具備深度學(xué)習(xí)能力的視覺(jué)系統(tǒng)占比已突破40%,催生大量復(fù)合型技術(shù)崗位需求: ? 崗位缺口:視覺(jué)算法工程師全國(guó)缺口15萬(wàn)+,缺陷檢測(cè)專項(xiàng)人才招聘響應(yīng)率僅32% ? 薪資水平:掌握L
    發(fā)表于 12-03 13:50

    從0到1,10+年資深LabVIEW專家,手把手教你攻克機(jī)器視覺(jué)+深度學(xué)習(xí)(5000分鐘實(shí)戰(zhàn)課)

    “告別檢測(cè)系統(tǒng)能力缺陷!10+年LabVIEW視覺(jué)資深專家手把手教你:5000+分鐘高清教程(含工具、算法原理、實(shí)戰(zhàn)操作、項(xiàng)目?jī)?yōu)化全流程講解)”——從傳統(tǒng)視覺(jué)算法→深度學(xué)習(xí)建?!I(yè)級(jí)
    的頭像 發(fā)表于 12-02 08:07 ?785次閱讀
    從0到1,10+年資深LabVIEW專家,手把手教你攻克機(jī)器<b class='flag-5'>視覺(jué)</b>+<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>(5000分鐘實(shí)戰(zhàn)課)

    如何深度學(xué)習(xí)機(jī)器視覺(jué)的應(yīng)用場(chǎng)景

    深度學(xué)習(xí)視覺(jué)應(yīng)用場(chǎng)景大全 工業(yè)制造領(lǐng)域 復(fù)雜缺陷檢測(cè):處理傳統(tǒng)算法難以描述的非標(biāo)準(zhǔn)化缺陷模式 非標(biāo)產(chǎn)品分類:對(duì)形狀、顏色、紋理多變的產(chǎn)品進(jìn)行智能分類 外觀質(zhì)量評(píng)估:基于學(xué)習(xí)的外觀質(zhì)量標(biāo)
    的頭像 發(fā)表于 11-27 10:19 ?350次閱讀

    FPGA和GPU加速的視覺(jué)SLAM系統(tǒng)中特征檢測(cè)器研究

    特征檢測(cè)是SLAM系統(tǒng)中常見(jiàn)但耗時(shí)的模塊,隨著SLAM技術(shù)日益廣泛應(yīng)用于無(wú)人機(jī)等功耗受限平臺(tái),其效率優(yōu)化尤為重要。本文首次針對(duì)視覺(jué)SLAM流程開(kāi)展硬件加速特征檢測(cè)器的對(duì)比研究,通過(guò)對(duì)比
    的頭像 發(fā)表于 10-31 09:30 ?889次閱讀
    FPGA和GPU加速的<b class='flag-5'>視覺(jué)</b><b class='flag-5'>SLAM</b>系統(tǒng)中特征檢測(cè)器研究

    自動(dòng)駕駛中如何將稀疏地圖與視覺(jué)SLAM相結(jié)合?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛場(chǎng)景中,稀疏地圖通常是由一系列關(guān)鍵幀和若干三維稀疏特征點(diǎn)構(gòu)成的地圖,每個(gè)特征點(diǎn)包含三維坐標(biāo)和描述外觀的描述子;而視覺(jué)SLAM是運(yùn)行在車輛上的實(shí)時(shí)算法,它一邊
    的頭像 發(fā)表于 10-28 09:07 ?823次閱讀
    自動(dòng)駕駛中如何將稀疏地圖與<b class='flag-5'>視覺(jué)</b><b class='flag-5'>SLAM</b>相結(jié)合?

    全新輕量級(jí)ViSTA-SLAM系統(tǒng)介紹

    無(wú)需相機(jī)內(nèi)參、極致輕量的前端(前端模型大小僅為同類35%),實(shí)時(shí)單目視覺(jué)SLAM,ViSTA-SLAM。與現(xiàn)有方法相比,ViSTA-SLAM不僅更輕、更快,在相機(jī)跟蹤和密集3D重建質(zhì)量
    的頭像 發(fā)表于 09-22 15:53 ?1225次閱讀
    全新輕量級(jí)ViSTA-<b class='flag-5'>SLAM</b>系統(tǒng)介紹

    如何在機(jī)器視覺(jué)中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    人士而言往往難以理解,人們也常常誤以為需要扎實(shí)的編程技能才能真正掌握并合理使用這項(xiàng)技術(shù)。事實(shí)上,這種印象忽視了該技術(shù)為機(jī)器視覺(jué)(乃至生產(chǎn)自動(dòng)化)帶來(lái)的潛力,因?yàn)?b class='flag-5'>深度學(xué)習(xí)并非只屬于計(jì)算機(jī)科學(xué)家或程序員。 從頭開(kāi)始:什么
    的頭像 發(fā)表于 09-10 17:38 ?1071次閱讀
    如何在機(jī)器<b class='flag-5'>視覺(jué)</b>中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>神經(jīng)網(wǎng)絡(luò)

    地鐵隧道病害智能巡檢系統(tǒng)——機(jī)器視覺(jué)技術(shù)的深度應(yīng)用

    地鐵隧道滲漏水病害檢測(cè)智能系統(tǒng)通過(guò)分辨率視覺(jué)模組對(duì)地鐵隧道進(jìn)行高精度成像,并通過(guò)國(guó)際先進(jìn)的深度學(xué)習(xí)算法能夠在采集的圖像中自動(dòng)識(shí)別出滲漏水區(qū)域。
    的頭像 發(fā)表于 08-29 15:50 ?697次閱讀
    地鐵隧道病害智能巡檢系統(tǒng)——機(jī)器<b class='flag-5'>視覺(jué)</b>技術(shù)的<b class='flag-5'>深度</b>應(yīng)用

    一種適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象SLAM框架

    由于傳統(tǒng)視覺(jué)SLAM在動(dòng)態(tài)場(chǎng)景中容易會(huì)出現(xiàn)嚴(yán)重的定位漂移,本文提出了一種新穎的基于場(chǎng)景-對(duì)象的可靠性評(píng)估框架,該框架通過(guò)當(dāng)前幀質(zhì)量指標(biāo)以及相對(duì)于可靠參考幀的場(chǎng)景變化,全面評(píng)估SLAM的穩(wěn)定性。
    的頭像 發(fā)表于 08-19 14:17 ?1017次閱讀
    一種適用于動(dòng)態(tài)環(huán)境的自適應(yīng)先驗(yàn)場(chǎng)景-對(duì)象<b class='flag-5'>SLAM</b>框架

    基于深度學(xué)習(xí)的增強(qiáng)版ORB-SLAM3詳解

    ORB-SLAM3雖是當(dāng)前最先進(jìn)的SLAM之一,但由于使用傳統(tǒng)的ORB(定向FAST和旋轉(zhuǎn)BRIEF)特征,在尺度、旋轉(zhuǎn)和光照發(fā)生顯著變化時(shí)可能會(huì)表現(xiàn)出局限性。
    的頭像 發(fā)表于 07-14 17:21 ?2038次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的增強(qiáng)版ORB-<b class='flag-5'>SLAM</b>3詳解

    三維高斯?jié)姙R大規(guī)模視覺(jué)SLAM系統(tǒng)解析

    近期興起的神經(jīng)輻射場(chǎng)(NeRF)與三維高斯?jié)姙R(3DGS)技術(shù)在視覺(jué)SLAM中展現(xiàn)出令人鼓舞的突破性成果。然而,當(dāng)前主流方法多依賴RGBD傳感器,并且僅適用于室內(nèi)環(huán)境。在大規(guī)模室外場(chǎng)景中的重建魯棒性
    的頭像 發(fā)表于 05-27 14:13 ?1854次閱讀
    三維高斯?jié)姙R大規(guī)模<b class='flag-5'>視覺(jué)</b><b class='flag-5'>SLAM</b>系統(tǒng)解析
    宜都市| 蚌埠市| 滕州市| 正蓝旗| 周至县| 榆树市| 长春市| 卫辉市| 马边| 腾冲县| 西林县| 重庆市| 额敏县| 玉门市| 刚察县| 吴川市| 泾阳县| 牡丹江市| 新和县| 随州市| 汪清县| 林周县| 涟水县| 德昌县| 周宁县| 敦煌市| 南充市| 青龙| 嘉善县| 九江市| 额济纳旗| 信宜市| 浮山县| 仪征市| 沾益县| 镇宁| 杭锦后旗| 揭东县| 元谋县| 修武县| 安泽县|