基于激光雷達(dá)的三維目標(biāo)檢測(cè)對(duì)于自動(dòng)駕駛而言是不可避免的選擇,因?yàn)樗c對(duì)環(huán)境的理解直接相關(guān),從而為預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃奠定了基礎(chǔ)。對(duì)于除了自動(dòng)化車輛之外的許多其他應(yīng)用領(lǐng)域,例如增強(qiáng)現(xiàn)實(shí)、個(gè)人機(jī)器人或工業(yè)自動(dòng)化,對(duì)實(shí)時(shí)高度稀疏的三維數(shù)據(jù)進(jìn)行推斷的能力是一個(gè)不合適的問(wèn)題。
我們引入了Complex-YOLO,這是一種最先進(jìn)的僅針對(duì)點(diǎn)云(point clouds)的實(shí)時(shí)三維目標(biāo)檢測(cè)網(wǎng)絡(luò)。在本研究中,我們描述了一個(gè)網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)一個(gè)特定的復(fù)雜的回歸策略來(lái)估計(jì)笛卡爾空間(Cartesian space)中的多類三維立方體,從而擴(kuò)展YOLOv2(一種用于RGB圖像的一個(gè)快速二維標(biāo)準(zhǔn)目標(biāo)檢測(cè)器)。
因此,我們提出了一個(gè)特定的Euler區(qū)域提議網(wǎng)絡(luò)(Euler-Region-Proposal Network,E-RPN),通過(guò)在回歸網(wǎng)絡(luò)中添加一個(gè)虛構(gòu)的和一個(gè)真實(shí)的分?jǐn)?shù)來(lái)估計(jì)目標(biāo)的姿勢(shì)。這是在一個(gè)封閉的復(fù)雜空間中結(jié)束的,從而避免了單角度估計(jì)的奇異性。E-RPN支持在訓(xùn)練過(guò)程中進(jìn)行良好的泛化。
我們?cè)贙ITTI基準(zhǔn)套件上進(jìn)行的實(shí)驗(yàn)表明,我們的性能優(yōu)于當(dāng)前領(lǐng)先的三維目標(biāo)檢測(cè)方法,尤其在效率方面。我們?nèi)〉昧藢?duì)汽車、行人和騎車者進(jìn)行測(cè)試的最先進(jìn)的結(jié)果,比最快的競(jìng)爭(zhēng)者快5倍以上。此外,我們的模型能夠同時(shí)以高精確度估計(jì)所有的8個(gè)KITTI類,包括貨車、卡車或坐著的行人。
近年來(lái),隨著汽車激光雷達(dá)傳感器的巨大完善,點(diǎn)云處理對(duì)自動(dòng)駕駛而言變得越來(lái)越重要。供應(yīng)商的傳感器能夠?qū)崟r(shí)提供周圍環(huán)境的三維點(diǎn)。其優(yōu)點(diǎn)是直接測(cè)量所包含的目標(biāo)之間的距離。這使我們能夠開發(fā)出用于自動(dòng)駕駛的目標(biāo)檢測(cè)算法,該算法能夠精確地估計(jì)出三維中不同目標(biāo)的位置和航向。與圖像相比,激光雷達(dá)點(diǎn)云稀疏,其密度分布在整個(gè)測(cè)量區(qū)域中變化。這些點(diǎn)是無(wú)序的,它們?cè)诒镜剡M(jìn)行交互,并且主要是不能被孤立分析。點(diǎn)云處理對(duì)于基本轉(zhuǎn)換應(yīng)該是始終保持不變的。

Complex-YOLO是一個(gè)非常有效的模型,可直接在僅基于激光雷達(dá)的鳥瞰RGB視圖上進(jìn)行操作,以估計(jì)和精確定位3D多類邊界框。該圖的上半部分顯示了諸如預(yù)測(cè)目標(biāo)等基于Velodyne HDL64電云的鳥瞰圖,下半部分顯示3D邊界框被重新投影至圖像空間中。注意:Complex-YOLO僅基于激光雷達(dá)進(jìn)行操作,而不需要相機(jī)圖像作為輸入。
一般而言,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)和分類是眾所周知的任務(wù),并且在圖像的2D邊界框回歸的建立中得到了廣泛應(yīng)用。研究的重點(diǎn)主要是精確度和效率的權(quán)衡。在自動(dòng)駕駛領(lǐng)域,效率更為重要。因此,最好的目標(biāo)檢測(cè)器往往使用區(qū)域提議網(wǎng)絡(luò)(RPN)或類似的基于網(wǎng)格的RPN方法。這些網(wǎng)絡(luò)非常高效、準(zhǔn)確,甚至能夠在專用的硬件或嵌入式設(shè)備上運(yùn)行。盡管點(diǎn)云上的目標(biāo)檢測(cè)依然很少,但它們正變得越來(lái)越重要。這些應(yīng)用程序需要能夠預(yù)測(cè)3D邊界框。目前,主要有三種不同的深度學(xué)習(xí)方法:
使用多層感知器的直接點(diǎn)云處理。
通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將點(diǎn)云轉(zhuǎn)換為體素或圖像堆棧。
組合式融合方法。
最近,基于Frustum的網(wǎng)絡(luò)在KITTI 基準(zhǔn)套件中表現(xiàn)出了很好的性能。該模型在3D目標(biāo)檢測(cè)方面排名第二,在汽車、行人和騎行者的鳥瞰檢測(cè)方面同樣排名第二。這是唯一的方法,它直接使用Point-Net直處理點(diǎn)云,而不使用激光雷達(dá)數(shù)據(jù)和體素創(chuàng)建中的CNN。
然而,它需要預(yù)處理,因此它必須使用相機(jī)傳感器?;诹硪粋€(gè)對(duì)標(biāo)定的相機(jī)圖像進(jìn)行處理的CNN,它通過(guò)利用這些檢測(cè)將全局云點(diǎn)最小化到基于截面的已減少點(diǎn)云。這種方法有兩個(gè)缺點(diǎn):
模型的精準(zhǔn)度在很大程度上依賴于相機(jī)圖像及其相關(guān)的CNN。因此,該方法不可能僅適用于激光雷達(dá)數(shù)據(jù)。
整個(gè)管道需要連續(xù)運(yùn)行兩種深度學(xué)習(xí)方法,這會(huì)導(dǎo)致運(yùn)算時(shí)間更長(zhǎng)而效率更低。參考模型在NVIDIA GTX1080i GPU上大約以7fps的低幀率運(yùn)行。
與之相反,Zhou等人提出了一種僅適用于激光雷達(dá)數(shù)據(jù)的模型。就這方面而言,它是KITTI上僅使用激光雷達(dá)數(shù)據(jù)進(jìn)行3D和鳥瞰探測(cè)的最佳模型。其基本思想是在網(wǎng)格單元上運(yùn)行端到端的學(xué)習(xí),而不使用人工制作的特征。網(wǎng)絡(luò)單元格的內(nèi)部特征是在訓(xùn)練期間利用Pointnet方法學(xué)習(xí)的。在頂部建立一個(gè)預(yù)測(cè)3D邊界框的CNN。盡管擁有很高的精準(zhǔn)度,但該模型在TitanX GPU上的最快運(yùn)算時(shí)間為4fps。
Chen等人報(bào)道了另一種排名很靠前的方法。其基本思想是利用人工制作的特征將激光雷達(dá)點(diǎn)云投影到基于體素的RGB地圖上,如密度、最大高度和一個(gè)具有代表性的點(diǎn)強(qiáng)度。為了獲得具有更高精準(zhǔn)度的結(jié)果,他們使用了基于激光雷達(dá)的鳥瞰圖,基于激光雷達(dá)的前視圖以及基于相機(jī)的前視圖的多視圖方法。這種融合處理需要很長(zhǎng)時(shí)間,即便在NVIDIA GTX 1080i GPU上也僅為4fps。另一個(gè)缺點(diǎn)是需要輔助傳感器輸入(相機(jī))。

空間真實(shí)數(shù)據(jù)分布。上圖左側(cè)的樣本檢測(cè)描繪了鳥瞰區(qū)域的大小,右側(cè)圖顯示了《我們準(zhǔn)備好了自動(dòng)駕駛嗎? kitti視覺(jué)基準(zhǔn)套件》中所注釋的2D空間直方圖。該分布概述了用于注釋的照相機(jī)的水平視野以及地圖中遺留的盲點(diǎn)。

性能比較。該圖顯示了與運(yùn)行時(shí)間(fps)相關(guān)的mAP。所有模型都在Nvidia Titan X或Titan Xp上進(jìn)行測(cè)試。Complex-Yolo的運(yùn)行速度比KITTI基準(zhǔn)測(cè)試中最有效的競(jìng)爭(zhēng)對(duì)手快5倍,進(jìn)而獲得準(zhǔn)確的結(jié)果。我們?cè)谝粋€(gè)專用的嵌入式平臺(tái)(TX2)上對(duì)我們的網(wǎng)絡(luò)進(jìn)行了測(cè)試,并與五種領(lǐng)先的模型進(jìn)行了比較,結(jié)果表明我們的網(wǎng)絡(luò)具有合理的效率(4fps)。Complex-Yolo是首個(gè)用于實(shí)時(shí)3D目標(biāo)檢測(cè)的模型。
本文首次提出了基于激光雷達(dá)的點(diǎn)云3D目標(biāo)檢測(cè)的第一個(gè)實(shí)時(shí)高效深度學(xué)習(xí)模型。我們?cè)贙ITTI基準(zhǔn)測(cè)試套件中就精準(zhǔn)度(如上圖所示)而言突顯了我們最新的成果,其卓越的效率超過(guò)50fps(NVIDIA Titan X)。我們不像大多數(shù)主流方法那樣需要額外的傳感器,例如相機(jī)。這一突破是通過(guò)引入新的E-RPN(一種借助復(fù)雜數(shù)字來(lái)估計(jì)方位的Euler回歸方法)實(shí)現(xiàn)的。無(wú)奇點(diǎn)的封閉數(shù)學(xué)空間允許魯棒角度預(yù)測(cè)。
我們的方法能夠在一條前進(jìn)的道路上同時(shí)檢測(cè)多種類別的目標(biāo)(例如:汽車、火車、行人、騎行者、卡車、有軌電車、坐著的人等)。這種全新的方法可以在自動(dòng)駕駛汽車中實(shí)現(xiàn)落地應(yīng)用,并且以此來(lái)區(qū)別于其他車型。我們甚至在專業(yè)的嵌入式平臺(tái)NVIDIA TX2(4fps)展示了實(shí)時(shí)性能。在今后的研究工作中,我們計(jì)劃在回歸中加入高度信息,在空間中真正實(shí)現(xiàn)獨(dú)立3D目標(biāo)檢測(cè),并在點(diǎn)云預(yù)處理過(guò)程中利用速度-空間相關(guān)性,以獲得更好的分類性能和更高的精準(zhǔn)度。
-
3D
+關(guān)注
關(guān)注
9文章
3024瀏覽量
115648 -
激光雷達(dá)
+關(guān)注
關(guān)注
982文章
4560瀏覽量
197206
發(fā)布評(píng)論請(qǐng)先 登錄
iTOF技術(shù),多樣化的3D視覺(jué)應(yīng)用
3D檢測(cè)系統(tǒng)可檢測(cè)PCB板針腳高度
如何實(shí)行溫度實(shí)時(shí)檢測(cè)
熱點(diǎn)技術(shù)討論:3D設(shè)計(jì)中的挑戰(zhàn)
京東方推出裸眼3D產(chǎn)品 可實(shí)時(shí)轉(zhuǎn)換2D和3D畫面
谷歌開發(fā)pipeline,在移動(dòng)設(shè)備上可實(shí)時(shí)計(jì)算3D目標(biāo)檢測(cè)
3D目標(biāo)檢測(cè)是否可以用層級(jí)圖網(wǎng)絡(luò)來(lái)完成
基于幾何單目3D目標(biāo)檢測(cè)的密集幾何約束深度估計(jì)器
基于圖像的3D目標(biāo)檢測(cè)是自動(dòng)駕駛領(lǐng)域綜述
為什么選擇3D,3D芯片設(shè)計(jì)要點(diǎn)分析
如何利用車載環(huán)視相機(jī)采集到的圖像實(shí)現(xiàn)精準(zhǔn)的3D目標(biāo)檢測(cè)
CCV 2023 | SparseBEV:高性能、全稀疏的純視覺(jué)3D目標(biāo)檢測(cè)器
如何搞定自動(dòng)駕駛3D目標(biāo)檢測(cè)!
Nullmax提出多相機(jī)3D目標(biāo)檢測(cè)新方法QAF2D
實(shí)行實(shí)時(shí)3D目標(biāo)檢測(cè)的方法討論
評(píng)論