污视频免费在线观看,人妻国产精品

[首發(fā)于智駕最前沿微信公眾號]智駕無圖的概念已經(jīng)在自動駕駛領(lǐng)域流傳頗深，過去幾年，自動駕駛高度依賴高精地圖，但現(xiàn)在更追求像人一樣開車，也就是在不依賴預(yù)設(shè)地圖的情況下，實時感知并理解周圍環(huán)境。

在這個過程中，BEV、Occupancy（占用網(wǎng)絡(luò)）和Transformer的組合成了主流，而曾經(jīng)在機器人領(lǐng)域立下汗馬功勞的SLAM方案，卻沒有在智駕領(lǐng)域大放異彩。為什么無圖智駕不使用SLAM建立局部語義地圖？

為什么傳統(tǒng)的幾何建圖跟不上變化？

傳統(tǒng)的SLAM方案（即即時定位與地圖構(gòu)建）核心邏輯是基于幾何約束的。它依賴于如系統(tǒng)提取出路邊建筑的邊緣、交通標(biāo)志的轉(zhuǎn)角等特征點的匹配，然后通過復(fù)雜的數(shù)學(xué)公式計算這些點在三維空間中的坐標(biāo)。這種方案在處理靜態(tài)、剛性的環(huán)境時會非常精確，但在城市交通這種動態(tài)、非剛性的環(huán)境下，幾何邏輯就會遭遇嚴(yán)重的挑戰(zhàn)。

圖片源自：網(wǎng)絡(luò)

因為SLAM方案在構(gòu)建局部語義地圖時，本質(zhì)上是在做一種拼圖工作。它需要先識別出圖像里的車、人、路緣石，然后嘗試把這些帶語義標(biāo)簽的物體投影到地圖坐標(biāo)系里。一旦圖像中出現(xiàn)了遮擋，或者是車輛在顛簸中導(dǎo)致相機角度發(fā)生了微小的偏移，幾何投影就會產(chǎn)生錯位，導(dǎo)致地圖里的物體出現(xiàn)重影或位置漂移。更關(guān)鍵的是，這種方案對算力的消耗分布不均，隨著環(huán)境復(fù)雜度的提升，維護(hù)一個精細(xì)的局部特征地圖會占用大量的內(nèi)存和處理時間。

在此基礎(chǔ)上，語義斷層也是一個無法回避的問題。傳統(tǒng)的語義地圖方案要求系統(tǒng)必須先看懂物體，才能將其畫進(jìn)地圖。但在實際駕駛中，我們會遇到各種無法被歸類的東西，比如路邊垂下的樹枝、灑在地上的建筑垃圾，或者是形狀怪異的特種車輛。SLAM方案如果無法給這些物體貼上準(zhǔn)確的標(biāo)簽，它們在局部地圖里可能就是缺失的，這對自動駕駛的高安全要求來說是一個巨大的隱患。

Transformer是如何重塑空間感的？

BEV方案之所以在自動駕駛領(lǐng)域崛起，核心在于它引入了Transformer這種能夠處理全局關(guān)聯(lián)的架構(gòu)，其徹底改變了空間特征的轉(zhuǎn)化方式。在傳統(tǒng)的方案中，我們要把2D圖像轉(zhuǎn)為3D空間，需要依賴深度估計，也就是先猜每一個像素點離我有多遠(yuǎn)，再把它投射出去。但猜深度本身就是一個極不穩(wěn)定的過程，容易受到光影、雨霧的干擾。

圖片源自：網(wǎng)絡(luò)

Transformer引入了主動詢問的機制。在BEV空間里，算法會先預(yù)設(shè)好一張空的鳥瞰圖畫布，畫布上的每一個位置（我們稱之為Query，即查詢量）都會主動去向所有的攝像頭畫面打聽，在你們的視野里，有沒有哪個像素的信息是屬于我這個地理位置的？這種機制不再強求系統(tǒng)去精準(zhǔn)計算深度，而是通過大規(guī)模數(shù)據(jù)的學(xué)習(xí)，讓系統(tǒng)建立起一種類似于人類的空間感。它知道當(dāng)左側(cè)相機出現(xiàn)一個車頭，后側(cè)相機出現(xiàn)一個車尾時，它們在BEV畫布上應(yīng)該匯聚成同一個物理實體的特征。

這種方式的最大優(yōu)勢在于它能夠?qū)崿F(xiàn)特征級的融合，而不是結(jié)果級的拼接。過去我們是把每個相機算出的結(jié)果強行湊在一起，現(xiàn)在我們是在最底層的特征階段就把360度的信息融為一體。由于Transformer具有全局注意力機制，它甚至可以利用道路的整體輪廓來推斷被遮擋區(qū)域的情況。如當(dāng)一輛貨車擋住了側(cè)方視角時，系統(tǒng)可以結(jié)合前后的車道線走向，在BEV空間里腦補出貨車后方的道路結(jié)構(gòu)，這種邏輯的連貫性是傳統(tǒng)SLAM方案難以企及的。

占用網(wǎng)絡(luò)如何解決感知死角？

如果說BEV和Transformer聯(lián)手解決了視野重構(gòu)與空間還原的問題，讓車輛看清了世界長什么樣以及空間怎么分布，那么占用網(wǎng)絡(luò)存在的意義，就是通過判定空間是否被占據(jù)，繞過了傳統(tǒng)識別方案中必須先給物體分類的要求，解決了因為系統(tǒng)叫不出物體名字而造成的感知漏洞。

在SLAM語義地圖里，如果系統(tǒng)識別不出一個物體是什么，它可能就會忽略這個物體的物理存在。而占用網(wǎng)絡(luò)將空間細(xì)分為一個個微小的體素塊，它的任務(wù)極其純粹，即判斷每一個小方塊是被占據(jù)了，還是空的。

圖片源自：網(wǎng)絡(luò)

這種基于幾何占用而非語義識別的邏輯，為智駕系統(tǒng)提供了一層物理保底。它把世界看作是一個充滿障礙物的物理空間，而不是一張貼滿標(biāo)簽的分類表。當(dāng)車輛行駛在路上，無論前方是一個倒下的路標(biāo)、一堆灑落的紙箱，還是一輛橫著的事故車，占用網(wǎng)絡(luò)都能實時反饋出那片空間是不可逾越的。它不需要知道那個東西叫什么，只需要知道那里的物理空間被占據(jù)了，從而引導(dǎo)車輛進(jìn)行避讓。

同時，這種方案還帶來了極高的時空連續(xù)性。通過將Transformer處理后的特征注入到占用網(wǎng)絡(luò)中，系統(tǒng)可以存儲過去幾個幀的信息，形成帶記憶的4D空間感知。即使某個障礙物在某一瞬間被其他車輛遮擋了，系統(tǒng)依然記得在那個體素塊里曾經(jīng)檢測到了物體，并能根據(jù)物體的運動趨勢預(yù)測它現(xiàn)在的位置。這種對物理世界的連續(xù)理解能力，讓無圖智駕方案在處理復(fù)雜路口和突發(fā)狀況時，表現(xiàn)得遠(yuǎn)比依賴靜態(tài)語義地圖的方案要從容和安全。

為什么這種組合成為了必然選擇？

BEV、Transformer和Occupancy的結(jié)合，實際上是將原本支離破碎的感知環(huán)節(jié)統(tǒng)一到了同一個坐標(biāo)系和同一種數(shù)學(xué)語言下。SLAM方案之所以沒有在智駕領(lǐng)域得到應(yīng)用，本質(zhì)上是因為它試圖在一個不斷變動的世界里建立一套永恒不變的坐標(biāo)，這在復(fù)雜的城市環(huán)境中成本太高、容錯率太低。

圖片源自：網(wǎng)絡(luò)

自動駕駛需要擁抱不確定性，通過利用Transformer的強大擬合能力去處理相機間的視差和遮擋，利用BEV視角提供統(tǒng)一的決策基礎(chǔ)，再利用占用網(wǎng)絡(luò)補齊對未知物體的識別短板，可以讓自動駕駛實現(xiàn)老司機的駕駛能力。這種架構(gòu)不僅對傳感器的安裝位置、型號具有更強的兼容性，更重要的是，它極大簡化了感知與下游規(guī)控環(huán)節(jié)的對接流程。

當(dāng)規(guī)控系統(tǒng)拿到的不再是幾個飄忽不定的語義標(biāo)簽和一堆散亂的點云，而是一張高清、實時、且包含了物理占用信息的3D鳥瞰圖時，路徑規(guī)劃就會變得像玩賽車游戲一樣直觀。這種從底層邏輯上的簡化與重構(gòu)，正是無圖智駕能夠快速落地、并表現(xiàn)出超越人類司機反應(yīng)潛力的根本原因，也是眾多車企敢于選擇無圖的原因。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴