中文字幕第二页997,国产综合在线播放一区,亚洲免费三级片

[首發(fā)于智駕最前沿微信公眾號]在討論自動駕駛技術(shù)時，很多人容易產(chǎn)生一種誤解，認為端到端是一項孤立的新技術(shù)，會完全取代BEV（鳥瞰圖）或Transformer，也有小伙伴曾在后臺留言詢問端到端模型還會使用BEV+Transformer嗎？

事實上，端到端并不是要推翻現(xiàn)有的感知架構(gòu)，而是將原本各司其職的模塊，通過一種更高效、更具邏輯性的方式融合在一個龐大的神經(jīng)網(wǎng)絡(luò)里。BEV和Transformer依然是這套系統(tǒng)的眼睛和骨架，只是它們的工作方式發(fā)生了變革。

為什么空間感知依然是核心？

自動駕駛最基本的要求就是讓車輛知道自己在哪里，周圍有什么。雖然端到端模型可以直接輸出駕駛軌跡，但如果系統(tǒng)內(nèi)部沒有建立起準(zhǔn)確的空間模型，它給出的動作就會變得不可預(yù)測且缺乏邏輯。

BEV技術(shù)的核心價值在于它提供了一個統(tǒng)一的空間底座。它能將布置在車身四周的多個攝像頭采集到的圖像信息，實時投影到一個俯視的角度下。在這個角度里，物體之間的距離、車道的走向以及交叉口的布局，都變得和人類看地圖一樣直觀。

圖片源自：網(wǎng)絡(luò)

在目前的端到端方案中，BEV不再只是為了畫出漂亮的感知畫面供工程師查看。它的真實作用是作為特征容器。當(dāng)多路攝像頭的數(shù)據(jù)涌入模型時，系統(tǒng)會在這個統(tǒng)一的空間平面內(nèi)進行特征疊加。

這種做法解決了攝像頭視野重疊或遮擋的問題，讓模型在處理諸如大曲率彎道或復(fù)雜的城市路口時，能夠擁有一份連貫的空間記憶。如果缺少了這個空間視角，端到端模型就只能在混亂的像素中摸索，很難表現(xiàn)出穩(wěn)定的駕駛決策能力。

Transformer是如何連接時空的？

如果說BEV是舞臺，那么Transformer就是舞臺上的總導(dǎo)演，負責(zé)決定哪些信息該被保留，哪些信息該被重點關(guān)注。在端到端模型內(nèi)部，Transformer的注意力機制解決了感知中的一個痛點，如何把不同位置、不同時間的信息關(guān)聯(lián)起來。

圖片源自：網(wǎng)絡(luò)

通過這種機制，模型可以自主學(xué)習(xí)哪些畫面特征對當(dāng)前的駕駛?cè)蝿?wù)最重要。如在通過紅綠燈路口時，它會自動把權(quán)重分配給前方的信號燈和側(cè)方的行人，而不是路邊無關(guān)緊要的樹木。

更重要的是，現(xiàn)在的端到端模型非常依賴Transformer來處理時間序列。駕駛不是一個靜態(tài)的瞬間，而是一個連續(xù)的過程。Transformer能夠像人類的短期記憶一樣，把過去幾秒鐘的特征信息串聯(lián)起來。這讓模型具備了預(yù)測能力，即使遇到一個騎車人被路邊的公交車擋住了的場景，系統(tǒng)依然能通過之前的觀察記錄，推斷出這個人的大概位置和行進速度。這種對時空信息的深度整合，讓端到端模型在面對“鬼探頭”等極端場景時，反應(yīng)比純粹的規(guī)則算法更加靈敏且自然。

神經(jīng)網(wǎng)絡(luò)內(nèi)部是怎么交流的？

傳統(tǒng)的自動駕駛架構(gòu)像是一條流水線，感知算完了給預(yù)測，預(yù)測算完了給規(guī)控。每一道工序都會把數(shù)據(jù)翻譯成如目標(biāo)物的坐標(biāo)、速度數(shù)值等人類能讀懂的格式。但在端到端模型中，這種交流變得更加高效。BEV和Transformer生成的特征，直接以高維向量的形式傳給下游。這種方式最大的進步在于避免了信息折損。

圖片源自：網(wǎng)絡(luò)

以往如果我們把一個異形物體誤識別成了電線桿，后面的規(guī)劃模塊就可能因為這個錯誤的標(biāo)簽而做出錯誤的規(guī)避。但在端到端系統(tǒng)里，即便模型叫不出那個物體的名字，它也能通過Transformer感知到那個位置的特征是不可通行的，從而直接計算出一條繞行的曲線。

這種從原始特征到駕駛行為的直接映射，省去了中間繁雜的人工規(guī)則定義，讓車輛在面對各種奇奇怪怪的路況時，表現(xiàn)得更像一個有經(jīng)驗的老司機，而不是只會按說明書干活的機器人。

未來的模型還會怎么變？

雖然現(xiàn)在的端到端模型高度依賴BEV和Transformer，但這套組合也在不斷進化。目前的趨勢是讓模型具備更強的世界感，很多技術(shù)方案也正在嘗試引入Occupancy（占用網(wǎng)絡(luò)）的思想，讓模型不再關(guān)注具體的物體，而是關(guān)注空間中的每一個體積單位是否被占據(jù)。這種做法讓端到端模型在處理施工區(qū)域、散落物等不規(guī)則障礙物時，擁有了更高的魯棒性。

圖片源自：網(wǎng)絡(luò)

此外，隨著多模態(tài)大模型的普及，端到端架構(gòu)也開始吸收語言和視覺大模型的經(jīng)驗。未來的系統(tǒng)可能不僅能看到路，還能通過類似Transformer的架構(gòu)去理解一些如識別出路邊交警的手勢、判斷出前方車輛突然減速的意圖等隱性的交通邏輯。

所以，BEV和Transformer并不會消失，它們反而在端到端的大趨勢下，從原本獨立的插件變成了系統(tǒng)神經(jīng)網(wǎng)絡(luò)中不可分割的神經(jīng)元，共同讓自動駕駛變得更加聰明。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴