日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

VLA與世界模型,會(huì)讓自動(dòng)駕駛汽車走多遠(yuǎn)?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-09-01 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號(hào)]在一個(gè)雨夜的十字路口,你開車行駛到路中央,前方是一輛猶豫不決的電動(dòng)車,左側(cè)有一臺(tái)打著轉(zhuǎn)向燈的出租車,右后方突然閃過一束遠(yuǎn)光燈。這時(shí)候你會(huì)怎么做?經(jīng)驗(yàn)豐富的司機(jī)往往會(huì)迅速分析,電動(dòng)車可能突然橫穿,出租車大概率要并線,后車逼得太緊不能急剎,最穩(wěn)妥的辦法是先減速,給前后左右都留出余地。看似幾秒鐘的決定,實(shí)際上包含了感知、預(yù)測(cè)、推理和取舍。

可如果把同樣的場(chǎng)景交給自動(dòng)駕駛呢?傳統(tǒng)的系統(tǒng)更多是基于規(guī)則和簡(jiǎn)單預(yù)測(cè),它能看見電動(dòng)車、檢測(cè)出租車、識(shí)別遠(yuǎn)光燈,卻未必能像人類一樣“想明白”這些信號(hào)背后的意圖和邏輯。于是,車子要么顯得過度保守停在原地,要么冒進(jìn)地沖出去,最終都和人類駕駛的直覺一定會(huì)有差距。也正因?yàn)槿绱?,行業(yè)開始追問,能不能讓車也擁有“理解和推理”的能力?答案正是近年來興起的VLA(視覺—語言—?jiǎng)幼髂P停┖褪澜缒P汀?/p>

其實(shí)過去十年,自動(dòng)駕駛的發(fā)展像坐過山車一樣起伏。早期技術(shù)方案覺得靠感知、預(yù)測(cè)、規(guī)劃、控制的模塊化體系,把規(guī)則寫全,把數(shù)據(jù)堆夠,就能讓汽車自動(dòng)開起來。但隨著項(xiàng)目規(guī)模擴(kuò)大,越來越多從業(yè)者意識(shí)到,這套方法天然有天花板。模塊化的鏈條太長,每個(gè)環(huán)節(jié)之間的信息丟失嚴(yán)重,人工接口讓系統(tǒng)難以聯(lián)合優(yōu)化,即使投入海量人力,也難以覆蓋長尾復(fù)雜場(chǎng)景。VLA和世界模型的出現(xiàn),讓車子不只是“執(zhí)行規(guī)則”,而是像人一樣“理解和推理”。

wKgZPGi09ViAG62WAAAQo00DEvw730.jpg

VLA的邏輯:從“會(huì)看”到“會(huì)想”

VLA的本質(zhì)是把自動(dòng)駕駛從單純的數(shù)據(jù)驅(qū)動(dòng),逐步引向知識(shí)驅(qū)動(dòng)。過去的端到端嘗試大多直接把圖像輸入和車輛動(dòng)作輸出綁定在一起,中間缺乏解釋能力。而VLA則引入了多模態(tài)大模型的優(yōu)勢(shì),把視覺、點(diǎn)云、地圖、傳感器信息都編碼進(jìn)一個(gè)統(tǒng)一的語義空間,再通過語言模型來進(jìn)行邏輯推理和高層決策。換句話說,它讓車不只是會(huì)“看”,更會(huì)“想”。視覺編碼器負(fù)責(zé)從圖像或點(diǎn)云中提取特征,對(duì)齊模塊把這些特征映射到語言空間,語言模型則像人腦的“推理區(qū)”,根據(jù)上下文和邏輯得出結(jié)論,最后生成器把這種高層意圖轉(zhuǎn)換成車輛可以執(zhí)行的軌跡或動(dòng)作??梢哉f,VLA就是把人類駕駛的認(rèn)知流程,第一次較完整地搬進(jìn)了機(jī)器世界。

wKgZO2i09VmAXikHAABcp8AnFYo585.jpg

VLA模型的總體架構(gòu),包含編碼器、解碼器和輸出動(dòng)作

要讓VLA真正工作起來,有三塊技術(shù)難點(diǎn)是繞不開的。首先是三維特征的表達(dá)。車面對(duì)的是一個(gè)三維世界,二維的圖像信息遠(yuǎn)遠(yuǎn)不夠。近年來被頻繁提到的3D Gaussian Splatting技術(shù),正是為了解決這一問題。它用一系列高斯分布來顯式表示三維點(diǎn),不僅比傳統(tǒng)的體素網(wǎng)格節(jié)省算力,還能達(dá)到實(shí)時(shí)渲染的水平。相比之下,像NeRF那樣的隱式場(chǎng)景表示雖然能渲染得極其逼真,但計(jì)算量過大,幾乎不可能放在車端使用。3D GS在效率和真實(shí)感之間找到了平衡,因此被很多團(tuán)隊(duì)作為中間特征的候選方案。不過,它也有短板,比如對(duì)初始點(diǎn)云的質(zhì)量非常依賴,這意味著在采集數(shù)據(jù)階段就要保證精度,否則渲染結(jié)果會(huì)受到較大影響。但從整體趨勢(shì)來看,3D GS已經(jīng)成為讓車能更“立體”地理解世界的重要一步。

wKgZPGi09VmAQ8jGAABh5wSdcOQ600.jpg

3D GS與其余三維重建技術(shù)的區(qū)別

第二個(gè)難點(diǎn)是記憶與長時(shí)序推理。駕駛是一項(xiàng)連續(xù)任務(wù),不是單幀的反應(yīng)動(dòng)作。車需要記住前方幾秒鐘的交通參與者行為,才能判斷對(duì)方是要超車、掉頭還是直行。然而傳統(tǒng)Transformer在處理長序列時(shí)開銷太大,窗口一旦超過幾千步,計(jì)算就變得不可承受,同時(shí)信息還容易被稀釋掉。為了解決這個(gè)問題,有技術(shù)引入了稀疏注意力和動(dòng)態(tài)記憶模塊。稀疏注意力通過只關(guān)注關(guān)鍵位置,顯著降低了計(jì)算復(fù)雜度,而動(dòng)態(tài)記憶則像外掛的存儲(chǔ)器,把歷史中的關(guān)鍵信息提取、保存,在需要時(shí)重新調(diào)出。這種方式讓模型既能處理長時(shí)依賴,又不會(huì)在車端算力有限的環(huán)境下崩潰。像是小米的QT-Former就在長時(shí)記憶上做了優(yōu)化,理想的Mind架構(gòu)同樣在探索類似的思路,說明這已經(jīng)成了產(chǎn)業(yè)界的共識(shí)。

wKgZO2i09VqAUPsAAABn39L_ZQY532.jpg

小米QT-Former模型架構(gòu)

第三個(gè)難點(diǎn)是推理效率。車端的算力和功耗都有限,不可能像云端一樣無限堆GPU。于是量化、蒸餾、裁剪等傳統(tǒng)模型壓縮手段,成了落地必備。理想采用GPTQ等后訓(xùn)練量化方法,把大模型縮小到能實(shí)時(shí)運(yùn)行的程度,同時(shí)探索混合專家模型MOE,通過只激活部分專家的方式來減少開銷。這樣的架構(gòu)既能保持大模型的能力,又不會(huì)讓推理速度拖慢整個(gè)系統(tǒng)。智駕最前沿以為,未來車端的大模型必然是“稀疏+量化”的形態(tài),否則在能耗和成本上都不現(xiàn)實(shí)。

wKgZPGi09VqATZ75AAAR42n7O-I039.jpg

世界模型:虛擬世界里的試煉場(chǎng)

如果說VLA是車子的“大腦”,那么世界模型就是它的“訓(xùn)練場(chǎng)”。因?yàn)楝F(xiàn)實(shí)世界的數(shù)據(jù)再多,也不可能覆蓋所有情況,更不能無限試錯(cuò)。高保真的世界模型能生成各種道路場(chǎng)景,補(bǔ)充長尾數(shù)據(jù),還能提供一個(gè)低成本、安全的閉環(huán)環(huán)境,讓模型在虛擬世界里反復(fù)學(xué)習(xí)。理想的DriveDreamer4D就是一個(gè)典型案例,它能生成新軌跡視頻并和真實(shí)數(shù)據(jù)對(duì)齊,用來擴(kuò)展數(shù)據(jù)集;ReconDreamer則通過漸進(jìn)式數(shù)據(jù)更新來減少長距離生成里的假象;OLiDM針對(duì)激光雷達(dá)數(shù)據(jù)稀缺的問題,用擴(kuò)散模型來生成點(diǎn)云。這些名字看起來很學(xué)術(shù),但本質(zhì)上都是在做一件事,用虛擬的方式去還原真實(shí)世界的復(fù)雜性,讓模型提前適應(yīng)未來可能遇到的情況。

在訓(xùn)練范式上,VLA和世界模型也發(fā)生了很多變化。過去大家依賴行為克隆,即讓模型模仿人類駕駛,但這種方法在遇到?jīng)]見過的情況時(shí)往往會(huì)失效。現(xiàn)在更多采用三階段閉環(huán),先用行為克隆做起步,保證模型有個(gè)基礎(chǔ),再用逆強(qiáng)化學(xué)習(xí)從專家數(shù)據(jù)中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),最后通過世界模型里的強(qiáng)化學(xué)習(xí)不斷迭代優(yōu)化。這種方式讓模型不僅會(huì)模仿,還能自己探索更優(yōu)解,逐漸超越人類示范的水平。

wKgZO2i09VuALlHeAAASG3BOmsQ625.jpg

產(chǎn)業(yè)視角:車企為何搶跑?

把大語言模型放到自動(dòng)駕駛里并不是把車變成聊天機(jī)器人那么簡(jiǎn)單。VLA的核心在于“多模態(tài)”和“動(dòng)作生成”,視覺編碼器要能把圖像、視頻、甚至點(diǎn)云編碼成對(duì)語言友好的中間表示;對(duì)齊模塊要把這些視覺表示映射到語言空間;語言模型承擔(dān)長時(shí)的推理和決策;解碼器則把高層意圖細(xì)化成車輛可執(zhí)行的低層動(dòng)作或者軌跡。其實(shí)汽車的任務(wù)比較單一,就是開車,場(chǎng)景也相對(duì)有規(guī)則,道路標(biāo)線、交通燈、車輛行為都有明確約束。再加上車企自帶海量車隊(duì)和數(shù)據(jù)收集能力,這使得VLA更容易在車上形成規(guī)模效應(yīng)。這也是為什么國內(nèi)外廠商紛紛入局的原因。Waymo早期推出了EMMA系統(tǒng),算是奠定了方向;國內(nèi)理想正在構(gòu)建完整的Mind架構(gòu),小米在量產(chǎn)車中測(cè)試QT-Former,小鵬在嘗試端到端引入大模型,華為則在MDC平臺(tái)上為未來預(yù)留了大模型接口。不同公司路線各異,但目標(biāo)是一致的,讓車子具備更強(qiáng)的理解和推理能力。

wKgZPGi09VuAEtCsAABil4raMsE133.jpg

EMMA模型架構(gòu)

wKgZPGi09VyAV-n6AAASAJELks8832.jpg

寫在最后

總的來說,VLA與世界模型的結(jié)合,標(biāo)志著自動(dòng)駕駛正在經(jīng)歷一次認(rèn)知層面的升級(jí)。它們不僅僅是算法改良,而是范式的轉(zhuǎn)變,從“能看會(huì)開”走向“能想會(huì)推理”。這條路當(dāng)然不輕松,三維表征、記憶機(jī)制、算力約束和仿真保真度,每一項(xiàng)都是難題。但隨著架構(gòu)逐步成熟、世界模型越來越逼真、閉環(huán)訓(xùn)練越發(fā)完善,我們有理由相信,未來的自動(dòng)駕駛不只是冷冰冰的感知與控制機(jī)器,而是一個(gè)能理解環(huán)境、能解釋行為、能與人類邏輯對(duì)接的“駕駛智能體”。誰能最先把這些技術(shù)變成大規(guī)模落地的體驗(yàn),誰就能在下一階段的競(jìng)爭(zhēng)中拔得頭籌。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Vla
    Vla
    +關(guān)注

    關(guān)注

    0

    文章

    24

    瀏覽量

    5916
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    795

    文章

    15014

    瀏覽量

    181728
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小鵬發(fā)布 X-World 世界模型:已全面應(yīng)用第二代VLA

    電子發(fā)燒友網(wǎng)綜合報(bào)道 近日,小鵬汽車正式發(fā)布 X-World 生成式世界模型技術(shù)報(bào)告,并同步公開 arXiv 技術(shù)論文,這是業(yè)內(nèi)面向端到端自動(dòng)駕駛、可工程化落地的多攝像頭可控
    的頭像 發(fā)表于 04-14 10:11 ?6047次閱讀

    理想汽車發(fā)布下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1

    下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1。MindVLA-o1通過五大技術(shù)創(chuàng)新,構(gòu)建了面向物理世界智能的自動(dòng)駕駛基礎(chǔ)模型,
    的頭像 發(fā)表于 03-18 11:51 ?1539次閱讀
    理想<b class='flag-5'>汽車</b>發(fā)布下一代<b class='flag-5'>自動(dòng)駕駛</b>基礎(chǔ)<b class='flag-5'>模型</b>MindVLA-o1

    如何構(gòu)建適合自動(dòng)駕駛世界模型?

    提出的。那世界模型自動(dòng)駕駛落地的正解嗎? 什么是世界模型世界
    的頭像 發(fā)表于 02-18 08:14 ?1.1w次閱讀
    如何構(gòu)建適合<b class='flag-5'>自動(dòng)駕駛</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    已有VLM,自動(dòng)駕駛為什么還要探索VLA?

    時(shí)(長尾場(chǎng)景),會(huì)因規(guī)則覆蓋不足而表現(xiàn)僵化。 隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識(shí)到,如果車輛能像人類一樣擁有常識(shí),理解什么是“潮汐車道”,知道“救護(hù)車在后方鳴笛需要避讓”,那么
    的頭像 發(fā)表于 02-03 09:04 ?376次閱讀
    已有VLM,<b class='flag-5'>自動(dòng)駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    強(qiáng)化學(xué)習(xí)會(huì)自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛模型訓(xùn)練時(shí),有的技術(shù)方案會(huì)采用模仿學(xué)習(xí),而有些會(huì)采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)
    的頭像 發(fā)表于 01-31 09:34 ?860次閱讀
    強(qiáng)化學(xué)習(xí)<b class='flag-5'>會(huì)</b><b class='flag-5'>讓</b><b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>模型</b>學(xué)習(xí)更快嗎?

    黃仁勛:未來十年很多汽車自動(dòng)駕駛 英偉達(dá)發(fā)布Alpamayo汽車模型平臺(tái)

    最看好的AI落地場(chǎng)景就是自動(dòng)駕駛。在演講中黃仁勛提到,未來十年,世界上很大一部分汽車將是自動(dòng)駕駛或高度自動(dòng)駕駛的。你期待嗎? 英偉達(dá)發(fā)布Al
    的頭像 發(fā)表于 01-06 11:45 ?1481次閱讀

    自動(dòng)駕駛中常提的世界模型是什么?

    在很多廠家的技術(shù)方案中,會(huì)提到世界模型的介紹。世界模型,就是自動(dòng)駕駛系統(tǒng)內(nèi)部用來表示外部
    的頭像 發(fā)表于 01-05 16:23 ?1129次閱讀

    VLA世界模型有什么不同?

    [首發(fā)于智駕最前沿微信公眾號(hào)]當(dāng)前自動(dòng)駕駛行業(yè),各車企的技術(shù)路徑普遍選擇了單車智能方向。而在實(shí)際落地過程中,不同企業(yè)選擇了差異化的技術(shù)實(shí)現(xiàn)方式,部分車企側(cè)重于視覺—語言—?jiǎng)幼?b class='flag-5'>模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?901次閱讀
    <b class='flag-5'>VLA</b>與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型自動(dòng)駕駛汽車理解世界還是預(yù)測(cè)未來?

    ? [首發(fā)于智駕最前沿微信公眾號(hào)]世界模型自動(dòng)駕駛技術(shù)中已有廣泛應(yīng)用。但當(dāng)談及它對(duì)自動(dòng)駕駛的作用時(shí),難免會(huì)出現(xiàn)分歧。它到底是
    的頭像 發(fā)表于 12-16 09:27 ?1045次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是<b class='flag-5'>讓</b><b class='flag-5'>自動(dòng)駕駛</b><b class='flag-5'>汽車</b>理解<b class='flag-5'>世界</b>還是預(yù)測(cè)未來?

    VLA能解決自動(dòng)駕駛中的哪些問題?

    [首發(fā)于智駕最前沿微信公眾號(hào)]很多從事自動(dòng)駕駛的小伙伴應(yīng)該對(duì)VLA這個(gè)概念已經(jīng)非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—?jiǎng)幼鳎?b class='flag-5'>模型,它的核心是將
    的頭像 發(fā)表于 11-25 08:53 ?652次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動(dòng)駕駛</b>中的哪些問題?

    模型中常提的快慢思考會(huì)對(duì)自動(dòng)駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型世界模型的全新自動(dòng)駕駛技術(shù)架構(gòu)
    的頭像 發(fā)表于 11-22 10:59 ?2650次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會(huì)對(duì)<b class='flag-5'>自動(dòng)駕駛</b>產(chǎn)生什么影響?

    VLA世界模型,誰才是自動(dòng)駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號(hào)]隨著自動(dòng)駕駛技術(shù)發(fā)展,其實(shí)現(xiàn)路徑也呈現(xiàn)出兩種趨勢(shì),一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動(dòng))模型路線;另一邊則是以華為、蔚來為主導(dǎo)的世界
    的頭像 發(fā)表于 11-05 08:55 ?961次閱讀
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動(dòng)駕駛</b>的最優(yōu)解?

    自動(dòng)駕駛上常提的VLA世界模型有什么區(qū)別?

    自動(dòng)駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動(dòng)作”。VLA的目標(biāo)是把相機(jī)或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最
    的頭像 發(fā)表于 10-18 10:15 ?1442次閱讀

    自動(dòng)駕駛中常提的世界模型是個(gè)啥?

    對(duì)外部環(huán)境進(jìn)行抽象和建模的技術(shù),自動(dòng)駕駛系統(tǒng)在一個(gè)簡(jiǎn)潔的內(nèi)部“縮影”里,對(duì)真實(shí)世界進(jìn)行描述與預(yù)測(cè),從而為感知、決策和規(guī)劃等關(guān)鍵環(huán)節(jié)提供有力支持。 什么是世界
    的頭像 發(fā)表于 06-24 08:53 ?1429次閱讀
    <b class='flag-5'>自動(dòng)駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個(gè)啥?

    VLA,是完全自動(dòng)駕駛的必經(jīng)之路?

    芯片,以及英偉達(dá)Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當(dāng)前智駕領(lǐng)域集中主流的大模型技術(shù)路線,以及各家廠商實(shí)現(xiàn)方式的區(qū)別和發(fā)展。 ? VLA 和VLM ?
    的頭像 發(fā)表于 06-18 00:06 ?9788次閱讀
    温宿县| 修武县| 全州县| 临澧县| 夏河县| 阳西县| 明光市| 兴安县| 康乐县| 温泉县| 万载县| 阿拉尔市| 株洲县| 台江县| 许昌县| 山阳县| 基隆市| 利津县| 双柏县| 万载县| 山西省| 宣汉县| 邹城市| 双桥区| 南召县| 婺源县| 舒城县| 抚顺市| 万宁市| 报价| 兰西县| 宁强县| 东乌珠穆沁旗| 乌兰浩特市| 鲜城| 辽源市| 大洼县| 道孚县| 民勤县| 离岛区| 峨眉山市|