日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

世界模型是讓自動駕駛汽車理解世界還是預測未來?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-12-16 09:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]世界模型在自動駕駛技術中已有廣泛應用。但當談及它對自動駕駛的作用時,難免會出現(xiàn)分歧。它到底是讓自動駕駛汽車得以理解世界,還是為其提供了預測未來的視角?

wKgZPGlAtYiAf3xYAAAQo00DEvw958.jpg

世界模型到底做了什么?

世界模型,其實是一個“內(nèi)部表征+動態(tài)預測”的組合。簡單理解,世界模型就是將感知到的東西(圖像、點云、雷達、文本、動作歷史)壓縮成一套內(nèi)部狀態(tài),然后用這套內(nèi)部狀態(tài)去生成、預測接下來可能出現(xiàn)的場景或觀察。

wKgZO2lAtYmAS7HXACdE4BnKVEM069.jpg

圖片源自:網(wǎng)絡

想要實現(xiàn)“內(nèi)部表征+動態(tài)預測”,有兩個關鍵的技術不得不去討論,一個是“表示”(representation),也就是把復雜的外界信息提煉成對后續(xù)推斷和決策有用的結(jié)構;還有一個是“生成/預測”(generative/predictive),即基于表示去推演、采樣、評估未來可能發(fā)生的序列。

早期很多研究發(fā)現(xiàn),如果智能體每一步都只根據(jù)當前看到的畫面直接“做反應”,其實跟條件反射差不多,缺少前瞻性。一旦場景稍微復雜,或者需要權衡幾步之后的結(jié)果,這種做法就很容易失誤。于是“世界模型”這個概念就被引入到強化學習中,也就是先讓系統(tǒng)學會一個簡化但可信的“世界運行方式”,也就是學清楚在某個狀態(tài)下采取什么動作,環(huán)境大概率會往哪個方向發(fā)展。等這個模型學成了,策略就不再只盯著眼前這一刻,而是可以在這個“內(nèi)部世界”里提前試著走幾步,看看不同選擇大概會帶來什么后果,再決定現(xiàn)實中該怎么做。

這種做法的變化點在于,系統(tǒng)不再是“看見什么就立刻反應什么”,而是先在內(nèi)部做一輪模擬和推演,再輸出動作。也正因為多了這一步“提前想一想”的動作,智能體的行為便傾向于在做規(guī)劃,而不是條件反射式的響應。

這也回答了為什么有人說世界模型是在“理解世界”,如果“理解”被定義為能在內(nèi)部構建一個能解釋因果、能預測后果、并能據(jù)此做出合理選擇的表征,那么世界模型確實是一種機器理解。相對地,如果你把“理解”定義為擁有像人類一樣的主觀體驗、常識推理和高層抽象的概念,那世界模型還遠未到那一步。

其實世界模型更準確的定位應該是一種能替代部分理解功能的機器表征與預測機制,它做的是有用的理解,而不是類似人類的全方位主觀理解。世界模型的更像是讓大模型在內(nèi)部試跑未來,再用模擬得到的后果指導現(xiàn)實中的行動。

wKgZPGlAtYqAObvHAAAR42n7O-I294.jpg

世界模型的三要素

將世界模型拆開剖析,其可以分為3部分,第1個是表征(representation),第2個是動力學/生成模型(dynamics/generative),第3個是利用這些能力來支持決策(planning/control)。

這三者不是獨立模塊簡單拼湊,而是互相輔助,好的表征可以讓預測更穩(wěn)健,可靠的預測能讓規(guī)劃更安全,而規(guī)劃過程也能反過來推動表征和預測的改進(例如通過閉環(huán)數(shù)據(jù)收集)。這種閉環(huán)被視為世界模型范式的核心,即大模型學習一個可用來想象未來的內(nèi)部世界,然后在想象中訓練和評估動作。

表征通常會把高維觀測映射到一個低維或離散的潛在空間,這個潛在空間既要壓縮信息,也要保留那些對未來預測和決策至關重要的結(jié)構(比如物體的速度、相對位置、可碰撞性、路面屬性等)。

生成/動力學模塊則在這個潛在空間上學習時間演化規(guī)則,給定當前潛在狀態(tài)和動作,預測下一步潛在狀態(tài)或直接生成下一幀觀測。一旦這套機制可用,就能在內(nèi)部做軌跡采樣、比較不同動作序列的后果,進而選擇一個看起來更安全、更高收益的動作。這種“先想后做”的模式,正是世界模型在機器人和自動控制里被看好的核心原因。

當然,世界模型并不是生成像素級的逼真畫面,而是在某種抽象層面上保留因果和可操作的信息。換言之,對于世界模型來說,能不能預測未來的高層結(jié)構(哪個物體會碰到哪個物體,速度會如何變化,行人的意圖是不是要橫穿馬路)比單純把畫面渲染得漂亮更重要。這也是為什么有些工作不做原始像素的逐幀生成,而是去預測四維占據(jù)(4Doccupancy)、幾何表示、BEV(bird-eyeview)軌跡或更緊湊的行為意圖。

wKgZPGlAtYuANgMAAAASG3BOmsQ632.jpg

世界模型到底是在“理解”還是“預測”?

如果非要在“理解世界”與“預測未來”之間選一項作為世界模型的本質(zhì),智駕最前沿以為,世界模型本質(zhì)上是為了預測而構建的表征系統(tǒng),但這種預測是為決策服務的,因此它等同于一種可操作的理解。也就是說,世界模型通過預測未來(短期或中期)的能力來體現(xiàn)對世界的理解,但這種理解是功能性的、以行為為導向的,而不是哲學意義上的知道世界為什么存在的那種理解。

其實對于世界模型來說,預測是手段不是目的,世界模型的最終目的是改善決策效果,而預測未來只是實現(xiàn)該目的的方式?!袄斫狻睂τ谑澜缒P鸵仓皇且环N可操作的形式,它不是詞典式的定義或人文式的領悟,而是把有用的因果、動力學、約束編碼進模型,使模型在遇到新情況時能推測后果并選擇更優(yōu)行動。此外,世界模型的理解也只是一個工程目標,其能否把預測變成安全的、魯棒的決策依據(jù),比其能不能進行人類化的理解更關鍵,也更實際。

wKgZO2lAtZCAMi37AAASAJELks8234.jpg

對自動駕駛的影響

在傳統(tǒng)自動駕駛系統(tǒng)里,感知負責識別和定位,預測負責給出軌跡或意圖的分布,決策/規(guī)劃再根據(jù)這些輸入做路徑選擇。引入世界模型后,系統(tǒng)可以在內(nèi)部模擬各種動作序列和外界響應,評估不同策略在模擬未來中的長期效果,使自動駕駛系統(tǒng)不再只依賴短期軌跡預測。這意味著系統(tǒng)能在更長時間尺度上權衡風險和收益,而不是根據(jù)每一幀的數(shù)據(jù)做短期判斷。

世界模型也為自動駕駛提供了一項關鍵技術方案,在模擬環(huán)境里,世界模型可批量生成極端情況,用于訓練和驗證,減少了現(xiàn)實路測需要費時費力且非常危險的問題。如自動駕駛大模型GAIA-1就利用視頻、文本和動作的聯(lián)合建模,合成了多樣的駕駛場景,用于訓練更魯棒的策略。當然,這一方案需要注意合成場景必須高質(zhì)量并且覆蓋真實分布的關鍵薄弱點,否則訓練出來的策略在真實世界中將無法使用。因此對于自動駕駛來說,世界模型是一種強補充手段,而不是完全替代真實路測的工具。

世界模型可以給自動駕駛帶來前瞻性的預測,但這種前瞻性并非無誤。自動駕駛系統(tǒng)在依賴世界模型做決策時,必須有明確的不確定性度量與回退策略,在模型信心不足或預測分布過于分散時,系統(tǒng)應退回更保守的控制策略或請求人工干預。

wKgZO2lAtZGAIh1ZAAARwcz1hbg686.jpg

世界模型如何處理長尾問題?

對于自動駕駛來說,真實交通環(huán)境是非常復雜的,無論是對于哪種模型來說,想在學習階段就搜集所有的數(shù)據(jù)是完全不可能的。那世界模型是如何處理這一問題的?

世界模型會先用真實數(shù)據(jù)學習表征和基本動力學,再用生成式或模擬方法擴展到稀有場景。近年來就有一些生成式世界模型(例如把視頻、動作、文本聯(lián)合建模的那類)用無監(jiān)督或自監(jiān)督手段來學習高層結(jié)構,然后用這些模型合成數(shù)據(jù)來訓練策略或進行安全測試。

這種方式的好處是能在模擬中“壓縮”長尾風險的出現(xiàn)頻率,加速策略在極端情況的魯棒性提升;其壞處就是合成分布和現(xiàn)實分布的差異可能引入偏差或假象,導致訓練結(jié)果與現(xiàn)實有偏差。

很多技術方案中會用不同模態(tài)(視覺、雷達、激光、地圖)融合進表征,用基于潛在變量的生成模型或基于JEPA的預測架構來學習時間一致性的表示,再用規(guī)劃器或強化學習算法在潛在空間里做閉環(huán)訓練。

這樣做的目的是減小原始觀測維度的噪聲影響,把決策問題放在更穩(wěn)定的抽象層上。最新的一些技術甚至把世界模型做成離散token序列的形式,把預測問題變?yōu)樾蛄猩蓡栴},借助大規(guī)模序列模型的力量來提升長時序的穩(wěn)定性。

無論是哪種技術路線,其核心都是用內(nèi)部模型來替代部分真實交互,以節(jié)省成本并提升安全性。

wKgZO2lAtZKAf_g4AAATCLDSk7w645.jpg

最后的話

回到最開始的問題,世界模型是理解世界還是預測未來?答案是二者兼有。世界模型通過學習內(nèi)部表征來提高對未來的預測能力,而這些預測主要是為決策和行動服務的。

世界模型通過提供一個可理解、可推理的世界表征,賦予了自動駕駛系統(tǒng)預測未來的能力。理解是預測的基礎,預測是理解的延伸與應用。二者緊密耦合,讓自動駕駛從“感知-反應”模式,進化到“理解-推演-決策”的更高層次,這正是其技術變革性的關鍵所在。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    小鵬發(fā)布 X-World 世界模型:已全面應用第二代VLA

    電子發(fā)燒友網(wǎng)綜合報道 近日,小鵬汽車正式發(fā)布 X-World 生成式世界模型技術報告,并同步公開 arXiv 技術論文,這是業(yè)內(nèi)面向端到端自動駕駛、可工程化落地的多攝像頭可控
    的頭像 發(fā)表于 04-14 10:11 ?6024次閱讀

    卷積神經(jīng)網(wǎng)絡如何自動駕駛識別障礙物?

    自動駕駛的發(fā)展過程中,感知系統(tǒng)一直承擔車輛“眼睛”的角色,其核心任務是計算機理解復雜多變的物理世界。卷積神經(jīng)網(wǎng)絡(CNN)作為一種專門用于處理圖像和視頻等網(wǎng)格狀數(shù)據(jù)結(jié)構的深度學習
    的頭像 發(fā)表于 04-11 09:59 ?1479次閱讀
    卷積神經(jīng)網(wǎng)絡如何<b class='flag-5'>讓</b><b class='flag-5'>自動駕駛</b>識別障礙物?

    理想MindVLA-o1自動駕駛更像人?

    的核心邏輯非常明確,即它不再把自動駕駛看作一個由感知、預測、規(guī)劃組成的拼圖游戲,而是試圖通過一個統(tǒng)一的視覺-語言-動作模型,直接去模擬人類司機的駕駛邏輯。 圖片源自:理想
    的頭像 發(fā)表于 03-23 09:14 ?334次閱讀
    理想MindVLA-o1<b class='flag-5'>讓</b><b class='flag-5'>自動駕駛</b>更像人?

    理想汽車發(fā)布下一代自動駕駛基礎模型MindVLA-o1

    下一代自動駕駛基礎模型MindVLA-o1。MindVLA-o1通過五大技術創(chuàng)新,構建了面向物理世界智能的自動駕駛基礎模型,
    的頭像 發(fā)表于 03-18 11:51 ?1527次閱讀
    理想<b class='flag-5'>汽車</b>發(fā)布下一代<b class='flag-5'>自動駕駛</b>基礎<b class='flag-5'>模型</b>MindVLA-o1

    如何構建適合自動駕駛世界模型

    提出的。那世界模型自動駕駛落地的正解嗎? 什么是世界模型? 世界
    的頭像 發(fā)表于 02-18 08:14 ?1.1w次閱讀
    如何構建適合<b class='flag-5'>自動駕駛</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    2026年,3DGS和世界模型,在自動駕駛仿真中的組合應用

    寫在前面:作為自動駕駛仿真的核心支撐,3DGS與世界模型的技術落地一直備受關注。我們看到了車路漫漫的一篇文章,探討了3DGS與世界模型的路線
    的頭像 發(fā)表于 02-03 17:32 ?3558次閱讀
    2026年,3DGS和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,在<b class='flag-5'>自動駕駛</b>仿真中的組合應用

    黃仁勛:未來十年很多汽車自動駕駛 英偉達發(fā)布Alpamayo汽車模型平臺

    最看好的AI落地場景就是自動駕駛。在演講中黃仁勛提到,未來十年,世界上很大一部分汽車將是自動駕駛或高度
    的頭像 發(fā)表于 01-06 11:45 ?1468次閱讀

    自動駕駛中常提的世界模型是什么?

    在很多廠家的技術方案中,會提到世界模型的介紹。世界模型,就是自動駕駛系統(tǒng)內(nèi)部用來表示外部世界
    的頭像 發(fā)表于 01-05 16:23 ?1120次閱讀

    VLA與世界模型有什么不同?

    [首發(fā)于智駕最前沿微信公眾號]當前自動駕駛行業(yè),各車企的技術路徑普遍選擇了單車智能方向。而在實際落地過程中,不同企業(yè)選擇了差異化的技術實現(xiàn)方式,部分車企側(cè)重于視覺—語言—動作模型(Vision
    的頭像 發(fā)表于 12-17 09:13 ?891次閱讀
    VLA與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    模型中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?

    2024年7月,理想汽車發(fā)布的基于端到端模型、VLM視覺語言模型世界模型的全新自動駕駛技術架構
    的頭像 發(fā)表于 11-22 10:59 ?2644次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會對<b class='flag-5'>自動駕駛</b>產(chǎn)生什么影響?

    自動駕駛汽車如何確定自己的位置和所在車道?

    比人類更多的“感官”和更強的計算能力;復雜則在于,這項工作必須做到精準(米級甚至分米級)、穩(wěn)定、連續(xù),并且要在各種極端環(huán)境下都要可靠。那自動駕駛汽車是如何確定自己的位置和所在車道的? ? 車輛如何感知世界?
    的頭像 發(fā)表于 11-18 09:03 ?1074次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何確定自己的位置和所在車道?

    VLA和世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界模型
    的頭像 發(fā)表于 11-05 08:55 ?954次閱讀
    VLA和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動駕駛</b>的最優(yōu)解?

    自動駕駛汽車如何處理“鬼探頭”式的邊緣場景?

    [首發(fā)于智駕最前沿微信公眾號]自動駕駛遇到“鬼探頭”式的邊緣場景時應該如何處理?其實對于自動駕駛汽車來說,無論是常規(guī)場景,還是邊緣場景,它都是要先看見、再
    的頭像 發(fā)表于 08-29 11:11 ?963次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>如何處理“鬼探頭”式的邊緣場景?

    自動駕駛是為了“增強人”,還是為了“替代人”?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術的日益成熟,人們對它的定位也在不斷演進,究竟是要打造一個能為駕駛者提供更佳體驗的“智能副駕”,還是完全替代人類駕駛員,
    的頭像 發(fā)表于 06-25 11:07 ?901次閱讀

    自動駕駛中常提的世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術的不斷成熟,車輛需要在復雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。
    的頭像 發(fā)表于 06-24 08:53 ?1420次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?
    中山市| 延吉市| 磴口县| 福鼎市| 南雄市| 旌德县| 邓州市| 自治县| 亚东县| 古田县| 天津市| 尼勒克县| 南部县| 宁化县| 土默特右旗| 阿拉善右旗| 马山县| 溧阳市| 栖霞市| 麻栗坡县| 兴业县| 郯城县| 顺平县| 阿瓦提县| 襄汾县| 远安县| 上犹县| 西充县| 阿拉善盟| 平顶山市| 关岭| 杭锦后旗| 濮阳市| 巴里| 瓦房店市| 新沂市| 威海市| 承德县| 都兰县| 岳西县| 肇东市|