色就是色欧美色图,亚洲国产日韩欧美

CES 2025展會上，英偉達推出了基石世界模型Cosmos，World Foundation Model基石世界模型，簡稱WFM。

物理 AI 模型的開發(fā)成本很高并且需要大量真實數(shù)據(jù)和測試。Cosmos 世界基礎模型（WFM）使開發(fā)者能夠輕松生成大量基于物理學的逼真合成數(shù)據(jù)，以用于訓練和評估其現(xiàn)有的模型。開發(fā)者還可以通過微調(diào) Cosmos WFM 構建自定義模型。

為加速機器人和自動駕駛汽車行業(yè)的工作，Cosmos 模型將以開放模型許可證的方式提供。開發(fā)者可以在 NVIDIA API 目錄中預覽首批模型，也可以從 NVIDIA NGC 目錄或 Hugging Face下載整個系列的模型和微調(diào)框架。

Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領先機器人和汽車公司以及共享出行巨頭 Uber。

Cosmos主要功能，生成虛擬世界狀態(tài)：Cosmos能根據(jù)文本、圖像或視頻的提示生成高度仿真的虛擬世界狀態(tài)，適用于自動駕駛和機器人應用。

生成式模型：平臺基于生成式模型快速生成與真實世界場景相似的數(shù)據(jù)，幫助開發(fā)者訓練和評估現(xiàn)有的AI模型。

高級標記器和數(shù)據(jù)處理：Cosmos集成了高級標記器和加速視頻處理管道，生成的數(shù)據(jù)在后續(xù)的模型訓練中發(fā)揮更大的作用。

安全與合規(guī)：平臺還提供了安全防護機制，確保數(shù)據(jù)的安全與合規(guī)。

開放模型許可：Cosmos將以開放模型許可的形式在Hugging Face和NVIDIA NGC目錄中提供，支持開發(fā)者進行定制化應用。

Cosmos的技術原理

生成式世界基礎模型（WFM）：Cosmos使用先進的生成式模型技術，模型包括擴散模型和自回歸Transformer模型，能生成與真實世界高度一致的場景。

駕駛環(huán)境模擬：Cosmos能生成各種天氣和路況條件下的合成數(shù)據(jù)，為自動駕駛系統(tǒng)的訓練提供豐富的場景。

策略模型優(yōu)化：通過生成大量逼真的駕駛場景，Cosmos可以幫助自動駕駛系統(tǒng)在模擬環(huán)境中進行強化學習，優(yōu)化決策策略模型，測試在不同場景下的性能。

復雜環(huán)境適應性訓練：Cosmos可以為機器人提供復雜環(huán)境的實時模擬，使其感知系統(tǒng)通過合成數(shù)據(jù)進行訓練。

導航與任務執(zhí)行：基于Cosmos生成的虛擬世界狀態(tài)，機器人可以更好地理解和適應周圍環(huán)境，實現(xiàn)更精準的導航和任務執(zhí)行。

逼真場景生成：Cosmos能生成高度仿真的虛擬世界狀態(tài)，適用于虛擬現(xiàn)實游戲和仿真訓練。例如，開發(fā)者可以使用Omniverse創(chuàng)建三維場景，然后通過Cosmos將其轉換為逼真的場景，使機器人在模擬環(huán)境中進行訓練。

工業(yè)數(shù)字孿生：結合NVIDIA的Omniverse和Cosmos，可以創(chuàng)建工業(yè)數(shù)字孿生環(huán)境，用于工廠和倉庫的模擬、測試和優(yōu)化。這使得在復雜生產(chǎn)設施和配送中心網(wǎng)絡中，能更好地進行手動設計、操作和優(yōu)化。

Cosmos的應用案例

Uber自動駕駛開發(fā)：Uber作為首批采用Cosmos的公司之一，基于生成式AI能力，加速了安全、可擴展的自動駕駛解決方案的進程。為Uber的自動駕駛系統(tǒng)提供了豐富的合成數(shù)據(jù)，幫助其在不同駕駛場景下進行模型訓練和優(yōu)化，提升自動駕駛技術的安全性和可靠性。

小鵬汽車模擬訓練：小鵬汽車也采用了Cosmos平臺，通過生成各種天氣和路況條件下的合成駕駛數(shù)據(jù)，對自動駕駛算法進行模擬訓練。例如，在模擬雨、雪、霧、霾等惡劣天氣下，以及城市道路、高速公路等不同路況的場景中，自動駕駛系統(tǒng)可以學習如何更好地感知環(huán)境、做出決策和執(zhí)行操作，提高算法在真實街景中的表現(xiàn)。

1X機器人動態(tài)規(guī)劃：1X公司用Cosmos的仿真引擎，為機器人提供了高保真的力學、運動學和動態(tài)交互建模能力。通過閉環(huán)模擬，1X機器人可以在虛擬環(huán)境中進行動態(tài)規(guī)劃與環(huán)境適應性優(yōu)化，在實際應用場景中實現(xiàn)更精準的導航和任務執(zhí)行。

Waabi是一家從自動駕駛汽車開始致力于開發(fā)物理世界生成式 AI 的先驅。該公司正在評估 Cosmos 在自動駕駛汽車軟件開發(fā)和仿真中數(shù)據(jù)整理的應用。

Wayve是一家致力于開發(fā)自動駕駛 AI 基礎模型的公司。該公司正在評估使用 Cosmos 搜索用于提高安全性和驗證的極端駕駛場景。

自動駕駛汽車工具鏈提供商Foretellix將使用 Cosmos 與 NVIDIA Omniverse Sensor RTX API大規(guī)模評估和生成高保真測試場景與訓練數(shù)據(jù)。

我們來具體看一下Cosmos，英偉達搜集了2000萬小時的視頻，這些視頻數(shù)據(jù)篩選或者說編審（curation）管線借助許多經(jīng)過預訓練的圖像/視頻理解模型，從中抽出1億個2-60秒的片段，每個片段使用VLM視覺語言模型，每256幀提供一個視覺解說（caption），英偉達采用自回歸即transformer和擴散diffusion兩種模式來生成盡可能多的可用于訓練的視頻。英偉達使用一萬張H100顯卡，用時三個月，訓練出了Cosmos，當然這個模型會一直升級，英偉達的運算資源自然是不成問題的。

英偉達打造了一種Ray-based orchestration的管線，用于端到端特別是強化學習訓練中。

強化學習訓練

圖片來源：論文《Ray: A Distributed Framework for Emerging AI Applications》

Ray架構

圖片來源：論文《Ray: A Distributed Framework for Emerging AI Applications》

Cosmos實例

圖片來源：英偉達

預訓練的Cosmos WFM生成高質量的3D視頻并且包含正確的物理世界分布與反應。使用連續(xù)和分離潛在表示（latent representation）來訓練視頻。

圖片來源：英偉達

WFM是基石，再根據(jù)下游具體應用做出對應的定制數(shù)據(jù)集，再進行訓練。

華為DriveGPT4

圖片來源：華為DriveGPT4論文

這和自動駕駛領域將LLM微調(diào)一樣，華為使用的是META開源的LLaMA 2，使用BDD-X和ChatGPT做指令微調(diào)。這些指令實際就是prompt，它包括動作命令、軌跡規(guī)劃和具體指令。這些prompt需要從現(xiàn)實物理世界中搜集，并做一一對應。

Cosmos構成

圖片來源：英偉達

Cosmos視頻篩選步驟

圖片來源：英偉達

上面是Cosmos視頻類型構成，駕駛類占了11%，手動作和物體操縱占16%，人類動作和活動占10%，空間認知和導航占16%，第一人稱視角占8%，自然動態(tài)占20%。由此看出，Cosmos主要還是面向機器人和具身智能的。

Cosmos的Tokenizer

圖片來源：英偉達

Cosmos的Tokenizer可以對應各種類型的輸入。

Cosmos擴散WFM模型1.0版架構

圖片來源：英偉達

Cosmos擴散WFM模型1.0版架構，tokenizer分的很細，且是3D的，國內(nèi)受限于計算資源，都盡量減少token數(shù)量，這會導致準確率下降。英偉達自然是絲毫不在意計算資源的。

Cosmos生成多個視角視頻

Text-conditioned samples generated by Cosmos-1.0-Di?usion-7B-Text2World-SampleMultiView, extended to 8 seconds by Cosmos-1.0-Di?usion-7B-Video2World-Sample-MultiView.

圖片來源：英偉達

多視角視頻目前國內(nèi)已知的只有華為的MagicDriveDiT。

Trajectory-conditioned generated samples from Cosmos-1.0-Di?usion-7B-Text2World-SampleMultiView-TrajectoryCond.，給定軌跡，生成需要的視頻，同樣是多視角的，圖片只顯示了前攝像頭視角。

圖片來源：英偉達

軌跡誤差即TFE的單位是厘米，與真實即groundtruth的誤差小于7厘米。

圖片來源：英偉達

視頻生成質量指標主要是FID和FVD，F(xiàn)ID（Fréchet Inception Distance）是一種用于評估生成模型，尤其是在圖像生成任務中，生成圖像的質量和多樣性的指標。它通過比較生成圖像與真實圖像在特定空間內(nèi)的分布來工作。這個特定的空間通常是通過預訓練的Inception網(wǎng)絡的某一層來定義的。對于生成圖像集和真實圖像集，分別通過Inception網(wǎng)絡（通常是Inception V3模型）計算它們的特征表示。這一步驟會得到每個圖像集的特征向量。計算每個集合的特征向量的均值和協(xié)方差矩陣，并做對比。FVD和FID接近，相當于把FID的圖像特征提取網(wǎng)絡換成視頻特征提取網(wǎng)絡，其他都差不多。

注：這里的Ours指商湯的InfinityDrive

圖片來源：商湯科技

商湯的要比英偉達優(yōu)秀很多，但英偉達是3D且是多視角，能達到中上游水平已經(jīng)是相當優(yōu)秀了，英偉達在3D方面實力是最強的，沒有之一。

Cosmos的數(shù)據(jù)保護

圖片來源：英偉達

視頻可能牽涉的隱私和安全問題，英偉達已經(jīng)替你想過了，完全不用擔心。

英偉達Cosmos的推出對于智能駕駛特別是端到端智能駕駛有了極大的幫助，廠家的數(shù)據(jù)成本下降至少95%，數(shù)據(jù)的質量還更好，對于那些靠搜集真實數(shù)據(jù)的純數(shù)據(jù)集公司來說是滅頂之災，對于極佳、商湯和華為之流世界模型廠家則提出了嚴峻的挑戰(zhàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴