日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數(shù)據(jù)問題

佐思汽車研究 ? 來源:佐思汽車研究 ? 2025-01-14 11:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CES 2025展會上,英偉達推出了基石世界模型Cosmos,World Foundation Model基石世界模型,簡稱WFM。

物理 AI 模型的開發(fā)成本很高并且需要大量真實數(shù)據(jù)和測試。Cosmos 世界基礎模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學的逼真合成數(shù)據(jù),以用于訓練和評估其現(xiàn)有的模型。開發(fā)者還可以通過微調(diào) Cosmos WFM 構建自定義模型。

為加速機器人自動駕駛汽車行業(yè)的工作,Cosmos 模型將以開放模型許可證的方式提供。開發(fā)者可以在 NVIDIA API 目錄中預覽首批模型,也可以從 NVIDIA NGC 目錄或 Hugging Face下載整個系列的模型和微調(diào)框架。

Cosmos 的首批用戶包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等領先機器人和汽車公司以及共享出行巨頭 Uber。

Cosmos主要功能,生成虛擬世界狀態(tài):Cosmos能根據(jù)文本、圖像或視頻的提示生成高度仿真的虛擬世界狀態(tài),適用于自動駕駛和機器人應用。

生成式模型:平臺基于生成式模型快速生成與真實世界場景相似的數(shù)據(jù),幫助開發(fā)者訓練和評估現(xiàn)有的AI模型。

高級標記器和數(shù)據(jù)處理:Cosmos集成了高級標記器和加速視頻處理管道,生成的數(shù)據(jù)在后續(xù)的模型訓練中發(fā)揮更大的作用。

安全與合規(guī):平臺還提供了安全防護機制,確保數(shù)據(jù)的安全與合規(guī)。

開放模型許可:Cosmos將以開放模型許可的形式在Hugging Face和NVIDIA NGC目錄中提供,支持開發(fā)者進行定制化應用。

Cosmos的技術原理

生成式世界基礎模型(WFM):Cosmos使用先進的生成式模型技術,模型包括擴散模型和自回歸Transformer模型,能生成與真實世界高度一致的場景。

駕駛環(huán)境模擬:Cosmos能生成各種天氣和路況條件下的合成數(shù)據(jù),為自動駕駛系統(tǒng)的訓練提供豐富的場景。

策略模型優(yōu)化:通過生成大量逼真的駕駛場景,Cosmos可以幫助自動駕駛系統(tǒng)在模擬環(huán)境中進行強化學習,優(yōu)化決策策略模型,測試在不同場景下的性能。

復雜環(huán)境適應性訓練:Cosmos可以為機器人提供復雜環(huán)境的實時模擬,使其感知系統(tǒng)通過合成數(shù)據(jù)進行訓練。

導航與任務執(zhí)行:基于Cosmos生成的虛擬世界狀態(tài),機器人可以更好地理解和適應周圍環(huán)境,實現(xiàn)更精準的導航和任務執(zhí)行。

逼真場景生成:Cosmos能生成高度仿真的虛擬世界狀態(tài),適用于虛擬現(xiàn)實游戲和仿真訓練。例如,開發(fā)者可以使用Omniverse創(chuàng)建三維場景,然后通過Cosmos將其轉換為逼真的場景,使機器人在模擬環(huán)境中進行訓練。

工業(yè)數(shù)字孿生:結合NVIDIA的Omniverse和Cosmos,可以創(chuàng)建工業(yè)數(shù)字孿生環(huán)境,用于工廠和倉庫的模擬、測試和優(yōu)化。這使得在復雜生產(chǎn)設施和配送中心網(wǎng)絡中,能更好地進行手動設計、操作和優(yōu)化。

Cosmos的應用案例

Uber自動駕駛開發(fā):Uber作為首批采用Cosmos的公司之一,基于生成式AI能力,加速了安全、可擴展的自動駕駛解決方案的進程。為Uber的自動駕駛系統(tǒng)提供了豐富的合成數(shù)據(jù),幫助其在不同駕駛場景下進行模型訓練和優(yōu)化,提升自動駕駛技術的安全性和可靠性。

小鵬汽車模擬訓練:小鵬汽車也采用了Cosmos平臺,通過生成各種天氣和路況條件下的合成駕駛數(shù)據(jù),對自動駕駛算法進行模擬訓練。例如,在模擬雨、雪、霧、霾等惡劣天氣下,以及城市道路、高速公路等不同路況的場景中,自動駕駛系統(tǒng)可以學習如何更好地感知環(huán)境、做出決策和執(zhí)行操作,提高算法在真實街景中的表現(xiàn)。

1X機器人動態(tài)規(guī)劃:1X公司用Cosmos的仿真引擎,為機器人提供了高保真的力學、運動學和動態(tài)交互建模能力。通過閉環(huán)模擬,1X機器人可以在虛擬環(huán)境中進行動態(tài)規(guī)劃與環(huán)境適應性優(yōu)化,在實際應用場景中實現(xiàn)更精準的導航和任務執(zhí)行。

Waabi是一家從自動駕駛汽車開始致力于開發(fā)物理世界生成式 AI 的先驅。該公司正在評估 Cosmos 在自動駕駛汽車軟件開發(fā)和仿真中數(shù)據(jù)整理的應用。

Wayve是一家致力于開發(fā)自動駕駛 AI 基礎模型的公司。該公司正在評估使用 Cosmos 搜索用于提高安全性和驗證的極端駕駛場景。

自動駕駛汽車工具鏈提供商Foretellix將使用 Cosmos 與 NVIDIA Omniverse Sensor RTX API大規(guī)模評估和生成高保真測試場景與訓練數(shù)據(jù)。

我們來具體看一下Cosmos,英偉達搜集了2000萬小時的視頻,這些視頻數(shù)據(jù)篩選或者說編審(curation)管線借助許多經(jīng)過預訓練的圖像/視頻理解模型,從中抽出1億個2-60秒的片段,每個片段使用VLM視覺語言模型,每256幀提供一個視覺解說(caption),英偉達采用自回歸即transformer和擴散diffusion兩種模式來生成盡可能多的可用于訓練的視頻。英偉達使用一萬張H100顯卡,用時三個月,訓練出了Cosmos,當然這個模型會一直升級,英偉達的運算資源自然是不成問題的。

英偉達打造了一種Ray-based orchestration的管線,用于端到端特別是強化學習訓練中。

強化學習訓練

422e7d62-d08e-11ef-9310-92fbcf53809c.png

圖片來源:論文《Ray: A Distributed Framework for Emerging AI Applications》

Ray架構

4249faa6-d08e-11ef-9310-92fbcf53809c.png

圖片來源:論文《Ray: A Distributed Framework for Emerging AI Applications》

Cosmos實例

42603d98-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

預訓練的Cosmos WFM生成高質量的3D視頻并且包含正確的物理世界分布與反應。使用連續(xù)和分離潛在表示(latent representation)來訓練視頻。

42972326-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

WFM是基石,再根據(jù)下游具體應用做出對應的定制數(shù)據(jù)集,再進行訓練。

華為DriveGPT4

42a6d6ea-d08e-11ef-9310-92fbcf53809c.png

圖片來源:華為DriveGPT4論文

這和自動駕駛領域將LLM微調(diào)一樣,華為使用的是META開源的LLaMA 2,使用BDD-X和ChatGPT做指令微調(diào)。這些指令實際就是prompt,它包括動作命令、軌跡規(guī)劃和具體指令。這些prompt需要從現(xiàn)實物理世界中搜集,并做一一對應。

Cosmos構成

42b48f24-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

Cosmos視頻篩選步驟

42c69b24-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

42e04b82-d08e-11ef-9310-92fbcf53809c.png

上面是Cosmos視頻類型構成,駕駛類占了11%,手動作和物體操縱占16%,人類動作和活動占10%,空間認知和導航占16%,第一人稱視角占8%,自然動態(tài)占20%。由此看出,Cosmos主要還是面向機器人和具身智能的。

Cosmos的Tokenizer

430731e8-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

Cosmos的Tokenizer可以對應各種類型的輸入。

Cosmos擴散WFM模型1.0版架構

4320e552-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

Cosmos擴散WFM模型1.0版架構,tokenizer分的很細,且是3D的,國內(nèi)受限于計算資源,都盡量減少token數(shù)量,這會導致準確率下降。英偉達自然是絲毫不在意計算資源的。

Cosmos生成多個視角視頻

43339260-d08e-11ef-9310-92fbcf53809c.png

Text-conditioned samples generated by Cosmos-1.0-Di?usion-7B-Text2World-SampleMultiView, extended to 8 seconds by Cosmos-1.0-Di?usion-7B-Video2World-Sample-MultiView.

圖片來源:英偉達

多視角視頻目前國內(nèi)已知的只有華為的MagicDriveDiT。

434462e8-d08e-11ef-9310-92fbcf53809c.png

Trajectory-conditioned generated samples from Cosmos-1.0-Di?usion-7B-Text2World-SampleMultiView-TrajectoryCond.,給定軌跡,生成需要的視頻,同樣是多視角的,圖片只顯示了前攝像頭視角。

圖片來源:英偉達

436ebe44-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

軌跡誤差即TFE的單位是厘米,與真實即groundtruth的誤差小于7厘米。

4380b55e-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

視頻生成質量指標主要是FID和FVD,F(xiàn)ID(Fréchet Inception Distance)是一種用于評估生成模型,尤其是在圖像生成任務中,生成圖像的質量和多樣性的指標。它通過比較生成圖像與真實圖像在特定空間內(nèi)的分布來工作。這個特定的空間通常是通過預訓練的Inception網(wǎng)絡的某一層來定義的。對于生成圖像集和真實圖像集,分別通過Inception網(wǎng)絡(通常是Inception V3模型)計算它們的特征表示。這一步驟會得到每個圖像集的特征向量。計算每個集合的特征向量的均值和協(xié)方差矩陣,并做對比。FVD和FID接近,相當于把FID的圖像特征提取網(wǎng)絡換成視頻特征提取網(wǎng)絡,其他都差不多。

43919c70-d08e-11ef-9310-92fbcf53809c.png

注:這里的Ours指商湯的InfinityDrive

圖片來源:商湯科技

商湯的要比英偉達優(yōu)秀很多,但英偉達是3D且是多視角,能達到中上游水平已經(jīng)是相當優(yōu)秀了,英偉達在3D方面實力是最強的,沒有之一。

Cosmos的數(shù)據(jù)保護

43aa5ae4-d08e-11ef-9310-92fbcf53809c.png

圖片來源:英偉達

視頻可能牽涉的隱私和安全問題,英偉達已經(jīng)替你想過了,完全不用擔心。

英偉達Cosmos的推出對于智能駕駛特別是端到端智能駕駛有了極大的幫助,廠家的數(shù)據(jù)成本下降至少95%,數(shù)據(jù)的質量還更好,對于那些靠搜集真實數(shù)據(jù)的純數(shù)據(jù)集公司來說是滅頂之災,對于極佳、商湯和華為之流世界模型廠家則提出了嚴峻的挑戰(zhàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31494

    瀏覽量

    223850
  • AI
    AI
    +關注

    關注

    91

    文章

    41315

    瀏覽量

    302691
  • 英偉達
    +關注

    關注

    23

    文章

    4116

    瀏覽量

    99653

原文標題:英偉達推出基石世界模型Cosmos,徹底解決智駕與機器人具身智能訓練數(shù)據(jù)問題

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    破解柔性生產(chǎn)難題:知識驅動智能工業(yè)機器人的實戰(zhàn)應用指南

    在工業(yè)4.0邁向工業(yè)5.0的進程中,傳統(tǒng)的“固定編程”機器人已無法滿足多品種、小批量、高柔性的生產(chǎn)需求。隨著人工智能與大模型技術的爆發(fā),
    的頭像 發(fā)表于 03-06 15:49 ?313次閱讀
    破解柔性生產(chǎn)難題:知識驅動<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)<b class='flag-5'>機器人</b>的實戰(zhàn)應用指南

    Robo.ai子公司獲首筆智能機器人數(shù)據(jù)采集訂單

    數(shù)據(jù)訂單,將向美國 DaBoss.AI Inc.(以下簡稱"DaBoss")提供總計 30,000 小時的智能機器人
    的頭像 發(fā)表于 02-14 20:16 ?9081次閱讀

    NVIDIA Cosmos世界基礎模型如何塑造機器人未來

    在這一演進過程中,世界模型逐漸成為連接高層智能與底層執(zhí)行的關鍵基礎設施。通過對環(huán)境狀態(tài)及其時間演化進行建模,世界模型使
    的頭像 發(fā)表于 01-22 16:38 ?845次閱讀
    NVIDIA <b class='flag-5'>Cosmos</b><b class='flag-5'>世界</b>基礎<b class='flag-5'>模型</b>如何塑造<b class='flag-5'>機器人</b>未來

    智能交流會

    。展會匯聚 90%+ 核心部件國產(chǎn)化供應鏈,可快速實現(xiàn)技術落地,坐享粵港澳大灣區(qū) “機器人谷” 核心紅利。 2 、同期多展聯(lián)動 與工業(yè)自動化展、機器視覺展同期舉辦,形成 “感知(視覺)→決策(
    發(fā)表于 01-22 09:55

    資訊速遞 | 智能PMC(籌)發(fā)布“零成本”開源鴻蒙智能機器人系統(tǒng)

    面向智能機器人系統(tǒng)與應用開發(fā),Ubuntu 等操作系統(tǒng)可以用 ROS2 生態(tài)、機器人仿真器、英偉
    的頭像 發(fā)表于 01-05 16:24 ?869次閱讀
    資訊速遞 | <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>PMC(籌)發(fā)布“零成本”開源鴻蒙<b class='flag-5'>智能</b><b class='flag-5'>機器人</b>系統(tǒng)

    大曉機器人發(fā)布開悟3.0,國產(chǎn)世界模型機器人擁有“超級大腦”

    機器人的使命就是讓每個機器人都擁有一個聰明的大腦,洞察萬物,學會與視覺精準交互。 ? 在此背景下,大曉機器人憑借其原創(chuàng)的“世界模型”技術體系
    的頭像 發(fā)表于 12-25 09:25 ?2833次閱讀
    大曉<b class='flag-5'>機器人</b>發(fā)布開悟3.0,國產(chǎn)<b class='flag-5'>世界</b><b class='flag-5'>模型</b>讓<b class='flag-5'>機器人</b>擁有“超級大腦”

    【前瞻技術布局】咖啡機器人智能技術首階段探索與實踐

    -動作”大模型等方法研究。本文主要以第一階段 咖啡機器人 任務場景為切入點,來闡述所取得的技術突破,以及后續(xù)技術優(yōu)化方向。如下是機器人全程自主完成打咖啡的視頻。 二、問題定義和路徑選擇
    的頭像 發(fā)表于 12-23 18:56 ?190次閱讀
    【前瞻技術布局】咖啡<b class='flag-5'>機器人</b>:<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>技術首階段探索與實踐

    銀河通用機器人拿下1000 臺機器人訂單,推進智能工業(yè)場景深度應用

    模型技術+場景深耕的雙輪驅動,銀河通用機器人成中國第一 北京2025年12月23日 /美通社/ -- 12月22日,銀河通用機器人(以
    的頭像 發(fā)表于 12-23 18:24 ?1953次閱讀
    銀河通用<b class='flag-5'>機器人</b>拿下1000 臺<b class='flag-5'>機器人</b>訂單,推進<b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>智能</b>工業(yè)場景深度應用

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+智能芯片

    。 決策層: 決策層是智能的第三個主要層次,負責根據(jù)已有信息做出決策或行動。 包括各種規(guī)則引擎、決策配套系統(tǒng)等。它的作用是根據(jù)已有信息做出最優(yōu)決策或行動。決策層可以使用各種控制器,如機器人
    發(fā)表于 09-18 11:45

    英偉發(fā)布機器人 “新大腦”,黃仁勛:人形機器人三年普及

    英偉機器人技術領域取得重大突破,推出開源物理 AI 模型 Cosmos Reason,這一進
    的頭像 發(fā)表于 08-25 18:34 ?552次閱讀

    機器人十大發(fā)展趨勢

    高保真的訓練環(huán)境,世界模型可以提供環(huán)境當中比較本質的內(nèi)部特征。三者融合既可以保證豐富、有效、真實的環(huán)境,也可以用于訓練
    的頭像 發(fā)表于 08-12 13:22 ?2142次閱讀
    <b class='flag-5'>具</b><b class='flag-5'>身</b><b class='flag-5'>機器人</b>十大發(fā)展趨勢

    利用NVIDIA Cosmos模型訓練通用機器人

    機器人領域的一大核心挑戰(zhàn)在于如何讓機器人掌握新任務,而無需針對每個新任務和環(huán)境耗費大量精力收集和標注數(shù)據(jù)集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎
    的頭像 發(fā)表于 08-05 16:22 ?2271次閱讀
    利用NVIDIA <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b><b class='flag-5'>訓練</b>通用<b class='flag-5'>機器人</b>

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經(jīng)到來,這得益于機械電子技術和機器人 AI 基礎模型的進步。但目前機器人技術的發(fā)展仍面臨一個關鍵挑戰(zhàn):機器人需要大量的
    的頭像 發(fā)表于 07-14 11:49 ?1330次閱讀
    通過NVIDIA <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>增強<b class='flag-5'>機器人</b>學習

    瑞可達榮獲智能機器人技術先鋒獎

    近日,“2025年(第二屆)“智能機器人場景應用生態(tài)大會暨
    的頭像 發(fā)表于 06-16 18:09 ?1439次閱讀

    盤點#機器人開發(fā)平臺

    圖,電子技術資料網(wǎng)站智能機器人****開發(fā)平臺——Fibot廣和通發(fā)布機器人開發(fā)平臺-電子發(fā)燒友網(wǎng)NVIDIA Isaac
    發(fā)表于 05-13 15:02
    凤阳县| 巨野县| 秦安县| 宣汉县| 广德县| 丹巴县| 隆尧县| 通许县| 岚皋县| 澄城县| 曲松县| 临江市| 大同市| 和林格尔县| 永和县| 勐海县| 抚顺县| 莆田市| 平顺县| 盐城市| 融水| 南涧| 海丰县| 秭归县| 汉沽区| 新竹县| 云霄县| 扶余县| 宣武区| 南开区| 通城县| 锡林浩特市| 库伦旗| 思南县| 天全县| 侯马市| 平舆县| 会宁县| 颍上县| 壶关县| 即墨市|