日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于NVIDIA AI的3D機器人感知與地圖構建系統(tǒng)設計

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-07-04 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器人必須感知和理解其 3D 環(huán)境,才能安全高效地行動。這一點在非結構化或陌生空間中的自主導航、對象操作和遠程操作等任務尤為重要。當前機器人感知技術的進展,越來越多地體現(xiàn)在通過統(tǒng)一的實時工作流與強大的感知模塊,實現(xiàn) 3D 場景理解、可泛化物體跟蹤與持久性空間記憶的集成。

本期“NVIDIA 機器人研究與開發(fā)摘要 (R2D2) ”將探討 NVIDIA 研究中心的多個感知模型和系統(tǒng),這些模型和系統(tǒng)支持統(tǒng)一的機器人 3D 感知堆棧。它們可在不同的真實世界環(huán)境中實現(xiàn)可靠的深度估計、攝像頭和物體位姿追蹤以及 3D 重建:

FoundationStereo(CVPR 2025 最佳論文提名):用于立體深度估計的基礎模型,可在各種環(huán)境(包括室內、室外、合成和真實場景)中實現(xiàn)零樣本性能的泛化。

PyCuVSLAM:用于 cuVSLAM 的 Python Wrapper,支持 Python 用戶利用 NVIDIA 的 CUDA 加速 SLAM 庫,用于實時攝像頭位姿估計和環(huán)境建圖。

BundleSDF:用于 RGB-D 視頻中 6-DoF 物體位姿追蹤和密集 3D 重建的神經系統(tǒng)。

FoundationPose:可泛化的 6D 物體位姿估計器和跟蹤器,適用于僅有最少先驗信息的新物體。

nvblox Pytorch Wrapper:nvblox 庫的 Pytorch wrapper,nvblox 是一個 CUDA 加速庫,用于 PyTorch 的深度攝像頭 3D 重建。

3D 空間表示:機器人感知的核心

這些項目的核心在于強調 3D 空間表示,即以機器人可以使用的形式捕獲環(huán)境或物體的結構。FoundationStereo 可處理立體圖像深度估計的基本任務。它引入了一個用于立體深度的基礎模型,專為實現(xiàn)強零樣本泛化而設計。

f4ade38e-5661-11f0-9ca0-92fbcf53809c.png

圖 1. 使用 FoundationStereo 生成的視差圖像

FoundationStereo 已在超過 100 萬對合成立體圖像上進行訓練。它無需針對特定場景進行調整,即可在各種環(huán)境(包括室內、室外、合成和真實場景,如圖 1 所示)中推斷出準確的視差,從而推理得到 3D 結構。輸出包括表示場景 3D 結構的密集深度圖或點云。

在環(huán)境映射方面,nvblox 和 cuVSLAM 等庫會隨著時間的推移構建空間表示。NVIDIA 的 nvblox 是一個 GPU 加速的 3D 重建庫,可重建體素網格體素網格,并輸出用于導航的 Euclidean signed distance field (ESDF) 熱圖。這使移動機器人能夠僅使用視覺進行 3D 避障,為昂貴的 3D 激光雷達傳感器提供了一種經濟高效的替代方案。

雖然 nvblox 擅長幾何映射,但缺乏對環(huán)境的語義理解。借助 nvblox_torch,我們引入了一個 PyTorch Wrapper,它可以將 2D VLM 基礎模型的語義嵌入提升到 3D。

同樣,cuVSLAM 通過 Isaac ROS 為機器人提供 GPU 加速的視覺慣性 SLAM。cuVSLAM 以前僅限于 ROS 用戶,現(xiàn)在可以通過名為 PyCuVSLAM 的新 Python API 進行訪問,這簡化了數(shù)據(jù)工程師深度學習研究人員的集成工作。

深度和地圖構建模塊可創(chuàng)建幾何支架(無論是點云、signed distance fields,還是特征網格),并在此基礎上構建更高級別的感知和規(guī)劃。如果沒有可靠的 3D 呈現(xiàn),機器人就無法準確感知、記憶或推理世界。

用于場景理解的實時 SLAM和攝像頭位姿估計

將這些項目連接在一起的一個關鍵方面是通過 SLAM(同步定位與地圖構建)實現(xiàn)實時場景理解。cuVSLAM 是一種高效的 CUDA 加速 SLAM 系統(tǒng),用于在機器人的板載 GPU 上運行的立體視覺慣性 SLAM。

f4c6d060-5661-11f0-9ca0-92fbcf53809c.png

圖 2. 使用 cuVSLAM 生成的定位

對于更偏向使用 Python 的簡單性和通用性的開發(fā)者來說,利用強大而高效的 Visual SLAM 系統(tǒng)仍然是一項艱巨的任務。借助 PyCuVSLAM,開發(fā)者可以輕松地對 cuVSLAM 進行原型設計并將其用于應用,例如通過互聯(lián)網規(guī)模的視頻生成機器人訓練數(shù)據(jù)集。該 API 可以從第一人稱觀看視頻中估計自我攝像頭的位姿和軌跡,從而增強端到端決策模型。此外,將 cuVSLAM 集成到 MobilityGen 等訓練流程中,可以通過學習真實的 SLAM 系統(tǒng)錯誤來創(chuàng)建更穩(wěn)健的模型。功能示例如圖 2 所示。

實時 3D 映射

f4d7177c-5661-11f0-9ca0-92fbcf53809c.gif

圖 3. 上圖顯示了使用 nvblox_torch 構建的重建,左下角展示了將視覺基礎模型特征融合到 3D voxel grid 中的過程,這是表示場景語義內容的常用方法。

右下角顯示了從重建中提取的 3D 距離場切片

nvblox_torch 是一個易于使用的 Python 接口,用于 nvblox CUDA 加速重建庫,允許開發(fā)者輕松地對用于操作和導航應用的 3D 地圖構建系統(tǒng)進行原型設計。

空間記憶是機器人完成較長距離任務的核心能力。機器人通常需要推理場景的幾何和語義內容,其中場景的空間范圍通常大于單個攝像頭圖像所能捕獲的空間范圍。3D 地圖將多個視圖中的幾何和語義信息聚合為場景的統(tǒng)一表示。利用 3D 地圖的這些特性可以提供空間記憶,并支持機器人學習中的空間推理。

nvblox_torch 是一個 CUDA 加速的 PyTorch 工具箱,用于使用 RGB-D 攝像頭進行機器人映射。該系統(tǒng)允許用戶在 NVIDIA GPU 上將環(huán)境觀察結果與場景的 3D 呈現(xiàn)相結合。然后,可以查詢此 3D 表示形式的數(shù)量,例如障礙物距離、表面網格和占用概率(請見圖 3)。nvblox_torch 使用來自 PyTorch 張量的零復制輸入/ 輸出接口來提供超快性能。

此外,nvblox_torch 還添加了深度特征融合這一新功能。此功能允許用戶將視覺基礎模型中的圖像特征融合到 3D 重建中。隨后,生成的重建將同時表示場景的幾何圖形和語義內容。3D 基礎模型特征正在成為基于語義的導航和語言引導操作的熱門表示方法。nvblox_torch 庫中現(xiàn)已提供此表示方法。

6-DoF 物體位姿追蹤和新物體的 3D 重建

以物體為中心的感知也同樣重要:了解場景中的物體是什么、它們在哪里以及它們如何移動。FoundationPose 和 BundleSDF 這兩個項目解決了 6-DoF 物體位姿估計和追蹤的挑戰(zhàn),其中也包括機器人以前從未見過的物體。

FoundationPose 是一種基于學習的方法:它是用于 6D 物體位姿估計和跟蹤的統(tǒng)一基礎模型,適用于基于模型和無模型的場景。這意味著同一系統(tǒng)可以處理已知對象(如果有可用的 CAD 模型)或全新對象(僅使用少量參考圖像),而無需重新訓練。FoundationPose 通過利用神經隱式表示來合成物體的新視圖來實現(xiàn)這一點,有效地彌合了完整 3D 模型與僅有稀疏觀察之間的差距。

它在大規(guī)模合成數(shù)據(jù)上進行訓練(借助基于 LLM 的數(shù)據(jù)生成工作流等技術),具有強大的泛化能力。事實上,只要提供最少的信息,比如模型或圖像,就可以在測試時即時應用于新對象。這種基礎模型方法在位姿基準測試中實現(xiàn)了最出色的準確性,在保持對新物體的零樣本能力的同時,性能優(yōu)于專門方法。

f50556aa-5661-11f0-9ca0-92fbcf53809c.gif

圖 4. FoundationPose 在機器人機械臂中的應用

BundleSDF 采用在線優(yōu)化驅動的方法來解決此問題,提供了一種近實時 (~ 10 Hz) 方法,用于從 RGB-D 視頻中同時進行 6-DoF 位姿追蹤和神經 3D 重建。它僅假設第一幀中的分割;之后不需要先驗 CAD 模型或類別知識。

BundleSDF 的關鍵是并發(fā)學習的 Neural Object Field,一種神經隱式 SDF,可在觀察時捕獲物體的幾何圖形和外觀。當物體移動時,BundleSDF 會使用過去的幀不斷優(yōu)化位姿圖,隨著時間的推移優(yōu)化位姿軌跡和形狀估計。位姿估計與形狀學習的集成可有效解決大型位姿變化、遮擋、低紋理表面和鏡面反射等挑戰(zhàn)。在交互結束時,機器人可以擁有一致的 3D 模型并追蹤動態(tài)獲取的位姿序列。

該框架概述如圖 5 所示。首先,在連續(xù)圖像之間匹配特征以獲得粗略的位姿估計 (Sec. 3.1),一些位姿幀存儲在內存池中一遍后續(xù)進行優(yōu)化 (Sec. 3.2),根據(jù)池中的一個子集動態(tài)創(chuàng)建位姿圖 (Sec. 3.3),在線優(yōu)化會細化圖中的所有位姿以及當前位姿,更新的位姿存儲回池中。最后,池中的所有位姿幀在單獨的線程中,學習 Neural Object Field,用于對幾何和視覺紋理進行建模 (Sec. 3.4),同時調整之前估計的位姿。

f5b6f900-5661-11f0-9ca0-92fbcf53809c.png

圖 5. BundleSDF 框架,該框架使用內存增強的位姿圖來估計和優(yōu)化視頻流中的 3D 物體位姿,

并學習幾何圖形和外觀的神經物體表示

FoundationPose 和 BundleSDF 都強調了對象級 3D 理解在機器人開發(fā)中的重要性。機器人如果需要抓取或操控任意物體,必須能夠感知物體的 3D 位置和方向(位姿),通常還需要感知其形狀。這些項目展示了兩條互補的路徑:預訓練的基礎模型,通過學習廣泛的先驗來泛化到新對象;以及用于構建自定義模型的對象的在線 neural SLAM 。在實踐中,這些功能甚至可以協(xié)同工作,例如,基礎模型可以提供初步猜測,然后通過在線重建進行改進。機器人正在朝著新物體的實時 6D 感知發(fā)展,而不是局限于識別一組固定的已知物體。

基礎模型:跨任務的泛化和統(tǒng)一

更多的機器人感知系統(tǒng)利用基礎模型,即只需極少調整即可跨任務泛化的大型神經網絡。這在 FoundationStereo 和 FoundationPose 中很明顯,它們分別為立體深度估計和 6D 物體位姿追蹤提供了強有力的基準。

FoundationStereo 將之前于 DepthAnythingV2 的側調整單目深度整合到立體模型框架中,無需重新訓練即可增強魯棒性和域泛化。它在各種環(huán)境中使用超過 100 萬個合成立體對進行訓練,在 Middlebury、KITTI 和 ETH3D 數(shù)據(jù)集等基準測試中實現(xiàn)了先進的零樣本性能。該模型改進了成本體積編碼器和解碼器,增強了遠程差異估計。

在圖 6 中,Side-Tuning Adapter (STA) 利用來自凍結的 DepthAnythingV2 的豐富單目先驗,以及來自多級 CNN 的詳細高頻特征來提取一元特征。Attentive Hybrid Cost Filtering (AHCF) 將 Axial-Planar Convolution (APC) 過濾與 Disparity Transformer (DT) 模塊相結合,在 4D 混合成本體積中有效聚合跨空間和差異維度的特征。根據(jù)此過濾后的成本量預測初始差異,并使用 GRU 塊進行細化。每個優(yōu)化階段都會使用更新后的差異從過濾后的混合成本體積和相關體積中查找特征,從而指導下一個優(yōu)化步驟,并產生最終的輸出差異。

f5cdda26-5661-11f0-9ca0-92fbcf53809c.png

圖 6. 通過 AHCF 從輸入圖像到輸出差異的 FoundationStereo 流

FoundationPose 是一個統(tǒng)一模型,用于對新物體進行單幀 6D 位姿估計和多幀位姿追蹤。它通過學習物體幾何圖形的神經隱式表示,支持基于模型和基于圖像的推理。它使用 CAD 模型或一些 RGB 引用泛化到不可見的對象。它基于大語言模型生成的大型合成數(shù)據(jù)集進行訓練,包括各種任務提示和場景變體。

FoundationPose 利用對比訓練和基于 Transformer 的編碼器,在 YCB-Video、T-LESS 和 LM-OCC 等基準測試中的表現(xiàn)明顯優(yōu)于 CosyPose 和 StablePose 等特定任務基準。圖 7 展示了 FoundationPose 的工作原理。為了減少大規(guī)模訓練的人工工作量,我們使用新興技術和資源(包括 3D 模型數(shù)據(jù)庫、LLMs 和 diffusion models)創(chuàng)建了合成數(shù)據(jù)生成工作流 (Sec. 3.1)。為了將無模型設置和基于模型的設置連接起來,我們使用 object-centric neural field (Sec. 3.2),用于新穎的視圖 RGB-D 渲染和渲染與比較。對于位姿估計,我們會在物體周圍均勻地初始化全局位姿,并通過 refinement network 進行優(yōu)化 (Sec. 3.3)。最后,我們將優(yōu)化后的位姿發(fā)送到位姿選擇模塊,以預測其分數(shù),并選擇具有最佳分數(shù)的姿勢作為輸出 (Sec. 3.4)。

f5e1e2a0-5661-11f0-9ca0-92fbcf53809c.png

圖 7. 該工作流通過結合神經渲染、細化和位姿假設排序來生成合成訓練數(shù)據(jù)并估計物體位姿

這些模型共同標志著機器人技術在構建統(tǒng)一可復用感知主干的道路上邁出了關鍵一步。通過將深度和物體幾何的通用先驗知識嵌入實時系統(tǒng),機器人能夠在零樣本場景中(包括訓練未涉及的環(huán)境中以及從未見過的物體交互場景)實現(xiàn)可靠性能,隨著機器人技術朝著更具適應性的開放世界部署發(fā)展,基礎模型提供了在通用感知框架內支持廣泛任務所需的靈活性和可擴展性。

邁向集成式 3D 感知堆棧

這些項目共同指向一個統(tǒng)一的 3D 感知堆棧,其中深度估計、SLAM、物體追蹤和重建作為緊密集成的組件運行。FoundationStereo 可提供可靠的深度,cuVSLAM 可跟蹤攝像頭位姿以進行實時定位和映射,而 BundleSDF 和 FoundationPose 可處理物體級理解,包括 6-DoF 追蹤和形狀估計,即使是未見過的物體也不例外。

通過基于 foundation models 和神經 3D 表征構建,這些系統(tǒng)實現(xiàn)了通用的實時感知,支持在復雜環(huán)境中進行導航、操作和交互。機器人技術的未來在于這種集成堆棧,其中感知模塊共享表示和上下文,使機器人能夠以空間和語義意識進行感知、記憶和行動。

總結

本期 R2D2 探討了立體深度估計、SLAM、物體位姿跟蹤和 3D 重建等領域的最新進展,以及如何融合到統(tǒng)一的機器人 3D 感知堆棧中。這些工具大多由基礎模型驅動,使機器人能夠實時理解環(huán)境并與之交互,即使面對新物體或陌生場景也能應對自如。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31494

    瀏覽量

    223825
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110138
  • AI
    AI
    +關注

    關注

    91

    文章

    41306

    瀏覽量

    302688
  • 模型
    +關注

    關注

    1

    文章

    3831

    瀏覽量

    52285

原文標題:R2D2:利用 NVIDIA 研究中心的研究成果,構建 AI 驅動的 3D 機器人感知與地圖構建系統(tǒng)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于3D視覺技術的機器人系統(tǒng)

    隨著科學技術的不斷進步,未來3D視覺系統(tǒng)將成為機器人系統(tǒng)的標準附加設備,攜手機器人共同打造夢幻般視覺。
    發(fā)表于 05-14 11:57 ?5014次閱讀

    《電子發(fā)燒友電子設計周報》聚焦硬科技領域核心價值 第20期:2025.07.14--2025.07.18

    部署ROS機器人系統(tǒng)詳細攻略 5、RTL級機器人電機控制器的FPGA設計 6、基于意法半導體 STEVAL-ROBKIT1 的機器人應用方案 7、基于
    發(fā)表于 07-18 21:36

    《電子發(fā)燒友電子設計周報》聚焦硬科技領域核心價值 第21期:2025.07.21--2025.07.25

    STEVAL-ROBKIT1 的機器人應用方案 7、基于NVIDIA AI3D機器人感知
    發(fā)表于 07-25 20:03

    走到哪都不會迷路,全自動機器人是怎么導航的?

    3D地圖中,也是靠這種方法定位。 無人車激光雷達生成定位地圖那萬一機器人走進溝里、爬樹上了怎么辦?我們也有對策。平面中,常用二維柵格地圖
    發(fā)表于 05-11 11:51

    Voxel 3D 飛行時間傳感器機器人視覺參考設計

    的性能,此外還探討了 3D 傳感器(積分時間、飽和度)、信號處理(濾波)和外部紅外 (IR) 輻射源對測量的影響。憑借 3D TOF 解決方案的距離測量準確性,掃地機器人能夠檢測和識別物體并
    發(fā)表于 10-11 15:37

    怎么構建一張滿足機器人導航需求的地圖

    使用的算法與傳感器差異采用不同的地圖描述形式,所以構建一張可靠的地圖機器人有著極其重要的作用,那如何構建滿足
    發(fā)表于 08-18 06:47

    未來的機器人3D視覺系統(tǒng)將會發(fā)生什么樣的變化?

    視覺系統(tǒng)的發(fā)展趨勢怎么樣?3D視覺系統(tǒng)應用在哪些方面?未來的機器人3D視覺系統(tǒng)將會發(fā)生什么樣的變
    發(fā)表于 05-11 06:40

    全球3D芯片及模組引領者,強勢登陸中國市場

    ,助力合作伙伴實現(xiàn)3D夢想3D視覺技術是高端制造和智能制造機器人的關鍵技術,它賦予了機器人“眼睛和大腦”三維感知能力,是
    發(fā)表于 11-29 11:03

    基于Arduino的3D打印2輪機器人

    描述AR.LO - Arduino 3D 打印機器人AR.LO 是一款基于 Arduino 的 3D 打印 2 輪機器人。它具有:OLED 顯示屏、超聲波傳感器、藍牙模塊和 2 個改進
    發(fā)表于 08-12 07:55

    3D打印構建“折紙”機器人抓手

    麻省理工使用3D打印來構建“折紙”機器人抓手
    的頭像 發(fā)表于 03-20 14:16 ?5956次閱讀

    INDEMIND 3D語義地圖構建技術在機器人上的應用

    隨著機器人的應用版圖從工廠不斷擴張到商場、超市等服務領域,面對的作業(yè)環(huán)境也越來越復雜,對于產品的安全性、可靠性、智能化等要求明顯提高,而機器人要應對這一變化,首先要做的不是對系統(tǒng)盲目的做加法,而是需要提升環(huán)境
    的頭像 發(fā)表于 03-10 10:16 ?2108次閱讀

    機器人如何構建3D語義地圖

    業(yè)務邏輯的高層次語義信息,相反,3D語義地圖不僅包含物體及環(huán)境的結構信息,還有物體類別、功能屬性等“常識”性信息,可以說是機器人的保姆級地圖。
    發(fā)表于 08-11 11:01 ?1040次閱讀

    NVIDIA Isaac 平臺先進的仿真和感知工具助力 AI 機器人技術加速發(fā)展

    ? NVIDIA Isaac ROS 2.0 ?和? NVIDIA Isaac Sim 2023.1? 以及感知和仿真升級進行了發(fā)布,用以簡化 ROS 開發(fā)者對高性能 AI
    的頭像 發(fā)表于 10-20 02:00 ?2403次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac 平臺先進的仿真和<b class='flag-5'>感知</b>工具助力 <b class='flag-5'>AI</b> <b class='flag-5'>機器人</b>技術加速發(fā)展

    利用NVIDIA Isaac平臺構建、設計并部署機器人應用

    機器人在智能制造設施、商業(yè)廚房、醫(yī)院、倉庫物流和農業(yè)領域等不同環(huán)境中的應用正在迅速擴展。該行業(yè)正在向智能自動化轉變,這需要增強的機器人功能來執(zhí)行感知、地圖
    的頭像 發(fā)表于 11-09 11:41 ?3244次閱讀
    利用<b class='flag-5'>NVIDIA</b> Isaac平臺<b class='flag-5'>構建</b>、設計并部署<b class='flag-5'>機器人</b>應用

    普渡科技推出3D感知AI掃地機器人PUDU MT1 Max

    在持續(xù)探索機器人技術與真實場景深度融合的進程中,普渡機器人以場景驅動創(chuàng)新,正式推出PUDU MT1 Max 3D感知AI掃地
    的頭像 發(fā)表于 08-25 15:47 ?1530次閱讀
    巴中市| 岱山县| 沾益县| 祁东县| 红桥区| 台江县| 甘孜县| 屯昌县| 集安市| 湘潭市| 甘南县| 南投市| 台州市| 潍坊市| 江北区| 介休市| 佳木斯市| 新田县| 上思县| 博客| 沭阳县| 北安市| 闸北区| 望都县| 上饶县| 大关县| 哈巴河县| 华坪县| 平阴县| 汤原县| 灵武市| 乌鲁木齐市| 余姚市| 布尔津县| 泾川县| 万宁市| 潼关县| 吴桥县| 新乡县| 城口县| 大荔县|