亚洲日韩精品网无,久久久av网

在具身智能中，高質(zhì)量的三維場景感知與語義理解是實(shí)現(xiàn)環(huán)境理解、自主導(dǎo)航與靈巧操作的關(guān)鍵能力。

然而，傳統(tǒng)方法通常依賴耗時的逐場景優(yōu)化，或?qū)⑷S重建與語義理解等任務(wù)分離建模，難以同時兼顧效率與泛化能力。

我們的核心思路是將 3D Gaussian 作為統(tǒng)一且高效的三維表征基礎(chǔ)，在統(tǒng)一的幾何表征上整合多任務(wù)，實(shí)現(xiàn)幾何、語義與渲染的一體化建模?；诖?，我們提出 Uni3R——一個面向無位姿多視圖輸入的統(tǒng)一三維重建與語義理解框架。

該方法能夠從純視頻數(shù)據(jù)中直接恢復(fù)完整場景及相機(jī)位姿，并同步建模語義信息。通過跨視角融合機(jī)制，Uni3R 構(gòu)建基于 3D 高斯的統(tǒng)一表示，在同一表征空間中聯(lián)合編碼幾何結(jié)構(gòu)與語義特征。實(shí)驗(yàn)表明，統(tǒng)一多任務(wù)表征不僅顯著減少底層計算冗余，還在幾何重建、視角合成與語義理解之間形成穩(wěn)定的協(xié)同增益，從而獲得更加一致且可靠的空間三維表征。

實(shí)驗(yàn)表明，該方法在多個基準(zhǔn)數(shù)據(jù)集的多項任務(wù)中，均實(shí)現(xiàn) SOTA 性能。論文已被 CVPR 2026 接收為 Highlight(錄取率 10%)，項目代碼現(xiàn)已開源，希望能為實(shí)時、強(qiáng)泛化的三維感知與統(tǒng)一 3D 表征，確立一條可規(guī)?；募夹g(shù)路徑。

? 項目主頁：

https://horizonrobotics.github.io/robot_lab/uni3R

? 文章鏈接：

https://arxiv.org/pdf/2508.03643

?GitHub代碼：

https://github.com/HorizonRobotics/Uni3R

概述

在現(xiàn)實(shí)場景中，通常只能獲取來自多個視角的RGB圖像，而缺乏相機(jī)位姿、深度或點(diǎn)云等輔助信息?，F(xiàn)有三維重建方法普遍存在兩方面局限：一是將幾何重建與語義理解解耦建模，需分別訓(xùn)練與優(yōu)化，導(dǎo)致系統(tǒng)復(fù)雜且效率受限；二是高度依賴位姿與深度監(jiān)督，才能穩(wěn)定恢復(fù)幾何結(jié)構(gòu)。針對這些問題，Uni3R提出統(tǒng)一架構(gòu)，將整體流程轉(zhuǎn)化為可泛化的前饋推理過程，無需預(yù)先配準(zhǔn)的相機(jī)信息。

僅需少量普通照片，模型可自動重建完整的三維場景并識別其中的物體。這一目標(biāo)長期以來是計算機(jī)視覺的重要方向。然而，傳統(tǒng)方法往往依賴耗時的逐場景優(yōu)化，或?qū)⑷S重建、語義理解等任務(wù)分離建模，難以同時兼顧效率與泛化能力。

我們的核心思考是，以3D Gaussian Splatting作為高效統(tǒng)一的三維表征基礎(chǔ)，在同一幾何表示上整合不同任務(wù)，實(shí)現(xiàn)幾何、語義與渲染的一體化建模?；诖耍覀兲岢鯱ni3R，一個面向三維重建與語義理解的統(tǒng)一框架。該方法能夠從未經(jīng)對齊的多視圖圖像中直接恢復(fù)完整場景，并同步建模語義信息。通過跨視角融合機(jī)制，Uni3R構(gòu)建基于3D高斯的統(tǒng)一表示，在同一表征空間中聯(lián)合編碼幾何結(jié)構(gòu)與語義特征。

依托統(tǒng)一表征空間，Uni3R僅需單次前向傳播（約0.15秒），即可并發(fā)完成高保真新視角合成、開放詞匯三維語義分割與深度預(yù)測三項核心任務(wù)，并在多個基準(zhǔn)數(shù)據(jù)集上達(dá)到當(dāng)前最先進(jìn)水平。進(jìn)一步實(shí)驗(yàn)表明，統(tǒng)一多任務(wù)表征不僅顯著減少了底層計算冗余，還在幾何重建、視角合成與語義理解之間形成穩(wěn)定的協(xié)同增益。右側(cè)雷達(dá)圖展示了Uni3R與多種現(xiàn)有方法在不同數(shù)據(jù)集與任務(wù)上的性能對比結(jié)果，表明該方法在各項指標(biāo)上均表現(xiàn)出一致且領(lǐng)先的性能。

總體框架

Uni3R以多視角RGB圖像為輸入，首先通過DINOv2編碼器提取高維特征，并利用跨視角注意力機(jī)制 (Cross-View Transformer) 融合多視圖信息，構(gòu)建全局一致的場景表征。模型在單次前向過程中直接預(yù)測三維高斯原語 (3D Gaussian Splatting) ，該統(tǒng)一表示同時編碼場景的幾何結(jié)構(gòu)、外觀信息與語義特征。

為提升訓(xùn)練穩(wěn)定性，Uni3R引入面向RGB-only監(jiān)督的幾何約束損失 (Geometry Loss) ，為三維表示提供額外的結(jié)構(gòu)先驗(yàn)?；诟咚?jié)姙R渲染，模型能夠生成新視角圖像、深度圖及語義結(jié)果，并通過聯(lián)合損失進(jìn)行端到端優(yōu)化，從而實(shí)現(xiàn)三維場景的統(tǒng)一重建與語義理解。

新視角語義分割

Uni3R在多項三維視覺任務(wù)中取得了當(dāng)前最先進(jìn)的性能，并能夠生成結(jié)構(gòu)一致、語義清晰的三維場景理解結(jié)果。與傳統(tǒng)方法不同，許多模型（例如 LSeg）只能在二維圖像上進(jìn)行語義分割，而Uni3R則為每一個3D高斯表示賦予語義特征，從而在三維空間中構(gòu)建出一個統(tǒng)一且穩(wěn)定的語義表示。這一設(shè)計將幾何結(jié)構(gòu)、語義信息和渲染過程有機(jī)結(jié)合，使模型在三維空間中的語義理解更加準(zhǔn)確、一致。

此外，一些方法（例如 LSM）在訓(xùn)練過程中需要依賴真實(shí)的三維點(diǎn)云數(shù)據(jù)進(jìn)行監(jiān)督，而Uni3R則不需要這樣的額外標(biāo)注。這使得Uni3R在實(shí)際應(yīng)用中更加高效、靈活且具有更好的擴(kuò)展能力，為大規(guī)模三維場景理解提供了新的解決方案。

新視角圖像生成

在新視角圖像生成的任務(wù)中，我們的方法取得最好的效果。相比之下，NoPoSplat和VicaSplat由于在多視角生成下的3D不一致問題，產(chǎn)生了明顯的偽影和模糊。

實(shí)驗(yàn)結(jié)果表明，在4視圖和8視圖兩種設(shè)置下，Uni3R在RE10K和ScanNet等數(shù)據(jù)集上均取得了全面領(lǐng)先的表現(xiàn)。相比當(dāng)前性能較強(qiáng)的VicaSplat方法，Uni3R在PSNR指標(biāo)上平均提升約2.0dB，顯示出更強(qiáng)的多視角信息融合能力和更好的泛化性能。

總結(jié)與展望

Uni3R提出了一個全新的統(tǒng)一框架，使得3D幾何重建與語義理解在單次前饋中同時完成，并在多個數(shù)據(jù)集上實(shí)現(xiàn)了SOTA性能，尤其適用于無位姿、多視圖稀疏輸入條件下的復(fù)雜場景。

未來的研究有幾個值得進(jìn)一步探索的方向：

將基于多任務(wù)統(tǒng)一前饋3D GS框架，拓展到3D基礎(chǔ)模型自監(jiān)督、甚至表征學(xué)習(xí)自監(jiān)督，支持下游任務(wù)更好的學(xué)習(xí)語義、語義表征；

更長序列的拓展：進(jìn)一步優(yōu)化前向推理架構(gòu)，以支持大范圍、實(shí)時更新的重建感知；

實(shí)例運(yùn)動場景重建：加入Instance分割，希望能夠處理含運(yùn)動物體或場景變化的視頻序列；

希望通過這些拓展，實(shí)現(xiàn)從視覺輸入到統(tǒng)一3D理解的可能性，更加希望為具身智能在物理世界運(yùn)作提供了新的空間表征學(xué)習(xí)范式，來開啟具身感知、理解與交互的新篇章。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3854

瀏覽量
52310
地平線

地平線

+關(guān)注

關(guān)注
0

文章
481

瀏覽量
16525
具身智能

具身智能

+關(guān)注

關(guān)注
0

文章
527

瀏覽量
915

原文標(biāo)題：開發(fā)者說｜Uni3R：探索統(tǒng)一3D表征，0.16秒實(shí)現(xiàn)3D重建、渲染與理解

文章出處：【微信號：horizonrobotics，微信公眾號：地平線HorizonRobotics】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

面向無位姿多視圖輸入的統(tǒng)一三維重建與語義理解框架Uni3R介紹

評論