在具身智能中,高質(zhì)量的三維場景感知與語義理解是實(shí)現(xiàn)環(huán)境理解、自主導(dǎo)航與靈巧操作的關(guān)鍵能力。
然而,傳統(tǒng)方法通常依賴耗時的逐場景優(yōu)化,或?qū)⑷S重建與語義理解等任務(wù)分離建模,難以同時兼顧效率與泛化能力。
我們的核心思路是將 3D Gaussian 作為統(tǒng)一且高效的三維表征基礎(chǔ),在統(tǒng)一的幾何表征上整合多任務(wù),實(shí)現(xiàn)幾何、語義與渲染的一體化建模?;诖?,我們提出 Uni3R——一個面向無位姿多視圖輸入的統(tǒng)一三維重建與語義理解框架。
該方法能夠從純視頻數(shù)據(jù)中直接恢復(fù)完整場景及相機(jī)位姿,并同步建模語義信息。通過跨視角融合機(jī)制,Uni3R 構(gòu)建基于 3D 高斯的統(tǒng)一表示,在同一表征空間中聯(lián)合編碼幾何結(jié)構(gòu)與語義特征。實(shí)驗(yàn)表明,統(tǒng)一多任務(wù)表征不僅顯著減少底層計算冗余,還在幾何重建、視角合成與語義理解之間形成穩(wěn)定的協(xié)同增益,從而獲得更加一致且可靠的空間三維表征。
實(shí)驗(yàn)表明,該方法在多個基準(zhǔn)數(shù)據(jù)集的多項任務(wù)中,均實(shí)現(xiàn) SOTA 性能。論文已被 CVPR 2026 接收為 Highlight(錄取率 10%),項目代碼現(xiàn)已開源,希望能為實(shí)時、強(qiáng)泛化的三維感知與統(tǒng)一 3D 表征,確立一條可規(guī)?;募夹g(shù)路徑。
? 項目主頁:
https://horizonrobotics.github.io/robot_lab/uni3R
? 文章鏈接:
https://arxiv.org/pdf/2508.03643
?GitHub代碼:
https://github.com/HorizonRobotics/Uni3R
概述
在現(xiàn)實(shí)場景中,通常只能獲取來自多個視角的RGB圖像,而缺乏相機(jī)位姿、深度或點(diǎn)云等輔助信息?,F(xiàn)有三維重建方法普遍存在兩方面局限:一是將幾何重建與語義理解解耦建模,需分別訓(xùn)練與優(yōu)化,導(dǎo)致系統(tǒng)復(fù)雜且效率受限;二是高度依賴位姿與深度監(jiān)督,才能穩(wěn)定恢復(fù)幾何結(jié)構(gòu)。針對這些問題,Uni3R提出統(tǒng)一架構(gòu),將整體流程轉(zhuǎn)化為可泛化的前饋推理過程,無需預(yù)先配準(zhǔn)的相機(jī)信息。
僅需少量普通照片,模型可自動重建完整的三維場景并識別其中的物體。這一目標(biāo)長期以來是計算機(jī)視覺的重要方向。然而,傳統(tǒng)方法往往依賴耗時的逐場景優(yōu)化,或?qū)⑷S重建、語義理解等任務(wù)分離建模,難以同時兼顧效率與泛化能力。
我們的核心思考是,以3D Gaussian Splatting作為高效統(tǒng)一的三維表征基礎(chǔ),在同一幾何表示上整合不同任務(wù),實(shí)現(xiàn)幾何、語義與渲染的一體化建模?;诖耍覀兲岢鯱ni3R,一個面向三維重建與語義理解的統(tǒng)一框架。該方法能夠從未經(jīng)對齊的多視圖圖像中直接恢復(fù)完整場景,并同步建模語義信息。通過跨視角融合機(jī)制,Uni3R構(gòu)建基于3D高斯的統(tǒng)一表示,在同一表征空間中聯(lián)合編碼幾何結(jié)構(gòu)與語義特征。
依托統(tǒng)一表征空間,Uni3R僅需單次前向傳播(約0.15秒),即可并發(fā)完成高保真新視角合成、開放詞匯三維語義分割與深度預(yù)測三項核心任務(wù),并在多個基準(zhǔn)數(shù)據(jù)集上達(dá)到當(dāng)前最先進(jìn)水平。進(jìn)一步實(shí)驗(yàn)表明,統(tǒng)一多任務(wù)表征不僅顯著減少了底層計算冗余,還在幾何重建、視角合成與語義理解之間形成穩(wěn)定的協(xié)同增益。右側(cè)雷達(dá)圖展示了Uni3R與多種現(xiàn)有方法在不同數(shù)據(jù)集與任務(wù)上的性能對比結(jié)果,表明該方法在各項指標(biāo)上均表現(xiàn)出一致且領(lǐng)先的性能。

總體框架

Uni3R以多視角RGB圖像為輸入,首先通過DINOv2編碼器提取高維特征,并利用跨視角注意力機(jī)制 (Cross-View Transformer) 融合多視圖信息,構(gòu)建全局一致的場景表征。模型在單次前向過程中直接預(yù)測三維高斯原語 (3D Gaussian Splatting) ,該統(tǒng)一表示同時編碼場景的幾何結(jié)構(gòu)、外觀信息與語義特征。
為提升訓(xùn)練穩(wěn)定性,Uni3R引入面向RGB-only監(jiān)督的幾何約束損失 (Geometry Loss) ,為三維表示提供額外的結(jié)構(gòu)先驗(yàn)?;诟咚?jié)姙R渲染,模型能夠生成新視角圖像、深度圖及語義結(jié)果,并通過聯(lián)合損失進(jìn)行端到端優(yōu)化,從而實(shí)現(xiàn)三維場景的統(tǒng)一重建與語義理解。
新視角語義分割
Uni3R在多項三維視覺任務(wù)中取得了當(dāng)前最先進(jìn)的性能,并能夠生成結(jié)構(gòu)一致、語義清晰的三維場景理解結(jié)果。與傳統(tǒng)方法不同,許多模型(例如 LSeg)只能在二維圖像上進(jìn)行語義分割,而Uni3R則為每一個3D高斯表示賦予語義特征,從而在三維空間中構(gòu)建出一個統(tǒng)一且穩(wěn)定的語義表示。這一設(shè)計將幾何結(jié)構(gòu)、語義信息和渲染過程有機(jī)結(jié)合,使模型在三維空間中的語義理解更加準(zhǔn)確、一致。
此外,一些方法(例如 LSM)在訓(xùn)練過程中需要依賴真實(shí)的三維點(diǎn)云數(shù)據(jù)進(jìn)行監(jiān)督,而Uni3R則不需要這樣的額外標(biāo)注。這使得Uni3R在實(shí)際應(yīng)用中更加高效、靈活且具有更好的擴(kuò)展能力,為大規(guī)模三維場景理解提供了新的解決方案。

新視角圖像生成
在新視角圖像生成的任務(wù)中,我們的方法取得最好的效果。相比之下,NoPoSplat和VicaSplat由于在多視角生成下的3D不一致問題,產(chǎn)生了明顯的偽影和模糊。
實(shí)驗(yàn)結(jié)果表明,在4視圖和8視圖兩種設(shè)置下,Uni3R在RE10K和ScanNet等數(shù)據(jù)集上均取得了全面領(lǐng)先的表現(xiàn)。相比當(dāng)前性能較強(qiáng)的VicaSplat方法,Uni3R在PSNR指標(biāo)上平均提升約2.0dB,顯示出更強(qiáng)的多視角信息融合能力和更好的泛化性能。

總結(jié)與展望
Uni3R提出了一個全新的統(tǒng)一框架,使得3D幾何重建與語義理解在單次前饋中同時完成,并在多個數(shù)據(jù)集上實(shí)現(xiàn)了SOTA性能,尤其適用于無位姿、多視圖稀疏輸入條件下的復(fù)雜場景。
未來的研究有幾個值得進(jìn)一步探索的方向:
將基于多任務(wù)統(tǒng)一前饋3D GS框架,拓展到3D基礎(chǔ)模型自監(jiān)督、甚至表征學(xué)習(xí)自監(jiān)督,支持下游任務(wù)更好的學(xué)習(xí)語義、語義表征;
更長序列的拓展:進(jìn)一步優(yōu)化前向推理架構(gòu),以支持大范圍、實(shí)時更新的重建感知;
實(shí)例運(yùn)動場景重建:加入Instance分割,希望能夠處理含運(yùn)動物體或場景變化的視頻序列;
希望通過這些拓展,實(shí)現(xiàn)從視覺輸入到統(tǒng)一3D理解的可能性,更加希望為具身智能在物理世界運(yùn)作提供了新的空間表征學(xué)習(xí)范式,來開啟具身感知、理解與交互的新篇章。
-
模型
+關(guān)注
關(guān)注
1文章
3854瀏覽量
52310 -
地平線
+關(guān)注
關(guān)注
0文章
481瀏覽量
16525 -
具身智能
+關(guān)注
關(guān)注
0文章
527瀏覽量
915
原文標(biāo)題:開發(fā)者說|Uni3R:探索統(tǒng)一3D表征,0.16秒實(shí)現(xiàn)3D重建、渲染與理解
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
怎樣去設(shè)計一種基于RGB-D相機(jī)的三維重建無序抓取系統(tǒng)?
如何去開發(fā)一款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)
基于FPGA的醫(yī)學(xué)圖像三維重建系統(tǒng)設(shè)計與實(shí)現(xiàn)
面向智能服務(wù)系統(tǒng)的時間語義理解
AI+AR將用于智能三維重建領(lǐng)域
淺析面向圖像三維重建的無人機(jī)航線規(guī)劃
透明物體的三維重建研究綜述
NVIDIA Omniverse平臺助力三維重建服務(wù)協(xié)同發(fā)展
深度學(xué)習(xí)背景下的圖像三維重建技術(shù)進(jìn)展綜述
NerfingMVS:引導(dǎo)優(yōu)化神經(jīng)輻射場實(shí)現(xiàn)室內(nèi)多視角三維重建
三維重建:從入門到入土
如何實(shí)現(xiàn)整個三維重建過程
基于光學(xué)成像的物體三維重建技術(shù)研究
建筑物邊緣感知和邊緣融合的多視圖立體三維重建方法
面向無位姿多視圖輸入的統(tǒng)一三維重建與語義理解框架Uni3R介紹
評論