日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

面向無位姿多視圖輸入的統(tǒng)一三維重建與語義理解框架Uni3R介紹

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2026-05-15 14:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在具身智能中,高質(zhì)量的三維場景感知與語義理解是實(shí)現(xiàn)環(huán)境理解、自主導(dǎo)航與靈巧操作的關(guān)鍵能力。

然而,傳統(tǒng)方法通常依賴耗時的逐場景優(yōu)化,或?qū)⑷S重建與語義理解等任務(wù)分離建模,難以同時兼顧效率與泛化能力。

我們的核心思路是將 3D Gaussian 作為統(tǒng)一且高效的三維表征基礎(chǔ),在統(tǒng)一的幾何表征上整合多任務(wù),實(shí)現(xiàn)幾何、語義與渲染的一體化建模?;诖?,我們提出 Uni3R——一個面向無位姿多視圖輸入的統(tǒng)一三維重建與語義理解框架。

該方法能夠從純視頻數(shù)據(jù)中直接恢復(fù)完整場景及相機(jī)位姿,并同步建模語義信息。通過跨視角融合機(jī)制,Uni3R 構(gòu)建基于 3D 高斯的統(tǒng)一表示,在同一表征空間中聯(lián)合編碼幾何結(jié)構(gòu)與語義特征。實(shí)驗(yàn)表明,統(tǒng)一多任務(wù)表征不僅顯著減少底層計算冗余,還在幾何重建、視角合成與語義理解之間形成穩(wěn)定的協(xié)同增益,從而獲得更加一致且可靠的空間三維表征。

實(shí)驗(yàn)表明,該方法在多個基準(zhǔn)數(shù)據(jù)集的多項任務(wù)中,均實(shí)現(xiàn) SOTA 性能。論文已被 CVPR 2026 接收為 Highlight(錄取率 10%),項目代碼現(xiàn)已開源,希望能為實(shí)時、強(qiáng)泛化的三維感知與統(tǒng)一 3D 表征,確立一條可規(guī)?;募夹g(shù)路徑。

? 項目主頁:

https://horizonrobotics.github.io/robot_lab/uni3R

? 文章鏈接:

https://arxiv.org/pdf/2508.03643

?GitHub代碼:

https://github.com/HorizonRobotics/Uni3R

概述

在現(xiàn)實(shí)場景中,通常只能獲取來自多個視角的RGB圖像,而缺乏相機(jī)位姿、深度或點(diǎn)云等輔助信息?,F(xiàn)有三維重建方法普遍存在兩方面局限:一是將幾何重建與語義理解解耦建模,需分別訓(xùn)練與優(yōu)化,導(dǎo)致系統(tǒng)復(fù)雜且效率受限;二是高度依賴位姿與深度監(jiān)督,才能穩(wěn)定恢復(fù)幾何結(jié)構(gòu)。針對這些問題,Uni3R提出統(tǒng)一架構(gòu),將整體流程轉(zhuǎn)化為可泛化的前饋推理過程,無需預(yù)先配準(zhǔn)的相機(jī)信息。

僅需少量普通照片,模型可自動重建完整的三維場景并識別其中的物體。這一目標(biāo)長期以來是計算機(jī)視覺的重要方向。然而,傳統(tǒng)方法往往依賴耗時的逐場景優(yōu)化,或?qū)⑷S重建、語義理解等任務(wù)分離建模,難以同時兼顧效率與泛化能力。

我們的核心思考是,以3D Gaussian Splatting作為高效統(tǒng)一的三維表征基礎(chǔ),在同一幾何表示上整合不同任務(wù),實(shí)現(xiàn)幾何、語義與渲染的一體化建模?;诖耍覀兲岢鯱ni3R,一個面向三維重建與語義理解的統(tǒng)一框架。該方法能夠從未經(jīng)對齊的多視圖圖像中直接恢復(fù)完整場景,并同步建模語義信息。通過跨視角融合機(jī)制,Uni3R構(gòu)建基于3D高斯的統(tǒng)一表示,在同一表征空間中聯(lián)合編碼幾何結(jié)構(gòu)與語義特征。

依托統(tǒng)一表征空間,Uni3R僅需單次前向傳播(約0.15秒),即可并發(fā)完成高保真新視角合成、開放詞匯三維語義分割與深度預(yù)測三項核心任務(wù),并在多個基準(zhǔn)數(shù)據(jù)集上達(dá)到當(dāng)前最先進(jìn)水平。進(jìn)一步實(shí)驗(yàn)表明,統(tǒng)一多任務(wù)表征不僅顯著減少了底層計算冗余,還在幾何重建、視角合成與語義理解之間形成穩(wěn)定的協(xié)同增益。右側(cè)雷達(dá)圖展示了Uni3R與多種現(xiàn)有方法在不同數(shù)據(jù)集與任務(wù)上的性能對比結(jié)果,表明該方法在各項指標(biāo)上均表現(xiàn)出一致且領(lǐng)先的性能。

f580064a-4d2b-11f1-90a1-92fbcf53809c.png

總體框架

f5fa427a-4d2b-11f1-90a1-92fbcf53809c.png

Uni3R以多視角RGB圖像為輸入,首先通過DINOv2編碼器提取高維特征,并利用跨視角注意力機(jī)制 (Cross-View Transformer) 融合多視圖信息,構(gòu)建全局一致的場景表征。模型在單次前向過程中直接預(yù)測三維高斯原語 (3D Gaussian Splatting) ,該統(tǒng)一表示同時編碼場景的幾何結(jié)構(gòu)、外觀信息與語義特征。

為提升訓(xùn)練穩(wěn)定性,Uni3R引入面向RGB-only監(jiān)督的幾何約束損失 (Geometry Loss) ,為三維表示提供額外的結(jié)構(gòu)先驗(yàn)?;诟咚?jié)姙R渲染,模型能夠生成新視角圖像、深度圖及語義結(jié)果,并通過聯(lián)合損失進(jìn)行端到端優(yōu)化,從而實(shí)現(xiàn)三維場景的統(tǒng)一重建與語義理解。

新視角語義分割

Uni3R在多項三維視覺任務(wù)中取得了當(dāng)前最先進(jìn)的性能,并能夠生成結(jié)構(gòu)一致、語義清晰的三維場景理解結(jié)果。與傳統(tǒng)方法不同,許多模型(例如 LSeg)只能在二維圖像上進(jìn)行語義分割,而Uni3R則為每一個3D高斯表示賦予語義特征,從而在三維空間中構(gòu)建出一個統(tǒng)一且穩(wěn)定的語義表示。這一設(shè)計將幾何結(jié)構(gòu)、語義信息和渲染過程有機(jī)結(jié)合,使模型在三維空間中的語義理解更加準(zhǔn)確、一致。

此外,一些方法(例如 LSM)在訓(xùn)練過程中需要依賴真實(shí)的三維點(diǎn)云數(shù)據(jù)進(jìn)行監(jiān)督,而Uni3R則不需要這樣的額外標(biāo)注。這使得Uni3R在實(shí)際應(yīng)用中更加高效、靈活且具有更好的擴(kuò)展能力,為大規(guī)模三維場景理解提供了新的解決方案。

f7e659de-4d2b-11f1-90a1-92fbcf53809c.png

新視角圖像生成

在新視角圖像生成的任務(wù)中,我們的方法取得最好的效果。相比之下,NoPoSplat和VicaSplat由于在多視角生成下的3D不一致問題,產(chǎn)生了明顯的偽影和模糊。

實(shí)驗(yàn)結(jié)果表明,在4視圖和8視圖兩種設(shè)置下,Uni3R在RE10K和ScanNet等數(shù)據(jù)集上均取得了全面領(lǐng)先的表現(xiàn)。相比當(dāng)前性能較強(qiáng)的VicaSplat方法,Uni3R在PSNR指標(biāo)上平均提升約2.0dB,顯示出更強(qiáng)的多視角信息融合能力和更好的泛化性能。

fa07077c-4d2b-11f1-90a1-92fbcf53809c.png

總結(jié)與展望

Uni3R提出了一個全新的統(tǒng)一框架,使得3D幾何重建與語義理解在單次前饋中同時完成,并在多個數(shù)據(jù)集上實(shí)現(xiàn)了SOTA性能,尤其適用于無位姿、多視圖稀疏輸入條件下的復(fù)雜場景。

未來的研究有幾個值得進(jìn)一步探索的方向:

將基于多任務(wù)統(tǒng)一前饋3D GS框架,拓展到3D基礎(chǔ)模型自監(jiān)督、甚至表征學(xué)習(xí)自監(jiān)督,支持下游任務(wù)更好的學(xué)習(xí)語義、語義表征;

更長序列的拓展:進(jìn)一步優(yōu)化前向推理架構(gòu),以支持大范圍、實(shí)時更新的重建感知;

實(shí)例運(yùn)動場景重建:加入Instance分割,希望能夠處理含運(yùn)動物體或場景變化的視頻序列;

希望通過這些拓展,實(shí)現(xiàn)從視覺輸入到統(tǒng)一3D理解的可能性,更加希望為具身智能在物理世界運(yùn)作提供了新的空間表征學(xué)習(xí)范式,來開啟具身感知、理解與交互的新篇章。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3854

    瀏覽量

    52310
  • 地平線
    +關(guān)注

    關(guān)注

    0

    文章

    481

    瀏覽量

    16525
  • 具身智能
    +關(guān)注

    關(guān)注

    0

    文章

    527

    瀏覽量

    915

原文標(biāo)題:開發(fā)者說|Uni3R:探索統(tǒng)一3D表征,0.16秒實(shí)現(xiàn)3D重建、渲染與理解

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    怎樣去設(shè)計一種基于RGB-D相機(jī)的三維重建無序抓取系統(tǒng)?

    為什么要開發(fā)一種三維重建無序抓取系統(tǒng)?三維重建無序抓取系統(tǒng)是由哪些部分組成的?三維重建無序抓取系統(tǒng)有哪些關(guān)鍵技術(shù)和創(chuàng)新點(diǎn)?
    發(fā)表于 07-02 06:29

    如何去開發(fā)一款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)

    基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)有哪些關(guān)鍵技術(shù)?如何去開發(fā)一款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)?基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)是由哪些部分組成的?
    發(fā)表于 09-08 06:12

    基于FPGA的醫(yī)學(xué)圖像三維重建系統(tǒng)設(shè)計與實(shí)現(xiàn)

    目前大部分的醫(yī)學(xué)圖像三維重建過程都是在PC機(jī)上完成的,由于PC機(jī)本身性能的限制和重建算法的復(fù)雜性,使得重建效率不高。針對這個問題,設(shè)計與實(shí)現(xiàn)了一個基于FPGA(Field Programmable Gate Array,現(xiàn)場可編
    發(fā)表于 03-15 13:52 ?45次下載

    面向智能服務(wù)系統(tǒng)的時間語義理解

    時間是客觀存在的,但在人類日常生活中,時間的表達(dá)需要借助自然語言描述出來。時間信息是自然語言表達(dá)中必不可少的一種語義信息。時間語義理解是自然語言處理的重要部分。 時間語義即為描述事件發(fā)生、發(fā)展的時序
    發(fā)表于 04-19 14:54 ?0次下載
    <b class='flag-5'>面向</b>智能服務(wù)系統(tǒng)的時間<b class='flag-5'>語義理解</b>

    AI+AR將用于智能三維重建領(lǐng)域

    AI與AR的關(guān)系日漸微妙,正在不斷融合、相互促進(jìn)。在計算機(jī)視覺中, 三維重建是指根據(jù)單視圖或者視圖的二圖像
    發(fā)表于 09-21 10:33 ?5234次閱讀

    為什么說三維重建才是計算機(jī)視覺的靈魂?

    權(quán)龍教授為我們介紹三維重建的歷史發(fā)展與應(yīng)用前景。
    的頭像 發(fā)表于 07-02 14:18 ?3.2w次閱讀

    淺析面向圖像三維重建的無人機(jī)航線規(guī)劃

    隨著無人機(jī)技術(shù)的發(fā)展,無人機(jī)序列影像三維重建越來越受到人們的關(guān)注。為完整重建任務(wù)區(qū)域的三維模型并減少
    的頭像 發(fā)表于 04-06 08:58 ?5611次閱讀
    淺析<b class='flag-5'>面向</b>圖像<b class='flag-5'>三維重建</b>的無人機(jī)航線規(guī)劃

    透明物體的三維重建研究綜述

    應(yīng)用在透明物體上。文中簡要介紹透明物體的三維重建相關(guān)研究,圍繞從ⅹ恢復(fù)形狀、反向渲染技術(shù)、斷層攝影技術(shù)和直接光線測量這4個方面回顧了近些年來的主要研究工作,分析并指出當(dāng)前工作的優(yōu)缺點(diǎn)以及不同的應(yīng)用環(huán)境,展示
    發(fā)表于 04-21 14:21 ?4次下載
    透明物體的<b class='flag-5'>三維重建</b>研究綜述

    NVIDIA Omniverse平臺助力三維重建服務(wù)協(xié)同發(fā)展

    計算機(jī)視覺的進(jìn)步為元宇宙的數(shù)字孿生應(yīng)用打下堅實(shí)基礎(chǔ)。在計算機(jī)視覺中,三維重建是指根據(jù)單視圖或者視圖的圖像重建
    的頭像 發(fā)表于 10-13 09:45 ?2361次閱讀

    深度學(xué)習(xí)背景下的圖像三維重建技術(shù)進(jìn)展綜述

    根據(jù)三維模型的表示形式可以將圖像三維重建方法分類為基于體素的三維重建、基于點(diǎn)云的三維重建和基于網(wǎng)格的三維重建,其中基于網(wǎng)格的
    的頭像 發(fā)表于 01-09 14:26 ?4139次閱讀

    NerfingMVS:引導(dǎo)優(yōu)化神經(jīng)輻射場實(shí)現(xiàn)室內(nèi)視角三維重建

    既然Nerf可以表示場景的三維信息,一個自然的想法是能不能將NeRF應(yīng)用到室內(nèi)場景三維重建任務(wù)中呢。NeRF有著一些優(yōu)勢:相較于傳統(tǒng)的MVS,SfM算法,NeRF蘊(yùn)含了整個場景的信息,所以有潛力重建出低紋理區(qū)域的
    的頭像 發(fā)表于 02-13 11:20 ?4532次閱讀

    三維重建:從入門到入土

    經(jīng)典三維重建系統(tǒng)的整個pipeline從相機(jī)標(biāo)定、基礎(chǔ)矩陣與本質(zhì)矩陣估計、特征匹配到運(yùn)動恢復(fù)結(jié)構(gòu)(SFM),從SFM到稠密點(diǎn)云重建、表面重建、紋理貼圖。熟悉SFM的工程師已經(jīng)是行業(yè)內(nèi)的佼佼者,能掌握
    的頭像 發(fā)表于 03-03 10:17 ?2301次閱讀

    如何實(shí)現(xiàn)整個三維重建過程

    在計算機(jī)視覺中,三維重建是指根據(jù)單視圖或者視圖的圖像重建三維信息的過程。由于單視頻的信息不完全
    發(fā)表于 09-01 11:06 ?2789次閱讀
    如何實(shí)現(xiàn)整個<b class='flag-5'>三維重建</b>過程

    基于光學(xué)成像的物體三維重建技術(shù)研究

    隨著計算機(jī)科學(xué)和數(shù)字成像技術(shù)的飛速發(fā)展,光學(xué)成像技術(shù)在許多領(lǐng)域中得到了廣泛應(yīng)用,其中之一便是物體三維重建。物體三維重建技術(shù)是一種通過計算機(jī)處理圖像數(shù)據(jù),獲得物體三維信息的技術(shù)。光學(xué)成像技術(shù)作為物體
    的頭像 發(fā)表于 09-15 09:29 ?1952次閱讀
    基于光學(xué)成像的物體<b class='flag-5'>三維重建</b>技術(shù)研究

    建筑物邊緣感知和邊緣融合的視圖立體三維重建方法

    航空建筑深度估計是三維數(shù)字城市重建中的一項重要任務(wù),基于深度學(xué)習(xí)的視圖立體(MVS)方法在該領(lǐng)域取得了較好的成果。目前的主要方法通過修改MVS
    的頭像 發(fā)表于 11-07 10:16 ?1784次閱讀
    建筑物邊緣感知和邊緣融合的<b class='flag-5'>多</b><b class='flag-5'>視圖</b>立體<b class='flag-5'>三維重建</b>方法
    二手房| 岑巩县| 本溪| 介休市| 大安市| 博兴县| 都匀市| 老河口市| 三亚市| 衡南县| 洛隆县| 河源市| 河津市| 西畴县| 高邮市| 工布江达县| 上杭县| 景泰县| 新泰市| 肃北| 云龙县| 彰化县| 阿尔山市| 微山县| 新干县| 铁力市| 汤阴县| 永川市| 琼海市| 桂阳县| 小金县| 新丰县| 三明市| 邮箱| 大城县| 临湘市| 彰化市| 潞城市| 仙居县| 县级市| 青浦区|