欧美中文字幕三区专区,久久久久水蜜桃,日韩精品久久一

概述

近日，全球機器人領(lǐng)域頂會ICRA 2025（IEEE機器人與自動化國際會議）公布論文錄用結(jié)果，地瓜機器人主導(dǎo)研發(fā)的DOSOD開放詞匯目標(biāo)檢測算法與MODEST單目透明物體抓取算法成功入選。前者通過動態(tài)語義理解框架提升復(fù)雜場景識別準(zhǔn)確率，后者結(jié)合幾何建模與語義分析技術(shù)優(yōu)化透明物體操作精度，兩項技術(shù)成果均已在規(guī)模化商業(yè)場景中得到有效驗證。此次投稿的兩篇論文全部入選，不僅彰顯了ICRA對機器人感知領(lǐng)域的高度重視，同時也印證了地瓜機器人團隊在機器人視覺領(lǐng)域的領(lǐng)先優(yōu)勢。

DOSOD開放詞匯目標(biāo)檢測算法，本期文章將圍繞MODEST單目透明抓取算法進行重點介紹。

作為機器人執(zhí)行各項任務(wù)中繞不開的操作對象，水杯、試管、窗戶等透明物體在人類生活中無處不在。從精密制造、醫(yī)療實驗室和家庭服務(wù)機器人等領(lǐng)域，透明物體的精確操作是提升自動化和智能化水平的關(guān)鍵。然而，透明物體復(fù)雜的折射和反射特性給機器人感知造成了很大困難。在大多數(shù)RGB圖像中的透明物體往往缺乏清晰的紋理，而容易與背景混為一體。此外，商用深度相機也難以準(zhǔn)確捕捉這些物體的深度信息，導(dǎo)致深度圖缺失或噪聲過多，從而限制了機器人在多個領(lǐng)域的廣泛應(yīng)用。

為了解決透明物體的抓取問題，地瓜機器人聯(lián)合中科院自動化所（簡稱：CASIA）多模態(tài)人工智能系統(tǒng)全國重點實驗室，推出了針對透明物體的單目深度估計和語義分割的多任務(wù)框架（簡稱：MODEST）。該框架借助創(chuàng)新性的語義和幾何融合模塊，結(jié)合獨特的特征迭代更新策略，顯著提升了深度估計和語義分割的效果，尤其在抓取成功率和系統(tǒng)泛化性方面取得了突破性進展。

MODEST算法框架作為通用抓取模型的前置模塊，即插即用，靈活高效，且無需依賴額外傳感器，僅靠單張RGB圖像，便可實現(xiàn)透明物體的抓取，效果上甚至要優(yōu)于其它雙目和多視圖的方法，可以廣泛應(yīng)用于智能工廠、實驗室自動化、智慧家居等場景，降低設(shè)備成本并大幅提升機器人對透明物體的操作能力。

基本原理

當(dāng)前透明物體的抓取核心在于深度信息的獲取，目前無論是深度傳感器還是多視角重建的方法都無法獲取透明物體準(zhǔn)確完整的深度信息。為了解決透明物體感知難題，傳統(tǒng)方法大多依賴特殊傳感設(shè)備或多視角圖像，增加了時間和經(jīng)濟成本，并常常受限于應(yīng)用場景。MODEST單目框架首次突破了傳統(tǒng)傳感器處理透明物體時的限制，降低了設(shè)備成本和使用復(fù)雜度，提供了更加高效、經(jīng)濟和便捷的透明物體感知方案。

單目透明物體感知框架與其他方法之間的對比

MODEST主要聚焦于透明物體的深度估計，通過設(shè)計的語義和幾何結(jié)合的多任務(wù)框架，獲取物體準(zhǔn)確的深度信息，之后結(jié)合基于點云的抓取網(wǎng)絡(luò)實現(xiàn)透明物體的抓取。相當(dāng)于在通用抓取網(wǎng)絡(luò)前面增加一個針對透明物體的增強模塊。

MODEST模型的整體架構(gòu)如圖所示，輸入為單目RGB圖像，輸出為透明物體的分割結(jié)果和場景深度預(yù)測。網(wǎng)絡(luò)主要由編碼、重組、語義幾何融合和迭代解碼四個模塊組成。輸入圖像首先經(jīng)過基于ViT的編碼模塊進行處理，隨后重組為對應(yīng)分割和深度兩個分支的多尺度特征。在融合模塊中對兩組特征進行混合和增強，最后通過多次迭代逐步更新特征，并獲得最終預(yù)測結(jié)果。

基于語義幾何融合和迭代策略的透明物體單目多任務(wù)框架

對于透明物體來說，語義分割任務(wù)可以為深度估計提供語義和上下文信息，而同樣深度估計可以為分割提供邊界、表面等幾何信息。為了充分挖掘兩個任務(wù)間的互補信息，MODEST算法框架構(gòu)建了基于注意力機制的語義幾何融合模塊，旨在同時提升兩個任務(wù)的性能。

語義幾何融合模塊結(jié)構(gòu)

當(dāng)人類觀察透明物體等不顯著物體時，我們會傾向于先注意物體的整體輪廓，然后是局部細(xì)節(jié)。受人眼啟發(fā)，MODEST框架提出了一種由粗到細(xì)的特征更新策略，進一步提升預(yù)測精度。

實驗結(jié)果

為了測試MODEST全新算法框架的檢測效果，我們選取了透明物體領(lǐng)域兩個影響力廣泛的公開仿真數(shù)據(jù)集Syn-TODD和真實數(shù)據(jù)集ClearPose，在其上與目前最先進的透明物體雙目方法SimNet、多視圖方法MVTran以及多任務(wù)方法InvPT和TaskPrompter進行對比實驗。兩個大規(guī)模數(shù)據(jù)集都擁有超過100k的良好標(biāo)注圖像數(shù)據(jù)，并且包含了嚴(yán)重遮擋等極端場景。

公開數(shù)據(jù)集上的定性和定量對比實驗

仿真數(shù)據(jù)集Syn-TODD上的定性對比結(jié)果

真實數(shù)據(jù)集ClearPose上的定性對比結(jié)果

通過在兩個數(shù)據(jù)集上的定性對比結(jié)果可以看出，由于透明物體會錯誤地折射背景，并且在RGB圖像中缺乏紋理，因此SimNet、MVTrans等方法無法獲得令人滿意的預(yù)測，從而導(dǎo)致深度圖和分割掩膜的大面積缺失。然而，通過有效的融合和迭代，在某些即使人眼都難以分析和判斷的場景，我們的方法依然能夠產(chǎn)生完整和清晰的預(yù)測結(jié)果。

仿真數(shù)據(jù)集Syn-TODD上的定量對比結(jié)果

真實數(shù)據(jù)集ClearPose上的定量對比結(jié)果

從表格中的定量對比可以看出，MODEST算法框架在各項指標(biāo)上都要大幅超過其他所有方法。值得注意的是，盡管只使用單張RGB圖像作為輸入，MODEST在深度估計和語義分割方面都要明顯優(yōu)于其他雙目甚至多視圖方法。并且在Syn-TODD數(shù)據(jù)集上，與排名第二的方法相比，MODEST算法框架在RMSE和REL兩項指標(biāo)有著超過45%的提升，語義分割的精度也均超過了90%。

真實平臺抓取實驗

我們將算法遷移到真實機器人平臺，開展了透明物體抓取實驗。平臺主要由UR機械臂和深度相機構(gòu)成，在借助MODEST方法進行透明物體精確感知的基礎(chǔ)之上，采用GraspNet進行抓取位姿的生成。在多個透明物體上的實驗結(jié)果表明，MODEST方法在真實平臺上具有良好的魯棒性和泛化性。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴