近日,國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV 2025)舉辦了第七屆大型視頻目標(biāo)分割挑戰(zhàn)賽(LSVOS Challenge),傳音TEX AI團(tuán)隊(duì)?wèi){借自主研發(fā)的創(chuàng)新技術(shù)方案,在復(fù)雜視頻目標(biāo)分割和語(yǔ)言指引視頻目標(biāo)分割兩個(gè)賽道中均榮獲全球第二名,擊敗眾多國(guó)內(nèi)外強(qiáng)隊(duì),充分展示了團(tuán)隊(duì)在復(fù)雜視頻理解與多模態(tài)視頻目標(biāo)分割領(lǐng)域的深厚積累與世界級(jí)競(jìng)爭(zhēng)力。
ICCV是由IEEE(電氣與電子工程師協(xié)會(huì))每?jī)赡昱e辦一次的研究大會(huì),與計(jì)算機(jī)視覺(jué)模式識(shí)別會(huì)議(CVPR)和歐洲計(jì)算機(jī)視覺(jué)會(huì)議(ECCV)并稱為計(jì)算機(jī)視覺(jué)領(lǐng)域的三大頂級(jí)會(huì)議。LSVOS Challenge 作為國(guó)際計(jì)算機(jī)視覺(jué)領(lǐng)域的重要賽事之一,旨在推動(dòng)視頻目標(biāo)分割技術(shù)的創(chuàng)新與落地應(yīng)用,為多模態(tài)視頻理解、視頻編輯等方向的發(fā)展提供重要的學(xué)術(shù)研究與產(chǎn)業(yè)落地參考。本次賽事吸引了來(lái)自清華大學(xué)、牛津大學(xué)、上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室、漢陽(yáng)大學(xué)、南京理工大學(xué)、香港中文大學(xué)(深圳)、武漢大學(xué)、加利福尼亞大學(xué)默塞德分校、南洋理工大學(xué)、德國(guó)亞琛工業(yè)大學(xué)、荷蘭埃因霍溫理工大學(xué)、網(wǎng)易等國(guó)內(nèi)外知名機(jī)構(gòu)團(tuán)隊(duì)參賽。
復(fù)雜視頻目標(biāo)分割任務(wù)旨在在跨越數(shù)百至數(shù)千幀的長(zhǎng)時(shí)復(fù)雜視頻中,持續(xù)追蹤并精確分割特定目標(biāo),即使在目標(biāo)多次消失重現(xiàn)、外觀劇烈變化、小尺寸目標(biāo)、重度遮擋等困難場(chǎng)景下仍需保持時(shí)序一致性;語(yǔ)言指引視頻目標(biāo)分割則需根據(jù)自然語(yǔ)言描述在視頻中定位并分割目標(biāo),既要理解外觀信息,還需對(duì)動(dòng)作、時(shí)序和多模態(tài)語(yǔ)義進(jìn)行匹配。兩個(gè)任務(wù)均具有高度不確定性與挑戰(zhàn)性,考驗(yàn)算法在真實(shí)場(chǎng)景中的魯棒性、泛化能力及跨模態(tài)理解水平。本屆比賽分別使用 MOSE(長(zhǎng)視頻+復(fù)雜場(chǎng)景分割)與 MeViS(動(dòng)作描述驅(qū)動(dòng)的目標(biāo)分割)等高難度數(shù)據(jù)集進(jìn)行評(píng)測(cè),對(duì)參賽方案的整體表現(xiàn)提出了極高要求。
在 VOS 賽道中,傳音TEX AI團(tuán)隊(duì)在SAM2Long 框架基礎(chǔ)上引入偽標(biāo)簽增強(qiáng)的領(lǐng)域自適應(yīng)訓(xùn)練策略(如圖所示),先采用 SAM2Long(基礎(chǔ)模型來(lái)自 SAM2)生成 MOSE 測(cè)試集的高質(zhì)量偽標(biāo)簽,再與訓(xùn)練集融合重新微調(diào) SAM2 以此縮小域差異。推理階段并行使用概念驅(qū)動(dòng)的Segment Concept(SeC)模型,并通過(guò)級(jí)聯(lián)決策機(jī)制動(dòng)態(tài)融合兩路預(yù)測(cè)結(jié)果,兼顧長(zhǎng)時(shí)穩(wěn)定性與外觀變化適應(yīng)性,最終在 MOSE 測(cè)試集上取得J&F 0.8616的成績(jī),距離冠軍僅差 0.0021 分。

圖. 傳音TEX AI團(tuán)隊(duì)在VOS任務(wù)上提出的算法技術(shù)方案示意圖
在 RVOS 賽道中,團(tuán)隊(duì)在Sa2VA框架基礎(chǔ)上進(jìn)行了深度優(yōu)化,提出Video-Language Checker(VLC)利用視覺(jué)多模態(tài)大語(yǔ)言模型 Qwen2.5-VL 驗(yàn)證視頻語(yǔ)義與語(yǔ)言描述的一致性,將測(cè)試集進(jìn)行分類(lèi);并設(shè)計(jì)Key-Frame Sampler(KFS)將首段連續(xù)采樣與全局均勻采樣結(jié)合,提升捕捉目標(biāo)和保持時(shí)序上下文的能力;最終由強(qiáng)化的 SEG token 驅(qū)動(dòng) SAM2 對(duì)關(guān)鍵幀進(jìn)行分割,并將結(jié)果傳播至全視頻,實(shí)現(xiàn)時(shí)序一致的分割輸出。在未進(jìn)行額外微調(diào)或偽標(biāo)簽訓(xùn)練的前提下,該方案在 MeViS 測(cè)試集獲得J&F 0.6465,位列第二 。

圖. 傳音TEX AI團(tuán)隊(duì)在RVOS任務(wù)上提出的算法技術(shù)方案示意圖
未來(lái),團(tuán)隊(duì)將進(jìn)一步將視頻目標(biāo)分割技術(shù)應(yīng)用到視頻與動(dòng)圖(live Photos)的目標(biāo)消除,通過(guò)算法智能填補(bǔ)缺失區(qū)域、去除干擾物、恢復(fù)復(fù)雜場(chǎng)景內(nèi)容,實(shí)現(xiàn)更加自然流暢的視覺(jué)呈現(xiàn)。該能力可賦能視頻編輯、老影片修復(fù)、運(yùn)動(dòng)場(chǎng)景遮擋消除及創(chuàng)意特效制作等多樣化應(yīng)用場(chǎng)景,傳音TEX AI 團(tuán)隊(duì)將持續(xù)在視頻理解與目標(biāo)分割技術(shù)領(lǐng)域攻堅(jiān)突破,推動(dòng)全球行業(yè)技術(shù)發(fā)展。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7841瀏覽量
93493 -
AI
+關(guān)注
關(guān)注
91文章
41315瀏覽量
302694 -
傳音控股
+關(guān)注
關(guān)注
1文章
132瀏覽量
8611
原文標(biāo)題:傳音TEX AI團(tuán)隊(duì)斬獲ICCV 2025大型視頻目標(biāo)分割挑戰(zhàn)賽雙料亞軍
文章出處:【微信號(hào):TranssionHoldings,微信公眾號(hào):傳音控股】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
北京人形具身天工3.0斬獲全球首個(gè)全自主機(jī)器人勇士挑戰(zhàn)賽冠軍
思必馳斬獲Interspeech 2026音頻推理挑戰(zhàn)賽智能體賽道亞軍
芯導(dǎo)科技榮獲傳音控股2025年度鼎立支持獎(jiǎng)
“芯”年來(lái)襲 | 瑞薩邊緣AI線上技術(shù)月暨挑戰(zhàn)賽
摩爾線程在SIGGRAPH Asia 2025斬獲3DGS重建挑戰(zhàn)賽銀獎(jiǎng)
2025 全國(guó)人工智能應(yīng)用場(chǎng)景創(chuàng)新挑戰(zhàn)賽AI Agent全球?qū)m?xiàng)賽線下半決賽新聞發(fā)布會(huì)在深圳召開(kāi)
東風(fēng)睿立達(dá)斬獲NEVC 2025中國(guó)新能源商用車(chē)挑戰(zhàn)賽六項(xiàng)大獎(jiǎng)
傳音攜手Google Cloud打造下一代AI智能生態(tài)
2025 EDA精英挑戰(zhàn)賽華大九天賽題發(fā)布
2025 EDA精英挑戰(zhàn)賽紫光同創(chuàng)賽題發(fā)布
傳音斬獲WMT 2025國(guó)際機(jī)器翻譯大賽四項(xiàng)冠軍
格靈深瞳六篇論文入選ICCV 2025
傳音多媒體團(tuán)隊(duì)攬獲CVPR NTIRE 2025兩項(xiàng)挑戰(zhàn)賽冠亞軍,推動(dòng)視頻畫(huà)質(zhì)升級(jí)
傳音多媒體團(tuán)隊(duì)攬獲CVPR NTIRE 2025兩項(xiàng)挑戰(zhàn)賽冠亞軍
傳音TEX AI團(tuán)隊(duì)斬獲ICCV 2025大型視頻目標(biāo)分割挑戰(zhàn)賽雙料亞軍
評(píng)論