近日,視頻行為理解領(lǐng)域的ImageNet競賽——ActivityNet Challenge 2018在CVPR 會議上落下了帷幕。來自上海交通大學(xué)計算機視覺實驗室的團(tuán)隊(自動化系研究生林天威、蘇海昇,導(dǎo)師趙旭副教授),獲得了未修剪視頻中的時序動作定位任務(wù)的冠軍,以及時序動作提名任務(wù)的亞軍。本文將分享該團(tuán)隊在兩項競賽任務(wù)中所采用的算法思路和方案。
引言
理解視頻中人的動作和行為,是計算機視覺領(lǐng)域的挑戰(zhàn)性問題,也是視頻內(nèi)容理解的關(guān)鍵,極具應(yīng)用前景。ActivityNet挑戰(zhàn)賽旨在催生視頻行為理解的新算法和新技術(shù),是目前視頻行為理解領(lǐng)域數(shù)據(jù)規(guī)模最大、最具影響力的技術(shù)競賽,與每年的頂級學(xué)術(shù)會議CVPR一起召開,已成功舉辦三屆。今年ActivityNet挑戰(zhàn)賽共舉辦6項比賽,吸引了全球計算機視覺領(lǐng)域來自學(xué)術(shù)界和工業(yè)界的諸多團(tuán)隊積極參賽。
近日,ActivityNet Challenge在CVPR會議上公布了2018年的競賽成績。來自上海交通大學(xué)計算機視覺實驗室的團(tuán)隊(自動化系研究生林天威、蘇海昇,導(dǎo)師趙旭副教授),獲得了未修剪視頻中的時序動作定位任務(wù)的冠軍,以及時序動作提名生成任務(wù)的亞軍。
本文將分享上海交通大學(xué)團(tuán)隊在兩項競賽任務(wù)中的算法思路和方案。在此次競賽中,上交團(tuán)隊主要采用了近期投稿在ECCV 2018會議上的時序動作提名生成新方法-Boundary Sensitive Network (BSN) 。
ActivityNet挑戰(zhàn)賽
ActivityNet 挑戰(zhàn)賽是目前視頻動作理解領(lǐng)域規(guī)模最大的競賽,涵蓋了視頻動作分類、時序動作定位、視頻文本生成等多個方向。今年的ActivityNet挑戰(zhàn)賽在規(guī)模、多樣性和自然度上較往年均有顯著提升,共舉辦6項競賽任務(wù),其中任務(wù)1-3基于ActivityNet數(shù)據(jù)集,任務(wù)A,B,C則為其他視頻理解領(lǐng)域內(nèi)重要的數(shù)據(jù)集。目前ActivityNet數(shù)據(jù)集的版本為1.3,包括20000個Youtube 視頻,共計約700小時,平均每個視頻上有1.5個動作片段,涵蓋了共200個動作類別。這些比賽項目具體包括:
任務(wù)1: 時序動作提名生成;
任務(wù)2: 時序動作定位;
任務(wù)3: 視頻密集描述生成;
任務(wù)A: 視頻動作分類(Kinetics數(shù)據(jù)集);
任務(wù)B: 時空動作定位(AVA數(shù)據(jù)集);
任務(wù)C: 視頻事件分類(Moments-in-time 數(shù)據(jù)集)
圍繞上述6項競賽任務(wù),今年的挑戰(zhàn)賽吸引了來自上海交通大學(xué)、清華大學(xué)、中科大等國內(nèi)高校,CMU、UMD、UCSB、華盛頓大學(xué)等國外高校,以及DeepMind、百度、曠視科技、七牛云、愛奇藝等企業(yè)團(tuán)隊參賽。比賽由阿卜杜拉國王科技大學(xué)視覺計算中心在CVPR 2018會議上舉辦,得到谷歌、DeepMind、Facebook等公司的贊助。
競賽任務(wù)及測評方式
本次競賽中,上交團(tuán)隊參加了任務(wù)1:時序動作提名生成,以及任務(wù)2:時序動作定位的比賽。其中,任務(wù)2要求在視頻序列中確定動作發(fā)生的時間區(qū)間(包括開始時間與結(jié)束時間)以及動作的類別。這個問題與二維圖像中的目標(biāo)檢測問題有很多相似之處。相關(guān)算法一般可以分為兩個部分:(1) 時序動作提名生成,產(chǎn)生候選視頻時序片段,類似于Faster-RCNN中的RPN網(wǎng)絡(luò)的作用;(2) 動作分類: 即判斷候選視頻時序片段的動作類別。兩個部分結(jié)合在一起,即實現(xiàn)了視頻中的時序動作檢測。從去年起,時序動作提名作為單項競賽任務(wù)被單獨列出(任務(wù)1)。
在時序動作定位問題中,mean Average Precision(mAP) 是最常用的評估指標(biāo)。此次競賽計算0.5到0.95, 以0.05為步長的多個IoU閾值下的mAP,稱為 Average mAP,作為最終的測評以及排名指標(biāo)。相較于使用mAP@0.5 作為測評指標(biāo),Average mAP 更看重在較嚴(yán)格IoU閾值下的檢測精度。時序動作提名任務(wù)由于無需對時序片段進(jìn)行分類,所以通常使用average recall (AR) 來進(jìn)行評估。在此次競賽中,Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲線下的面積被作為最終的評測指標(biāo)。舉個例子,AN=50 時的AR分?jǐn)?shù)可以理解為對于每個視頻,使用proposal set中分?jǐn)?shù)最高的前50個proposal時,所能達(dá)到的召回率。
競賽方案介紹
此次競賽,我們主要對我們投稿在ECCV 2018會議上的時序動作提名生成算法-BSN模型 [1](Boundary-Sensitive Network) 進(jìn)行了優(yōu)化與改進(jìn)。下面首先對BSN方法進(jìn)行介紹,之后再介紹此次競賽中所進(jìn)行的一些改進(jìn)。
BSN-用于時序動作提名生成的邊界敏感網(wǎng)絡(luò)
時序動作檢測一般包含兩個環(huán)節(jié)-提名和分類。目前行為分類的精度其實已經(jīng)比較高了,而時序動作檢測的精度仍然比較低,所以我們認(rèn)為其瓶頸在于時序動作提名生成階段。高質(zhì)量的時序動作提名應(yīng)該具備(1)靈活的時序長度;(2)精確的時序邊界;(3)可靠的置信度分?jǐn)?shù)?,F(xiàn)有的基于滑窗或anchor的方法或是基于聚類的方法都不能同時在這幾個方面做好。因此,我們在[1]中提出了一種新的時序提名生成算法-Boundary Sensitive Network(BSN)。在BSN中,我們首先去定位時序動作片段的邊界(開始節(jié)點和結(jié)束節(jié)點),再將邊界節(jié)點直接結(jié)合成時序提名,最后基于所設(shè)計的proposal-level的feature來對每個proposal的置信度進(jìn)行評估。算法的整體框架圖如下圖所示,之后會逐步介紹各個步驟。

1. 特征提取
在特征提取階段,我們主要將視頻切分成16幀不重疊的單元,然后采用 two-stream network 提取特征。對于spatial network, 我們使用每個單元的中心幀提取特征;對于temporal network,我們則使用每個單元的中心6幀圖像計算得到的光流圖像提取特征。最終將視頻圖像序列轉(zhuǎn)化為特征序列。
2. BSN - 時序評估模塊
基于提取的圖像特征序列,BSN中的時序評估模塊采用3層時序卷積層來對視頻序列中每個位置上動作開始的概率、動作結(jié)束的概率和動作類別概率同時進(jìn)行建模,從而生成動作開始概率序列,動作結(jié)束概率序列和動作類別概率序列。
3. BSN - 提名生成模塊
接下來,基于上述的幾種概率序列,提名生成模塊要生成候選時序動作提名,并對每個動作提名生成對應(yīng)的特征描述。
要生成候選時序動作提名,首先我們選擇動作開始和動作結(jié)束概率序列中滿足以下兩個條件之一的時間節(jié)點作為候選時序邊界節(jié)點:(1)概率高于一個閾值 或(2)該時間節(jié)點的概率高于前一時刻以及后一時刻的概率。然后我們將候選開始時間節(jié)點和候選結(jié)束時間節(jié)點兩兩結(jié)合,保留時長符合要求的開始節(jié)點-結(jié)束節(jié)點組合作為候選時序動作提名。算法示意圖如下圖所示。

接下來要為每個候選時序動作提名生成對應(yīng)的特征描述,我們稱其為Boundary-Sensitive Proposal (BSP) feature。對于每個提名,我們?nèi)∑浔旧淼臅r序區(qū)間作為center region,再取開始節(jié)點和結(jié)束節(jié)點附近的一段區(qū)間作為starting region 以及 ending region。對于每個區(qū)域,我們都在動作概率序列上的對應(yīng)位置采樣N個點,拼接后則得到一個非常簡短的提名特征。BSP特征的構(gòu)成示意圖如下圖所示。

4. BSN - 提名評估模塊
生成候選時序動作提名以及對應(yīng)的提名特征后,我們采用提名評估模塊-一個簡單的MLP(多層感知機)模型去對每個提名的置信度分?jǐn)?shù)進(jìn)行估計。置信度分?jǐn)?shù)越高,則說明該時序提名與真值的重疊IoU應(yīng)當(dāng)越高。
5. 結(jié)果后處理
最后,我們需要對結(jié)果進(jìn)行非極大化抑制,從而去除重疊的結(jié)果。具體而言,我們采用了soft-nms算法來通過降低分?jǐn)?shù)的方式來抑制重疊的結(jié)果。處理后的結(jié)果即為BSN算法最終生成的時序動作提名。
6. 時序動作檢測
基于BSN所生成的時序動作提名,要得到時序動作檢測結(jié)果,我們還需要對提名進(jìn)行分類。我們此處采用了一種比較簡單的方式,即直接采用動作分類網(wǎng)絡(luò)所生成的video-level的動作類別作為提名的動作類別。
BSN模型改進(jìn)
為了在競賽中獲得更好的效果,我們針對BSN算法嘗試了多種改進(jìn)技巧。對于時序動作提名任務(wù),主要的改進(jìn)方式主要包括五點,包括:
改進(jìn)A:將提名生成模塊中的概率閾值從0.9改為0.5*max_score, 其中max_score為該視頻中的最大概率。
改進(jìn)B:除了采用在ActivityNet數(shù)據(jù)集上預(yù)訓(xùn)練的TSN網(wǎng)絡(luò)提取特征,在競賽中,我們還額外采用了在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的TSN和P3D網(wǎng)絡(luò)提取視頻特征。
改進(jìn)C:為了獲得更好的置信度分?jǐn)?shù),我們還與我們之前提出的SSAD[2]算法所生成的結(jié)果進(jìn)行了融合。
改進(jìn)D:在ActivityNet數(shù)據(jù)集上,為了方便,在初始的BSN中,我們會將所有視頻的特征序列縮放到一個給定長度。在競賽中,我們發(fā)現(xiàn)使用原始長度預(yù)測結(jié)果會得到更好的效果。
改進(jìn)E:在進(jìn)一步的分析中,我們發(fā)現(xiàn)按照原始長度預(yù)測結(jié)果主要是提高了對較短的時序片段的預(yù)測結(jié)果,但損害了較長的時序片段的預(yù)測效果。因此,我們將按原始長度預(yù)測的結(jié)果和按給定長度預(yù)測的結(jié)果進(jìn)行了融合,獲得了更好的效果。
對于時序動作檢測任務(wù),我們同樣也采用了上述的改進(jìn),但有兩點不同:
在時序動作檢測中,我們采用定長的特征序列預(yù)測結(jié)果
采用較為嚴(yán)格的Soft-NMS閾值
之所以對時序動作提名和時序動作定位采用略為不同的策略,主要是因為時序動作檢測的結(jié)果主要依賴于靠前的幾個proposals,而現(xiàn)有的時序動作提名的評估方式則更看重較多proposals時所能達(dá)到的recall。這也反映了現(xiàn)有的時序動作提名評估方式還存在不合理之處。
實驗結(jié)果
此處主要介紹我們在此次競賽中所做的實驗,更多關(guān)于BSN算法的實驗見[1].
時序動作提名生成任務(wù)
時序動作提名生成任務(wù)的實驗結(jié)果如下表所示??梢钥闯觯珺SN方法比起之前的state-of-the-art方法有明顯的效果提升,此次競賽中所實施的各項改進(jìn)又帶來了顯著的效果提升。最終,在該項目上我們獲得了亞軍。

時序動作定位任務(wù)
時序動作定位任務(wù)中的實驗結(jié)果如下表所示??梢钥闯觯珺SN方法獲得了非常好的效果,競賽中實施的改進(jìn)也非常有效。最終,在該項目上我們以較大的優(yōu)勢獲得了冠軍。

其他實驗
為了驗證BSN算法的有效性,在[1]中我們還做了很多對比實驗,證明了BSN算法的優(yōu)越效果來自于模型結(jié)構(gòu)本身。此外,我們還通過實驗表明了BSN算法有著良好的泛化能力,能夠為訓(xùn)練時沒有見過的動作類別生成高質(zhì)量的時序動作提名。具體的實驗結(jié)果和內(nèi)容詳見論文[1]。
總結(jié)
通過我們對時序動作提名生成和時序動作定位任務(wù)的研究,我們主要有以下幾點收獲:
1. 動作提名的質(zhì)量對后續(xù)動作定位的效果有很大的影響, 目前改進(jìn)動作定位的重點在于提高提名集的質(zhì)量;
2. 提名集中最靠前的一小部分提名片段貢獻(xiàn)大部分的定位mAP;
3. 高質(zhì)量的時序動作提名應(yīng)當(dāng)具備(1)靈活的時長(2)準(zhǔn)確的邊界(3)可靠的置信度分?jǐn)?shù)。
在后續(xù)的工作中,我們計劃開源BSN模型,供研究者使用。相關(guān)進(jìn)展會更新在 wzmsltw.github.io 上,希望大家繼續(xù)關(guān)注我們的工作。
-
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
8340瀏覽量
95605 -
時序
+關(guān)注
關(guān)注
5文章
411瀏覽量
39021 -
計算機視覺
+關(guān)注
關(guān)注
9文章
1716瀏覽量
47733
原文標(biāo)題:CVPR大規(guī)模行為識別競賽連續(xù)兩年奪冠,上交大詳細(xì)技術(shù)分享
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
2011年全國大學(xué)生電子設(shè)計競賽(上海賽區(qū)TI杯)勝利開賽
TSC峰會回顧02 | 上海交通大學(xué)OpenHarmony技術(shù)俱樂部建設(shè)
GW Instek榮獲上海交通大學(xué)采購高端儀器組合方案
2014 TI杯全國大學(xué)生物聯(lián)網(wǎng)設(shè)計競賽在上海交通大學(xué)舉行
Race Your Dream! 貿(mào)澤電子鼎力贊助上海交通大學(xué)賽車隊
跨界而來 上海人工智能實驗室與上海交通大學(xué)簽署戰(zhàn)略合作協(xié)議
上海交通大學(xué)與燧原科技聯(lián)合創(chuàng)辦的云端AI加速系統(tǒng)聯(lián)合研發(fā)中心揭牌
上海交通大學(xué)OpenHarmony技術(shù)俱樂部正式成立
上海交通大學(xué)集成電路學(xué)院揭牌成立
簡儀科技開源測控技術(shù)走進(jìn)上海交通大學(xué)
傳音多媒體團(tuán)隊攬獲CVPR NTIRE 2025兩項挑戰(zhàn)賽冠亞軍,推動視頻畫質(zhì)升級
分享上海交通大學(xué)團(tuán)隊在兩項競賽任務(wù)中的算法思路和方案
評論