一本一道伊人,久久视频999

近日，視頻行為理解領(lǐng)域的ImageNet競賽——Ac tivityNet Challenge 2018在CVPR 會議上落下了帷幕。來自上海交通大學(xué)計算機視覺實驗室的團(tuán)隊（自動化系研究生林天威、蘇海昇，導(dǎo)師趙旭副教授），獲得了未修剪視頻中的時序動作定位任務(wù)的冠軍，以及時序動作提名任務(wù)的亞軍。本文將分享該團(tuán)隊在兩項競賽任務(wù)中所采用的算法思路和方案。

引言

理解視頻中人的動作和行為，是計算機視覺領(lǐng)域的挑戰(zhàn)性問題，也是視頻內(nèi)容理解的關(guān)鍵，極具應(yīng)用前景。ActivityNet挑戰(zhàn)賽旨在催生視頻行為理解的新算法和新技術(shù)，是目前視頻行為理解領(lǐng)域數(shù)據(jù)規(guī)模最大、最具影響力的技術(shù)競賽，與每年的頂級學(xué)術(shù)會議CVPR一起召開，已成功舉辦三屆。今年ActivityNet挑戰(zhàn)賽共舉辦6項比賽，吸引了全球計算機視覺領(lǐng)域來自學(xué)術(shù)界和工業(yè)界的諸多團(tuán)隊積極參賽。

近日，ActivityNet Challenge在CVPR會議上公布了2018年的競賽成績。來自上海交通大學(xué)計算機視覺實驗室的團(tuán)隊（自動化系研究生林天威、蘇海昇，導(dǎo)師趙旭副教授），獲得了未修剪視頻中的時序動作定位任務(wù)的冠軍，以及時序動作提名生成任務(wù)的亞軍。

本文將分享上海交通大學(xué)團(tuán)隊在兩項競賽任務(wù)中的算法思路和方案。在此次競賽中，上交團(tuán)隊主要采用了近期投稿在ECCV 2018會議上的時序動作提名生成新方法-Boundary Sensitive Network (BSN) 。

ActivityNet挑戰(zhàn)賽

ActivityNet 挑戰(zhàn)賽是目前視頻動作理解領(lǐng)域規(guī)模最大的競賽，涵蓋了視頻動作分類、時序動作定位、視頻文本生成等多個方向。今年的ActivityNet挑戰(zhàn)賽在規(guī)模、多樣性和自然度上較往年均有顯著提升，共舉辦6項競賽任務(wù)，其中任務(wù)1-3基于ActivityNet數(shù)據(jù)集，任務(wù)A,B,C則為其他視頻理解領(lǐng)域內(nèi)重要的數(shù)據(jù)集。目前ActivityNet數(shù)據(jù)集的版本為1.3，包括20000個Youtube 視頻，共計約700小時，平均每個視頻上有1.5個動作片段，涵蓋了共200個動作類別。這些比賽項目具體包括：

任務(wù)1: 時序動作提名生成；

任務(wù)2: 時序動作定位；

任務(wù)3: 視頻密集描述生成；

任務(wù)A: 視頻動作分類（Kinetics數(shù)據(jù)集）；

任務(wù)B: 時空動作定位（AVA數(shù)據(jù)集）；

任務(wù)C: 視頻事件分類（Moments-in-time 數(shù)據(jù)集）

圍繞上述6項競賽任務(wù)，今年的挑戰(zhàn)賽吸引了來自上海交通大學(xué)、清華大學(xué)、中科大等國內(nèi)高校，CMU、UMD、UCSB、華盛頓大學(xué)等國外高校，以及DeepMind、百度、曠視科技、七牛云、愛奇藝等企業(yè)團(tuán)隊參賽。比賽由阿卜杜拉國王科技大學(xué)視覺計算中心在CVPR 2018會議上舉辦，得到谷歌、DeepMind、Facebook等公司的贊助。

競賽任務(wù)及測評方式

本次競賽中，上交團(tuán)隊參加了任務(wù)1：時序動作提名生成，以及任務(wù)2：時序動作定位的比賽。其中，任務(wù)2要求在視頻序列中確定動作發(fā)生的時間區(qū)間（包括開始時間與結(jié)束時間）以及動作的類別。這個問題與二維圖像中的目標(biāo)檢測問題有很多相似之處。相關(guān)算法一般可以分為兩個部分：(1) 時序動作提名生成，產(chǎn)生候選視頻時序片段，類似于Faster-RCNN中的RPN網(wǎng)絡(luò)的作用；(2) 動作分類: 即判斷候選視頻時序片段的動作類別。兩個部分結(jié)合在一起，即實現(xiàn)了視頻中的時序動作檢測。從去年起，時序動作提名作為單項競賽任務(wù)被單獨列出（任務(wù)1）。

在時序動作定位問題中，mean Average Precision(mAP) 是最常用的評估指標(biāo)。此次競賽計算0.5到0.95, 以0.05為步長的多個IoU閾值下的mAP，稱為 Average mAP，作為最終的測評以及排名指標(biāo)。相較于使用mAP@0.5 作為測評指標(biāo)，Average mAP 更看重在較嚴(yán)格IoU閾值下的檢測精度。時序動作提名任務(wù)由于無需對時序片段進(jìn)行分類，所以通常使用average recall (AR) 來進(jìn)行評估。在此次競賽中，Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲線下的面積被作為最終的評測指標(biāo)。舉個例子，AN=50 時的AR分?jǐn)?shù)可以理解為對于每個視頻，使用proposal set中分?jǐn)?shù)最高的前50個proposal時，所能達(dá)到的召回率。

競賽方案介紹

此次競賽，我們主要對我們投稿在ECCV 2018會議上的時序動作提名生成算法-BSN模型 [1]（Boundary-Sensitive Network) 進(jìn)行了優(yōu)化與改進(jìn)。下面首先對BSN方法進(jìn)行介紹，之后再介紹此次競賽中所進(jìn)行的一些改進(jìn)。

BSN-用于時序動作提名生成的邊界敏感網(wǎng)絡(luò)

時序動作檢測一般包含兩個環(huán)節(jié)-提名和分類。目前行為分類的精度其實已經(jīng)比較高了，而時序動作檢測的精度仍然比較低，所以我們認(rèn)為其瓶頸在于時序動作提名生成階段。高質(zhì)量的時序動作提名應(yīng)該具備（1）靈活的時序長度；（2）精確的時序邊界；（3）可靠的置信度分?jǐn)?shù)?，F(xiàn)有的基于滑窗或anchor的方法或是基于聚類的方法都不能同時在這幾個方面做好。因此，我們在[1]中提出了一種新的時序提名生成算法-Boundary Sensitive Network(BSN)。在BSN中，我們首先去定位時序動作片段的邊界（開始節(jié)點和結(jié)束節(jié)點），再將邊界節(jié)點直接結(jié)合成時序提名，最后基于所設(shè)計的proposal-level的feature來對每個proposal的置信度進(jìn)行評估。算法的整體框架圖如下圖所示，之后會逐步介紹各個步驟。

1. 特征提取

在特征提取階段，我們主要將視頻切分成16幀不重疊的單元，然后采用 two-stream network 提取特征。對于spatial network, 我們使用每個單元的中心幀提取特征；對于temporal network，我們則使用每個單元的中心6幀圖像計算得到的光流圖像提取特征。最終將視頻圖像序列轉(zhuǎn)化為特征序列。

2. BSN - 時序評估模塊

基于提取的圖像特征序列，BSN中的時序評估模塊采用3層時序卷積層來對視頻序列中每個位置上動作開始的概率、動作結(jié)束的概率和動作類別概率同時進(jìn)行建模，從而生成動作開始概率序列，動作結(jié)束概率序列和動作類別概率序列。

3. BSN - 提名生成模塊

接下來，基于上述的幾種概率序列，提名生成模塊要生成候選時序動作提名，并對每個動作提名生成對應(yīng)的特征描述。

要生成候選時序動作提名，首先我們選擇動作開始和動作結(jié)束概率序列中滿足以下兩個條件之一的時間節(jié)點作為候選時序邊界節(jié)點：（1）概率高于一個閾值或（2）該時間節(jié)點的概率高于前一時刻以及后一時刻的概率。然后我們將候選開始時間節(jié)點和候選結(jié)束時間節(jié)點兩兩結(jié)合，保留時長符合要求的開始節(jié)點-結(jié)束節(jié)點組合作為候選時序動作提名。算法示意圖如下圖所示。

接下來要為每個候選時序動作提名生成對應(yīng)的特征描述，我們稱其為Boundary-Sensitive Proposal (BSP) feature。對于每個提名，我們?nèi)∑浔旧淼臅r序區(qū)間作為center region，再取開始節(jié)點和結(jié)束節(jié)點附近的一段區(qū)間作為starting region 以及 ending region。對于每個區(qū)域，我們都在動作概率序列上的對應(yīng)位置采樣N個點，拼接后則得到一個非常簡短的提名特征。BSP特征的構(gòu)成示意圖如下圖所示。

4. BSN - 提名評估模塊

生成候選時序動作提名以及對應(yīng)的提名特征后，我們采用提名評估模塊-一個簡單的MLP（多層感知機）模型去對每個提名的置信度分?jǐn)?shù)進(jìn)行估計。置信度分?jǐn)?shù)越高，則說明該時序提名與真值的重疊IoU應(yīng)當(dāng)越高。

5. 結(jié)果后處理

最后，我們需要對結(jié)果進(jìn)行非極大化抑制，從而去除重疊的結(jié)果。具體而言，我們采用了soft-nms算法來通過降低分?jǐn)?shù)的方式來抑制重疊的結(jié)果。處理后的結(jié)果即為BSN算法最終生成的時序動作提名。

6. 時序動作檢測

基于BSN所生成的時序動作提名，要得到時序動作檢測結(jié)果，我們還需要對提名進(jìn)行分類。我們此處采用了一種比較簡單的方式，即直接采用動作分類網(wǎng)絡(luò)所生成的video-level的動作類別作為提名的動作類別。

BSN模型改進(jìn)

為了在競賽中獲得更好的效果，我們針對BSN算法嘗試了多種改進(jìn)技巧。對于時序動作提名任務(wù)，主要的改進(jìn)方式主要包括五點，包括：

改進(jìn)A：將提名生成模塊中的概率閾值從0.9改為0.5*max_score, 其中max_score為該視頻中的最大概率。

改進(jìn)B：除了采用在ActivityNet數(shù)據(jù)集上預(yù)訓(xùn)練的TSN網(wǎng)絡(luò)提取特征，在競賽中，我們還額外采用了在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的TSN和P3D網(wǎng)絡(luò)提取視頻特征。

改進(jìn)C：為了獲得更好的置信度分?jǐn)?shù)，我們還與我們之前提出的SSAD[2]算法所生成的結(jié)果進(jìn)行了融合。

改進(jìn)D：在ActivityNet數(shù)據(jù)集上，為了方便，在初始的BSN中，我們會將所有視頻的特征序列縮放到一個給定長度。在競賽中，我們發(fā)現(xiàn)使用原始長度預(yù)測結(jié)果會得到更好的效果。

改進(jìn)E：在進(jìn)一步的分析中，我們發(fā)現(xiàn)按照原始長度預(yù)測結(jié)果主要是提高了對較短的時序片段的預(yù)測結(jié)果，但損害了較長的時序片段的預(yù)測效果。因此，我們將按原始長度預(yù)測的結(jié)果和按給定長度預(yù)測的結(jié)果進(jìn)行了融合，獲得了更好的效果。

對于時序動作檢測任務(wù)，我們同樣也采用了上述的改進(jìn)，但有兩點不同：

在時序動作檢測中，我們采用定長的特征序列預(yù)測結(jié)果

采用較為嚴(yán)格的Soft-NMS閾值

之所以對時序動作提名和時序動作定位采用略為不同的策略，主要是因為時序動作檢測的結(jié)果主要依賴于靠前的幾個proposals，而現(xiàn)有的時序動作提名的評估方式則更看重較多proposals時所能達(dá)到的recall。這也反映了現(xiàn)有的時序動作提名評估方式還存在不合理之處。

實驗結(jié)果

此處主要介紹我們在此次競賽中所做的實驗，更多關(guān)于BSN算法的實驗見[1].

時序動作提名生成任務(wù)

時序動作提名生成任務(wù)的實驗結(jié)果如下表所示?？梢钥闯觯珺SN方法比起之前的state-of-the-art方法有明顯的效果提升，此次競賽中所實施的各項改進(jìn)又帶來了顯著的效果提升。最終，在該項目上我們獲得了亞軍。

時序動作定位任務(wù)

時序動作定位任務(wù)中的實驗結(jié)果如下表所示?？梢钥闯觯珺SN方法獲得了非常好的效果，競賽中實施的改進(jìn)也非常有效。最終，在該項目上我們以較大的優(yōu)勢獲得了冠軍。

其他實驗

為了驗證BSN算法的有效性，在[1]中我們還做了很多對比實驗，證明了BSN算法的優(yōu)越效果來自于模型結(jié)構(gòu)本身。此外，我們還通過實驗表明了BSN算法有著良好的泛化能力，能夠為訓(xùn)練時沒有見過的動作類別生成高質(zhì)量的時序動作提名。具體的實驗結(jié)果和內(nèi)容詳見論文[1]。

總結(jié)

通過我們對時序動作提名生成和時序動作定位任務(wù)的研究，我們主要有以下幾點收獲：

1. 動作提名的質(zhì)量對后續(xù)動作定位的效果有很大的影響, 目前改進(jìn)動作定位的重點在于提高提名集的質(zhì)量；

2. 提名集中最靠前的一小部分提名片段貢獻(xiàn)大部分的定位mAP；

3. 高質(zhì)量的時序動作提名應(yīng)當(dāng)具備（1）靈活的時長（2）準(zhǔn)確的邊界（3）可靠的置信度分?jǐn)?shù)。

在后續(xù)的工作中，我們計劃開源BSN模型，供研究者使用。相關(guān)進(jìn)展會更新在 wzmsltw.github.io 上，希望大家繼續(xù)關(guān)注我們的工作。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

網(wǎng)絡(luò)

網(wǎng)絡(luò)

+關(guān)注

關(guān)注
14

文章
8340

瀏覽量
95605
時序

時序

+關(guān)注

關(guān)注
5

文章
411

瀏覽量
39021
計算機視覺

計算機視覺

+關(guān)注

關(guān)注
9

文章
1716

瀏覽量
47733

原文標(biāo)題：CVPR大規(guī)模行為識別競賽連續(xù)兩年奪冠，上交大詳細(xì)技術(shù)分享

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

分享上海交通大學(xué)團(tuán)隊在兩項競賽任務(wù)中的算法思路和方案

評論