97国产人妻,日本91大片

一、深度學(xué)習(xí)：理論和關(guān)注機制的進展（Yoshua Bengio）

二、深度語義學(xué)習(xí) （Xiaodong He）

三、深度神經(jīng)網(wǎng)絡(luò)和GPU（Julie Bernauer）

四、深度視覺Keynote（Rahul Sukthankar）

五、學(xué)習(xí)和理解視覺表示（Andrea Vedaldi）

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)（Xiaogang Wang）

一直自稱研究方向是“機器視覺、機器學(xué)習(xí)和深度學(xué)習(xí)”，然而除了做過幾個相關(guān)的項目以外，感覺自己對這個領(lǐng)域并沒有足夠深入的認(rèn)識和理解。趁著這個假期我要好好補補課了。今天先來看一些high level的內(nèi)容，看看深度學(xué)習(xí)近期的最近進展以及其在機器視覺問題中的應(yīng)用。學(xué)習(xí)資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides，介紹了理論、應(yīng)用、實現(xiàn)等方面的內(nèi)容，應(yīng)該是干貨滿滿的。對于每一個talk，我會把內(nèi)容框架記錄下來（可以check一下對這些點是否有一定了解？），并記下一些個人覺得有趣的點。

一、深度學(xué)習(xí)：理論和關(guān)注機制的進展（Yoshua Bengio）

顧名思義，Bengio的talk主要講了兩個部分：理論進展和attention mechanism。理論進展介紹了：

分布式表示的“指數(shù)級”優(yōu)點

深度的“指數(shù)級”優(yōu)點

非凸優(yōu)化和局部最小值

自編碼器的概率解釋

Attention 機制則介紹了在機器翻譯、語音、圖像、視頻和記憶單元中的應(yīng)用。

分布式表示和深度的優(yōu)點Bengio之前的talk里已經(jīng)講過不少次了。簡單的說，雖然類似local partition的方法可以得到有用的表示，淺層（2層）的神經(jīng)網(wǎng)絡(luò)也可近似任意的函數(shù)，但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊（compact），達到exponentially more statistically efficient的效果。

接下來提到了在深度學(xué)習(xí)中凸性質(zhì)（convexity）可能并不是必要的。因為在高維空間中，鞍點（saddle point）的存在是主要問題，而局部最小值通常都會很接近全局最小值了。這部分的內(nèi)容比較陌生，有興趣可以看看最近的論文。

Attention 機制方面，講了很多最新的進展。有很多相關(guān)的paper都非常有趣，我要找個時間好好看看這個系列了。一個基本的思路是：我們給每一層引入一個額外的輸入，這個輸入反應(yīng)的是之前的一個加權(quán)，來表示它們的關(guān)注程度。在所謂的soft-attention中，這個加權(quán)的值可以直接通過BP訓(xùn)練得到。記下幾句有趣的話：
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語義學(xué)習(xí) （Xiaodong He）

來自微軟研究院的報告，主要內(nèi)容：

學(xué)習(xí)文本的語義性（semantic）表示

知識庫和問答系統(tǒng)

多模態(tài)（圖片——文本）語義模型

講座開始引入了一點有趣的motivation：一般我們測試機器是否能夠理解圖片（其實就是訓(xùn)練對了），方法是給圖片標(biāo)記標(biāo)簽然后計算其錯誤率。然而對于含有豐富內(nèi)容的復(fù)雜場景來說，很難定義所有fine-grained的類別。因此，用自然語言的描述來測試對圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec：Deep Structured Semantic Model (DSSM)，雖然我們不知道該如何標(biāo)記一個句子的語義，但我們知道哪些句子的語義是比較接近的，因此文章通過優(yōu)化一個基于相似性的目標(biāo)函數(shù)來訓(xùn)練模型，使具有相近語義的句子產(chǎn)生距離相近的向量。接著還介紹了很多模型的細(xì)節(jié)和變種（卷積DSSM、遞歸DSSM），在此就不贅述了。

Deep Multimodal Similarity Model (DMSM)：將目標(biāo)函數(shù)中兩個句子的相似性改成句子和圖片的相似性，便可以將DSSM擴展為一個多模態(tài)的模型。

MSR系統(tǒng)解決圖片–>語言問題：

圖片詞語檢測（Image word detection）

句子生成（Language generation）

全局語義性重排序（Global semantic re-ranking）

其中圖片詞語檢測用了CNN＋MIL（Multiple Instance Learning）的方法，個人對此比較感興趣，文章在此。

三、深度神經(jīng)網(wǎng)絡(luò)和GPU（Julie Bernauer）

換個口味，我們來看看NVIDIA關(guān)于深度學(xué)習(xí)和GPU的結(jié)合。總的來說，內(nèi)容上跟NVIDIA官網(wǎng)上介紹深度學(xué)習(xí)的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛，還有一些支持GPU的庫和工具。

一張比較好的圖：

有用的工具：

Lasagne：基于theano上的開源庫，能方便搭建一個深度網(wǎng)絡(luò)。（Keras用得不太爽，可以試試這個）

四、深度視覺Keynote（Rahul Sukthankar）

來看看來自google的報告。這個talk里面的內(nèi)容都不太熟悉，但是看起來都非常有意思。主要內(nèi)容有：

用Peer Presssure方法來找high value mistake

結(jié)合深度學(xué)習(xí)和其他機器學(xué)習(xí)方法來更好解決視覺問題

首先來看看Peer Pressure。這是Rahul組最近的一個工作：The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”，指的是那些我們認(rèn)為訓(xùn)練好的模型可以準(zhǔn)確預(yù)測的樣本，結(jié)果它卻“犯傻”了。因此這些樣本也叫做“hard positive”，難以答對的樣子。

從頭說起，深度神經(jīng)網(wǎng)絡(luò)雖然有很多成功的應(yīng)用，但同時也被發(fā)現(xiàn)很容易犯愚蠢的錯誤（比如上述的high-value mistake）。因此作者提出了Peer Pressure：集成＋對抗訓(xùn)練（emsembles＋adversarial training）的方法，來找到這些錯誤。簡單來說就是，有一組訓(xùn)練于同樣數(shù)據(jù)但是初始化或者結(jié)構(gòu)不同的NN分類器（稱作peers），如果一個樣本出現(xiàn)其中一個NN輸出與其它都不一致的情況（其它NN淡然都是一致的了），那么它應(yīng)該就是high-value mistake。尋找這類錯誤當(dāng)然是有價值的啦：（1）它可以用在發(fā)掘無標(biāo)簽的數(shù)據(jù)中（2）可以用來合成新的hard positive樣本。

接下來提到將上述的方法應(yīng)用到視頻當(dāng)中，找出anchor frame附近的hard positive 幀，用來訓(xùn)練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思，可惜沒找到相應(yīng)的paper，那就上張圖吧。

五、學(xué)習(xí)和理解視覺表示（Andrea Vedaldi）

來自牛津大學(xué)的報告，題目看起來還是很吸引人的。大綱如下（略有失望，好像就是講CNN的）：

黑盒：一個將CNN用于圖片文字識別的例子

架構(gòu)：卷積和紋理

可視化：CNN所知道的圖片

性質(zhì)：對比CNN和視覺幾何

第一個例子用CNN做OCR，感覺并不是很有趣。一個challenge是它的類別特別多（90k個類，對應(yīng)90k個單詞）。他們解決的辦法是增量地訓(xùn)練網(wǎng)絡(luò)，即先只訓(xùn)練5k個類，再逐步添加5k個新的類。。。效果好像還不錯。

第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector（替換全連接層）來做，效果不錯不錯的。

第三部分可視化，看看就好。

第四部分還不錯，講的是圖像變換對特征表示的影響。除去語義層面上的影響（特征的不變性跟任務(wù)相關(guān)），我們通常希望圖像的特征表示不受圖像變換的影響，如翻轉(zhuǎn)和仿射變換。

類內(nèi)差異大，包括：部分出現(xiàn)（part existence）、顏色、遮擋、變形

六、用于目標(biāo)檢測的可變深度卷積神經(jīng)網(wǎng)絡(luò)（Xiaogang Wang）

最后一個talk，講的是我最近比較關(guān)注的目標(biāo)檢測問題，主要介紹他們的DeepID-Net。

第一部分他們的工作，用深度學(xué)習(xí)進行行人識別。其中著重講了通過設(shè)計大小可變的卷積核來實現(xiàn)部分檢測器（Part detector），對于行人識別應(yīng)該是重要的一部分。

第二部分講更general的目標(biāo)檢測問題。首先介紹目標(biāo)檢測的困難有（經(jīng)篩選）：

對比了他們的DeepID-Net和RCNN：

后面詳細(xì)的介紹了他們模型的每個環(huán)節(jié)?？傮w來說，感覺每個環(huán)節(jié)都比較tricky，暫時也看不到有什么insight，故先略過了。之后專門研究object detection時可能還會重新看看他們的工作。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴