激情免费福利在线视频,国产精品久久国产精品

在本文中，我盡量使用簡(jiǎn)單明了的方式向大家解釋深度學(xué)習(xí)中常用的幾種卷積，希望能夠幫助你建立學(xué)習(xí)體系，并為你的研究提供參考。

Convolution VS Cross-correlation

卷積是一項(xiàng)在信號(hào)處理、視覺處理或者其他工程/科學(xué)領(lǐng)域中應(yīng)用廣泛的技術(shù)。在深度學(xué)習(xí)中，有一種模型架構(gòu)，叫做Convolution Neural Network。深度學(xué)習(xí)中的卷積本質(zhì)上就是信號(hào)處理中的Cross-correlation。當(dāng)然，兩者之間也存在細(xì)微的差別。

在信號(hào)/圖像處理中，卷積定義如下：

由上公式可以看出，卷積是通過兩個(gè)函數(shù)f和g生成第三個(gè)函數(shù)的一種數(shù)學(xué)算子。對(duì)f與經(jīng)過翻轉(zhuǎn)和平移的g乘積進(jìn)行積分。過程如下：

信號(hào)處理中的卷積。濾波器g首先翻轉(zhuǎn)，然后沿著橫坐標(biāo)移動(dòng)。計(jì)算兩者相交的面積，就是卷積值。

另一方面，Cross-correlation被稱為滑動(dòng)點(diǎn)積或者兩個(gè)函數(shù)的滑動(dòng)內(nèi)積。Cross-correlation中的濾波器函數(shù)是不用翻轉(zhuǎn)的。它直接劃過特征函數(shù)f。f和g相交的區(qū)域就是Cross-correlation。

在深度學(xué)習(xí)中，卷積中的濾波器不翻轉(zhuǎn)。嚴(yán)格來說，它是Cross-correlation。我們基本上執(zhí)行元素對(duì)元素的加法或者乘法。但是，在深度學(xué)習(xí)中，我們還是習(xí)慣叫做Convolution。濾波器的權(quán)重是在訓(xùn)練期間學(xué)習(xí)的。

Convolution in Deep Learning

卷積的目的是為了從輸入中提取有用的特征。在圖像處理中，有很多濾波器可以供我們選擇。每一種濾波器幫助我們提取不同的特征。比如水平/垂直/對(duì)角線邊緣等等。在CNN中，通過卷積提取不同的特征，濾波器的權(quán)重在訓(xùn)練期間自動(dòng)學(xué)習(xí)。然后將所有提取到的特征“組合”以作出決定。

卷積的優(yōu)勢(shì)在于，權(quán)重共享和平移不變性。同時(shí)還考慮到了像素空間的關(guān)系，而這一點(diǎn)很有用，特別是在計(jì)算機(jī)視覺任務(wù)中，因?yàn)檫@些任務(wù)通常涉及識(shí)別具有空間關(guān)系的對(duì)象。（例如：狗的身體通常連接頭部、四肢和尾部）。

The single channel version

單個(gè)通道的卷積在深度學(xué)習(xí)中，卷積是元素對(duì)元素的加法和乘法。對(duì)于具有一個(gè)通道的圖像，卷積如上圖所示。在這里的濾波器是一個(gè)3x3的矩陣[[0,1,2],[2,2,0],[0,1,2]]。濾波器滑過輸入，在每個(gè)位置完成一次卷積，每個(gè)滑動(dòng)位置得到一個(gè)數(shù)字。最終輸出仍然是一個(gè)3x3的矩陣。（注意，在上面的例子中，stride=1，padding=0）

The muti-channel version

在很多應(yīng)用中，我們需要處理多通道圖片。最典型的例子就是RGB圖像。

不同的通道強(qiáng)調(diào)原始圖像的不同方面另一個(gè)多通道數(shù)據(jù)的例子是CNN中的層。卷積網(wǎng)絡(luò)層通常由多個(gè)通道組成（通常為數(shù)百個(gè)通道）。每個(gè)通道描述前一層的不同方面。我們?nèi)绾卧诓煌疃鹊膶又g進(jìn)行轉(zhuǎn)換？如何將深度為n的層轉(zhuǎn)換為深度為m下一層？

在描述這個(gè)過程之前，我們先介紹一些術(shù)語：layers（層）、channels（通道）、feature maps（特征圖），filters（濾波器），kernels（卷積核）。從層次結(jié)構(gòu)的角度來看，層和濾波器的概念處于同一水平，而通道和卷積核在下一級(jí)結(jié)構(gòu)中。通道和特征圖是同一個(gè)事情。一層可以有多個(gè)通道（或者說特征圖）。如果輸入的是一個(gè)RGB圖像，那么就會(huì)有3個(gè)通道。“channel”通常被用來描述“l(fā)ayer”的結(jié)構(gòu)。相似的，“kernel”是被用來描述“filter”的結(jié)構(gòu)。

layer和channel之間，filter和kernel之間的不同filter和kernel之間的不同很微妙。很多時(shí)候，它們可以互換，所以這可能造成我們的混淆。那它們之間的不同在于哪里呢？一個(gè)“Kernel”更傾向于是2D的權(quán)重矩陣。而“filter”則是指多個(gè)Kernel堆疊的3D結(jié)構(gòu)。如果是一個(gè)2D的filter，那么兩者就是一樣的。但是一個(gè)3Dfilter，在大多數(shù)深度學(xué)習(xí)的卷積中，它是包含kernel的。每個(gè)卷積核都是獨(dú)一無二的，主要在于強(qiáng)調(diào)輸入通道的不同方面。

講了概念，下面我們繼續(xù)講解多通道卷積。將每個(gè)內(nèi)核應(yīng)用到前一層的輸入通道上以生成一個(gè)輸出通道。這是一個(gè)卷積核過程，我們?yōu)樗蠯ernel重復(fù)這樣的過程以生成多個(gè)通道。然后把這些通道加在一起形成單個(gè)輸出通道。下圖：

輸入是一個(gè)5x5x3的矩陣，有三個(gè)通道。filter是一個(gè)3x3x3的矩陣。首先，filter中的每個(gè)卷積核分別應(yīng)用于輸入層中的三個(gè)通道。執(zhí)行三次卷積，產(chǎn)生3個(gè)3x3的通道。

然后，這三個(gè)通道相加（矩陣加法），得到一個(gè)3x3x1的單通道。這個(gè)通道就是在輸入層（5x5x3矩陣）應(yīng)用filter（3x3x3矩陣）的結(jié)果。

同樣的，我們可以把這個(gè)過程看作是一個(gè)3Dfilter矩陣滑過輸入層。值得注意的是，輸入層和單個(gè)filter有相同的深度（通道數(shù)量=單個(gè)filter中卷積核數(shù)量）。3Dfilter只需要在2維方向上移動(dòng)，圖像的高和寬。這也是為什么這種操作被稱為2D卷積，盡管是使用的3D濾波器來處理3D數(shù)據(jù)。在每一個(gè)滑動(dòng)位置，我們執(zhí)行卷積，得到一個(gè)數(shù)字。就像下面的例子中體現(xiàn)的，（正方形的那個(gè)側(cè)面記為輸入圖片長(zhǎng)寬，長(zhǎng)方形的側(cè)面，這個(gè)長(zhǎng) 便反應(yīng)出深度 = 即對(duì)應(yīng)的通道數(shù)是多少）滑動(dòng)水平的5個(gè)位置和垂直的5個(gè)位置進(jìn)行?？傊?，我們得到了一個(gè)單一通道輸出。

現(xiàn)在，我們一起來看看，如何在不同深度的層之間轉(zhuǎn)換。假設(shè)輸入層有xin個(gè)通道，我們想得到輸出有Dout個(gè)通道。我們只需要將Dout 個(gè)filters應(yīng)用到輸入層。每一個(gè) filter有Din個(gè)卷積核。每個(gè)filter提供一個(gè)輸出通道。完成該過程，將結(jié)果堆疊在一起形成輸出層。

3D Convolution

在上一節(jié)的最后一個(gè)插圖中，可以看出，這實(shí)際上是在完成3D卷積。但是在深度學(xué)習(xí)中，我們?nèi)匀话焉鲜霾僮鞣Q為2D卷積。3D數(shù)據(jù)，2D卷積。濾波器的深度和輸入層的深度是一樣的。3D濾波器只在兩個(gè)方向上移動(dòng)（圖像的高和寬），而輸出也是一個(gè)2D的圖像（僅有一個(gè)通道）。

3D卷積是存在的，它們是2D卷積的推廣。在3D卷積中，濾波器的深度小于輸入層的深度（也可以說卷積核尺寸小于通道尺寸）。所以，3D濾波器需要在數(shù)據(jù)的三個(gè)維度上移動(dòng)（圖像的長(zhǎng)、寬、高）。在濾波器移動(dòng)的每個(gè)位置，執(zhí)行一次卷積，得到一個(gè)數(shù)字。當(dāng)濾波器滑過整個(gè)3D空間，輸出的結(jié)果也是一個(gè)3D的。

和2D卷積能夠編碼2D域中的對(duì)象關(guān)系一樣，3D卷積也可以描述3D空間中的對(duì)象關(guān)系。3D關(guān)系在一些應(yīng)用中是很重要的，比如3D分割/醫(yī)學(xué)圖像重構(gòu)等。

1x1 Convolution

下面我們來看一種有趣的操作，1x1卷積。

我們會(huì)有疑問，這種卷積操作真的有用嗎？看起來只是一個(gè)數(shù)字乘以輸入層的每個(gè)數(shù)字？正確，也不正確。如果輸入數(shù)據(jù)只有一個(gè)通道，那這種操作就是將每個(gè)元素乘上一個(gè)數(shù)字。

但是，如果輸入數(shù)據(jù)是多通道的。那么下面的圖可以說明，1 x 1卷積是如何工作的。輸入的數(shù)據(jù)是尺寸是H x W x D，濾波器尺寸是1 x 1x D，輸出通道尺寸是H x W x 1。如果我們執(zhí)行N次1x1卷積，并將結(jié)果連接在一起，那可以得到一個(gè)H x W x N的輸出。

1 x 1卷積在論文《Network In Network》中提出來。并且在Google發(fā)表的《Going Deeper with Convolution》中也有用到。1 x 1卷積的優(yōu)勢(shì)如下：

降低維度以實(shí)現(xiàn)高效計(jì)算
高效的低維嵌入，或特征池
卷積后再次應(yīng)用非線性

前兩個(gè)優(yōu)勢(shì)可以從上圖中看出。完成1 x 1卷積操作后，顯著的降低了depth-wise的維度。如果原始輸入有200個(gè)通道，那么1 x 1卷積操作將這些通道嵌入到單一通道。第三個(gè)優(yōu)勢(shì)是指，在1 x 1卷積后，可以添加諸如ReLU等非線性激活。非線性允許網(wǎng)絡(luò)學(xué)習(xí)更加復(fù)雜的函數(shù)。

Convolution Arithmetic

現(xiàn)在我們知道了depth維度的卷積。我們繼續(xù)學(xué)習(xí)另外兩個(gè)方向（height&width），同樣重要的卷積算法。一些術(shù)語：

Kernel size（卷積核尺寸）：卷積核在上面的部分已有提到，卷積核大小定義了卷積的視圖。

Stride（步長(zhǎng)）：定義了卷積核在圖像中移動(dòng)的每一步的大小。比如Stride=1，那么卷積核就是按一個(gè)像素大小移動(dòng)。Stride=2，那么卷積核在圖像中就是按2個(gè)像素移動(dòng)（即，會(huì)跳過一個(gè)像素）。我們可以用stride>=2，來對(duì)圖像進(jìn)行下采樣。

Padding：可以將Padding理解為在圖像外圍補(bǔ)充一些像素點(diǎn)。padding可以保持空間輸出維度等于輸入圖像，必要的話，可以在輸入外圍填充0。另一方面，unpadded卷積只對(duì)輸入圖像的像素執(zhí)行卷積，沒有填充0。輸出的尺寸將小于輸入。

下圖是2D卷積，Kernel size=3，Stride=1，Padding=1：

這里有一篇寫得很好的文章，推薦給大家。它講述了更多的細(xì)節(jié)和舉了很多例子來講述不同的Kernel size、stride和padding的組合。這里我只是總結(jié)一般案例的結(jié)果。

輸入圖像大小是i，kernel size=k，padding=p，stride=s，那么卷積后的輸出o計(jì)算如下：

編輯：hfy

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴