男人的天堂Av在纯,日本一道本高清免费,97 久久国产视频

導讀

如何去掉batch normalization層來加速神經(jīng)網(wǎng)絡。

介紹

Batch Normalization是將各層的輸入進行歸一化，使訓練過程更快、更穩(wěn)定的一種技術。在實踐中，它是一個額外的層，我們通常添加在計算層之后，在非線性之前。它包括兩個步驟：

首先減去其平均值，然后除以其標準差

進一步通過γ縮放，通過β偏移，這些是batch normalization層的參數(shù)，當網(wǎng)絡不需要數(shù)據(jù)的時候，均值為0、標準差為1。

Batch normalization在神經(jīng)網(wǎng)絡的訓練中具有較高的效率，因此得到了廣泛的應用。但它在推理的時候有多少用處呢？

一旦訓練結束，每個Batch normalization層都擁有一組特定的γ和β，還有μ和σ，后者在訓練過程中使用指數(shù)加權平均值進行計算。這意味著在推理過程中，Batch normalization就像是對上一層（通常是卷積）的結果進行簡單的線性轉換。

由于卷積也是一個線性變換，這也意味著這兩個操作可以合并成一個單一的線性變換！這將刪除一些不必要的參數(shù)，但也會減少推理時要執(zhí)行的操作數(shù)量。

在實踐中怎么做？

用一點數(shù)學知識，我們可以很容易地重新對卷積進行排列來處理batch normalization。提醒一下，對一個輸入x進行卷積之后再進行batch normalization的運算可以表示為：

那么，如果我們重新排列卷積的W和b，考慮batch normalization的參數(shù)，如下：

我們可以去掉batch normalization層，仍然得到相同的結果！

注意：通常，在batch normalization層之前的層中是沒有bias的，因為這是無用的，也是對參數(shù)的浪費，因為任何常數(shù)都會被batch normalization抵消掉。

這樣做的效果怎樣？

我們將嘗試兩種常見的架構：

使用batch norm的VGG16

ResNet50

為了演示，我們使用ImageNet dataset和PyTorch。兩個網(wǎng)絡都將訓練5個epoch，看看參數(shù)數(shù)量和推理時間的變化。

1. VGG16

我們從訓練VGG16 5個epoch開始(最終的準確性并不重要)：

參數(shù)的數(shù)量：

單個圖像的初始推理時間為：

如果使用了batch normalization折疊，我們有：

以及：

8448個參數(shù)被去掉了，更好的是，幾乎快了0.4毫秒！最重要的是，這是完全無損的，在性能方面絕對沒有變化：

讓我們看看它在Resnet50的情況下是怎么樣的！

2. Resnet50

同樣的，我們開始訓練它5個epochs：

初始參數(shù)量為：

推理時間為：

使用batch normalization折疊后，有：

和：

現(xiàn)在，我們有26,560的參數(shù)被移除，更驚訝的hi，推理時間減少了1.5ms，性能一點也沒降。

責任編輯：lq！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

原文標題：使用Batch Normalization折疊來加速模型推理

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐