日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

汽車玩家 ? 來源:AI公園 ? 作者:Matt H and Daniel R ? 2020-05-04 11:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

從成千上萬小時的模型訓(xùn)練中累計的經(jīng)驗和教訓(xùn)。

在我們的機器學(xué)習(xí)實驗室,我們在許多高性能的機器已經(jīng)積累了成千上萬個小時的訓(xùn)練。然而,并不是只有計算機在這個過程中學(xué)到了很多東西:我們自己也犯了很多錯誤,修復(fù)了很多錯誤。

在這里,我們根據(jù)我們的經(jīng)驗(主要基于 TensorFlow)提出了一些訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的實用技巧。有些建議對你來說可能是顯而易見的,但對我們中的某個人來說卻不是。其他的建議可能不適用,甚至對你的特定任務(wù)來說是不好的建議:謹(jǐn)慎使用!

我們承認(rèn)這些都是眾所周知的方法。我們也站在巨人的肩膀上!我們這篇文章的目的僅僅是對它們進行高層次的總結(jié),以便在實踐中使用。

通用 Tips

使用 ADAM 優(yōu)化器。它真的很好用。比起傳統(tǒng)的優(yōu)化方法,如原始的梯度下降,我更喜歡它。注意:如果要保存和恢復(fù)權(quán)重,記得在設(shè)置好AdamOptimizer之后設(shè)置Saver ,因為 ADAM 也有需要恢復(fù)的狀態(tài)(即每個權(quán)重的學(xué)習(xí)率)。

ReLU 是最好的非線性(激活函數(shù))。這有點像說 Sublime 是最好的文本編輯器。但實際上,ReLUs 是快速的、簡單的,而且令人驚訝的是,它們能夠工作,并且沒有梯度衰減的問題。雖然 sigmoid 是一種常見的教科書式激活函數(shù),但它不能很好地通過 DNNs 傳播梯度。

不要在輸出層使用激活函數(shù)。這應(yīng)該是顯而易見的,但這是一個很容易犯的錯誤,如果你用一個共享函數(shù)構(gòu)建每個層:一定要在輸出處關(guān)閉激活函數(shù)。

一定要在每一層添加一個偏差。這是 ML 101:偏差本質(zhì)上是將飛機轉(zhuǎn)換成最佳位置。在y=mx+b中,b 是偏差,允許直線向上或向下移動到“最合適”的位置。

使用 variance-scaled 初始化。在 Tensorflow 中,就像tf.contrib.layers.variance_scaling_initializer()。在我們的經(jīng)驗中,這比常規(guī)的高斯分布、截斷的正太分布和 Xavier 更能泛化/縮放。粗略地說, variance scaling 初始化根據(jù)每一層的輸入或輸出的數(shù)量來調(diào)整初始隨機權(quán)重的方差(TensorFlow 中的默認(rèn)值是輸入的數(shù)量),從而幫助信號更深入地傳播到網(wǎng)絡(luò)中,而不需要額外的“技巧”,比如 clipping 或 batch normalization。Xavier 是很相似的方法,但是 Xavier 的所有層的方差幾乎相同,在那些層的形狀變化很大的網(wǎng)絡(luò)(通常是卷積網(wǎng)絡(luò))中,可能不能很好地處理每一層相同的變化。

白化(歸一化)你的輸入數(shù)據(jù)。訓(xùn)練時,減去數(shù)據(jù)集的均值,然后除以其標(biāo)準(zhǔn)差。你需要向各個方向拉伸和拉伸的幅度越少,你的網(wǎng)絡(luò)學(xué)習(xí)就會越快、越容易。保持輸入數(shù)據(jù)的均值以不變的方差為中心有助于解決這個問題。你還必須對每個測試輸入執(zhí)行相同的標(biāo)準(zhǔn)化,因此要確保你的訓(xùn)練集與真實數(shù)據(jù)相似。

以合理保留其動態(tài)范圍的方式縮放輸入數(shù)據(jù)。這與歸一化有關(guān),但應(yīng)該在歸一化之前進行。例如,實際范圍為[0,140000000]的數(shù)據(jù)“x”通??梢杂胻anh(x)或tanh(x/C)來處理,其中 C是某個常數(shù),它拉伸曲線以適應(yīng) tanh 函數(shù)動態(tài)的、傾斜的部分中的更多輸入范圍。特別是在輸入數(shù)據(jù)的一端或兩端可能是無界的情況下,神經(jīng)網(wǎng)絡(luò)在(0,1)之間可以更好地學(xué)習(xí)。

不要費心降低學(xué)習(xí)速度(通常)。學(xué)習(xí)率下降在 SGD 中更為常見,但 ADAM 自然地處理了這個問題。如果你絕對想要榨干每一盎司的表現(xiàn):在訓(xùn)練結(jié)束后短時間內(nèi)降低學(xué)習(xí)速度,你可能會看到一個突然的,非常小的誤差下降,然后它會再次變平。

如果你的卷積層有 64 或 128 個濾波器,那可能就足夠了。特別是對于深度網(wǎng)絡(luò)。實際上,128 已經(jīng)很多了。如果你已經(jīng)有了大量的濾波器,那么添加更多的濾波器可能不會改善性能。

池化用于轉(zhuǎn)換不變性。池化本質(zhì)上是讓網(wǎng)絡(luò)學(xué)習(xí)圖像“那部分”的“大意”。例如,最大池可以幫助卷積網(wǎng)絡(luò)對圖像中特征的平移、旋轉(zhuǎn)和縮放變得健壯。

調(diào)試神經(jīng)網(wǎng)絡(luò)

如果你的網(wǎng)絡(luò)沒有學(xué)習(xí)(意思是:在訓(xùn)練過程中,損失沒有收斂,或者你沒有得到你期望的結(jié)果),試試下面的建議:

過擬合!如果你的網(wǎng)絡(luò)沒有在學(xué)習(xí),首先要做的就是在單個數(shù)據(jù)樣本上讓網(wǎng)絡(luò)過擬合。這樣的話,準(zhǔn)確度應(yīng)該是 100%或 99.99%,或者接近于 0 的誤差。如果你的神經(jīng)網(wǎng)絡(luò)不能對單個數(shù)據(jù)點進行過擬合,那么可能是體系結(jié)構(gòu)出現(xiàn)嚴(yán)重問題,但問題可能很微妙。如果你可以過擬合一個數(shù)據(jù)點,但是在更大的集合上的訓(xùn)練仍然不收斂,請嘗試以下建議。

降低學(xué)習(xí)率。你的網(wǎng)絡(luò)學(xué)習(xí)速度會變慢,但它可能會進入一個以前無法進入的最小值,因為之前它的步長太大了。(直覺上,當(dāng)你真正想進入溝底時,你的錯誤是最低的,想象一下跨過路邊的水溝。)

提高學(xué)習(xí)率。這將加快訓(xùn)練,幫助收緊反饋回路,這意味著你會更早知道你的網(wǎng)絡(luò)是否在工作。雖然網(wǎng)絡(luò)應(yīng)該更快地收斂,但它的結(jié)果可能不會很好,而且“收斂”的過程實際上可能會跳來跳去。(使用 ADAM 的時候,我們發(fā)現(xiàn)~0.001 是一個非常好的值,在許多實驗中都是這樣。)

減小 minibatch 大小。將 minibatch 大小減少到 1 可以提供與權(quán)重更新相關(guān)的更細(xì)粒度的反饋,你可以使用 TensorBoard(或其他調(diào)試/可視化工具)報告這些更新。

去掉 batch normalization。隨著批大小減少到 1,這樣做可以梯度消失或梯度爆炸。幾個星期以來,我們的網(wǎng)絡(luò)都沒有收斂,當(dāng)我們刪除了 batch normalization 之后,我們意識到在第二次迭代時輸出都是 NaN。Batch norm 的作用是給需要止血帶的東西貼上創(chuàng)可貼。它有它用的位置,但只有在你網(wǎng)絡(luò)是沒有 bug 的情況下才可以用。

增加 minibatch 大小。更大的 minibatch — 如果可以的話,使用整個訓(xùn)練集 — 減少梯度更新中的方差,使每次迭代更精確。換句話說,讓權(quán)重更新的方向是正確的。但是!它的有用性有一個有效的上限,物理內(nèi)存的限制。通常,我們發(fā)現(xiàn)這不如前兩個建議那么有用,這兩個建議將 minibatch 大小減少到 1 并刪除 batch normalization。

檢查一下 reshaping。劇烈的 reshaping(比如改變圖像的 X、Y 維度)會破壞空間的局部性,使得網(wǎng)絡(luò)更難學(xué)習(xí),因為它也必須學(xué)習(xí) reshaping。(自然景觀變得支離破碎。自然特征在空間上是局部的,這就是為什么 conv 網(wǎng)如此有效的原因。如果使用多個圖像/通道進行 reshape,要特別小心,使用numpy.stack()進行適當(dāng)?shù)膶R。

仔細(xì)檢查你的損失函數(shù)。如果使用復(fù)合函數(shù),嘗試將其簡化為 L1 或 L2。我們發(fā)現(xiàn) L1 對異常值的敏感度較低,當(dāng)遇到有噪聲的批處理或訓(xùn)練點時,L1 的調(diào)整幅度較小。

仔細(xì)檢查你的可視化效果,如果適用的話。你的可視化庫(matplotlib, OpenCV 等)是調(diào)整數(shù)值的比例,還是剪切它們?還可以考慮使用一種感覺上一致的配色方案。

用一個例子來學(xué)習(xí)一下

為了使上面描述的過程更接近實際,這里有一些損失圖(通過 TensorBoard 畫出來的),用于我們構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的一些實際回歸實驗。

起初,這個網(wǎng)絡(luò)根本沒有學(xué)習(xí):

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

我們嘗試對值進行 clipping,以防止它們超出界限:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

嗯??纯催@些沒做平滑的值有多瘋狂。學(xué)習(xí)率太高?我們試著降低學(xué)習(xí)速度,只對一個輸入進行訓(xùn)練:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

你可以看到學(xué)習(xí)率的最初幾個變化發(fā)生在什么地方(大約在第 300 步和第 3000 步)。顯然,我們衰減得太快了。所以,在衰減之前給它更多的時間,它可以做得更好:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

你可以看到我們在 2000 步和 5000 步時衰減。這個更好,但仍然不是很好,因為它沒有趨近于 0。

然后,我們禁用了學(xué)習(xí)率衰減,并嘗試將值移動到一個更窄的范圍內(nèi),不過不是通過輸入 tanh。雖然這明顯使錯誤值低于 1,但我們?nèi)匀徊荒苓^擬合訓(xùn)練集:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

通過刪除 batch normalization,我們發(fā)現(xiàn),在經(jīng)過一兩次迭代之后,網(wǎng)絡(luò)可以快速輸出 NaN。我們禁用了 batch normalization,并將初始化更改為 variance scaling。這些改變了一切!我們能夠過擬合我們的測試集,只是一個或兩個輸入。雖然底部的圖表蓋住了 Y 軸,但初始誤差值遠(yuǎn)遠(yuǎn)高于 5,表明誤差減少了近 4 個數(shù)量級:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

上面的圖表非常平滑,但是你可以看到它與測試輸入過擬合的速度非???,隨著時間的推移,整個訓(xùn)練集的損失降到了 0.01 以下。這并沒有降低學(xué)習(xí)率。在學(xué)習(xí)率下降一個數(shù)量級后,我們繼續(xù)訓(xùn)練,得到了更好的結(jié)果:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

這些結(jié)果好多了!但是如果我們以幾何的方式衰減學(xué)習(xí)率而不是把訓(xùn)練分成兩部分呢?

將每一步的學(xué)習(xí)率乘以 0.9995,結(jié)果并不好:

構(gòu)建神經(jīng)網(wǎng)絡(luò)的經(jīng)驗和教訓(xùn)總結(jié)

大概是因為衰減太快了,乘數(shù)為 0.999995 的情況要好一些,但結(jié)果幾乎等于完全不衰減。我們從這個特殊的實驗序列中得出結(jié)論,batch normalization 隱藏了糟糕的初始化所導(dǎo)致的急劇變化的梯度,降低學(xué)習(xí)率對 ADAM 優(yōu)化器并沒有特別的幫助,除了在最后可能會故意降低。與 batch normalization 一起,clipping 只是掩蓋了真正的問題。我們還通過將高方差輸入值放入 tanh 來處理它們。

我們希望隨著你對構(gòu)建深度神經(jīng)網(wǎng)絡(luò)越來越熟悉,你會發(fā)現(xiàn)這些基本技巧非常有用。通常,只是一些簡單的事情就能改變一切。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108206
  • ADAM
    +關(guān)注

    關(guān)注

    0

    文章

    15

    瀏覽量

    10106
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經(jīng)網(wǎng)絡(luò)引擎?

    我想知道為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經(jīng)網(wǎng)絡(luò)引擎,請問?您能否舉一些關(guān)于他們的用例的例子?
    發(fā)表于 03-25 06:01

    神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識

    日常生活中的智能應(yīng)用都離不開深度學(xué)習(xí),而深度學(xué)習(xí)則依賴于神經(jīng)網(wǎng)絡(luò)的實現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?489次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認(rèn)識

    自動駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個啥?

    在自動駕駛領(lǐng)域,經(jīng)常會聽到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡稱為CNN,是一種專門用來處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的深度學(xué)習(xí)模型。CNN在圖像處理中尤其常見,因為圖像本身就可以看作是由像素排列成的二維網(wǎng)格。
    的頭像 發(fā)表于 11-19 18:15 ?2277次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是個啥?

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計原理及在MCU200T上仿真測試

    數(shù)的提出很大程度的解決了BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡(luò)時的梯度耗散問題。當(dāng)x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當(dāng)x&lt;0 時,該層的輸出為0。 CNN
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    通過實踐,本文總結(jié)構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議,這些建議將會在構(gòu)建高準(zhǔn)確率輕量級CNN神經(jīng)網(wǎng)絡(luò)模型方面提供幫助。 1)避免單層
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個手寫數(shù)字識別的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡(luò)量化后,需要將神經(jīng)網(wǎng)絡(luò)部署到硬件加速器上。首先需要將所有權(quán)重數(shù)據(jù)以及輸入數(shù)據(jù)導(dǎo)入到存儲器內(nèi)。 在仿真環(huán)境下,可將其存于一個文件,并在 Verilog 代碼中通過 readmemh 函數(shù)
    發(fā)表于 10-20 08:00

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時間連續(xù)性與動態(tài)適應(yīng)性的神經(jīng)網(wǎng)絡(luò)

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(luò)(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),其設(shè)計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1602次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(LNN):時間連續(xù)性與動態(tài)適應(yīng)性的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    神經(jīng)網(wǎng)絡(luò)的并行計算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應(yīng)用前景。然而,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計算方式面臨著巨大的挑戰(zhàn),如計算速度慢、訓(xùn)練時間長等
    的頭像 發(fā)表于 09-17 13:31 ?1331次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的并行計算與加速技術(shù)

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3695次閱讀

    無刷電機小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),借助
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機故障診斷中的應(yīng)用

    摘要:針對傳統(tǒng)專家系統(tǒng)不能進行自學(xué)習(xí)、自適應(yīng)的問題,本文提出了基于種經(jīng)網(wǎng)絡(luò)專家系統(tǒng)的并步電機故障診斷方法。本文將小波神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)相結(jié)合,充分發(fā)揮了二者故障診斷的優(yōu)點,很大程度上降低了對電機
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機轉(zhuǎn)速估計中的仿真研究

    眾多方法中,由于其結(jié)構(gòu)簡單,穩(wěn)定性好廣泛受到人們的重視,且已被用于產(chǎn)品開發(fā)。但是MRAS仍存在在低速區(qū)速度估計精度下降和對電動機參數(shù)變化非常敏感的問題。本文利用神經(jīng)網(wǎng)絡(luò)的特點,使估計更為簡單、快速
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在一個神經(jīng)網(wǎng)絡(luò)已經(jīng)通過python或者MATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練好的模型的權(quán)重和偏置文件以TXT文件格式導(dǎo)出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe文件,(coe
    的頭像 發(fā)表于 06-03 15:51 ?1541次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析
    厦门市| 陆丰市| 宝山区| 连平县| 莱州市| 左云县| 渭南市| 桐柏县| 水城县| 嘉善县| 基隆市| 北宁市| 普宁市| 凤凰县| 金坛市| 平南县| 金秀| 双流县| 南丰县| 玛多县| 闵行区| 定陶县| 甘洛县| 札达县| 台东市| 项城市| 茂名市| 黎平县| 龙里县| 祥云县| 曲松县| 蓬安县| 荥经县| 荆州市| 平南县| 阜城县| 平昌县| 上饶县| 个旧市| 承德县| 霞浦县|