日韩不卡一区二区福利,国产最新探花在线

突破學(xué)習(xí)難點(diǎn)，深度學(xué)習(xí)進(jìn)階心得

在深度學(xué)習(xí)的這條路上，入門并不算太難。跑通一個(gè)MNIST手寫數(shù)字識(shí)別、用預(yù)訓(xùn)練模型做個(gè)圖像分類，甚至在CIFAR-10上把準(zhǔn)確率刷到90%以上，這些只要跟著教程走，絕大多數(shù)人都能做到。但真正的分水嶺出現(xiàn)在“進(jìn)階”階段——當(dāng)你要自己設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)、排查訓(xùn)練中的詭異問題、把模型部署到真實(shí)場景中去的時(shí)候，難點(diǎn)才一個(gè)個(gè)浮現(xiàn)出來。這篇文章不是成功學(xué)的分享，而是我在突破這些難點(diǎn)過程中真實(shí)的掙扎與心得。

難點(diǎn)一：梯度問題——從“知道”到“能診斷”

梯度消失和梯度爆炸，這兩個(gè)詞幾乎所有學(xué)深度學(xué)習(xí)的人都聽過。但“知道”和“能診斷”之間，隔著一大段距離。我第一次真正遇到梯度問題是在訓(xùn)練一個(gè)稍深的卷積網(wǎng)絡(luò)時(shí)。訓(xùn)練了好幾個(gè)小時(shí)，loss幾乎紋絲不動(dòng)，驗(yàn)證集準(zhǔn)確率始終徘徊在隨機(jī)水平。

當(dāng)時(shí)的我完全不知道問題出在哪。學(xué)習(xí)率調(diào)大調(diào)小都試過，網(wǎng)絡(luò)層數(shù)減了幾層，效果依然很差。那段時(shí)間我?guī)缀醢丫W(wǎng)上能找到的“訓(xùn)練技巧”文章翻了個(gè)遍，一個(gè)一個(gè)試，但大多數(shù)嘗試要么沒用，要么讓情況更糟。

后來在一個(gè)進(jìn)階課程中，導(dǎo)師教了一個(gè)很樸素但極其有效的方法：把每一層的梯度分布打印出來。我動(dòng)手在每個(gè)卷積層后面加了梯度監(jiān)控的鉤子，跑了一小批數(shù)據(jù)，看到的結(jié)果讓我恍然大悟——前三層的梯度平均值在1e-5量級(jí)，而最后幾層的梯度在1e-2量級(jí)。梯度的數(shù)量級(jí)從后往前迅速衰減，傳到淺層時(shí)已經(jīng)幾乎為零了。

知道了梯度消失具體的“位置”和“程度”，對(duì)癥下藥就容易多了。我嘗試了幾種方案，最終效果最好的是在每個(gè)殘差塊后面做梯度裁剪，同時(shí)把激活函數(shù)從sigmoid換成ReLU。這次經(jīng)歷讓我明白：診斷問題比盲目嘗試重要一萬倍。梯度問題不可怕，可怕的是你不知道你的模型到底有沒有梯度問題。

從那以后，我養(yǎng)成了一個(gè)習(xí)慣：任何模型訓(xùn)練的前幾輪，都會(huì)加入梯度監(jiān)控的代碼。不是等模型訓(xùn)練失敗再去排查，而是在訓(xùn)練早期就確認(rèn)梯度的流動(dòng)是健康的。這個(gè)習(xí)慣后來幫我避免了好幾次潛在的大坑。

難點(diǎn)二：過擬合與泛化——從“記住”到“理解”

深度學(xué)習(xí)的另一個(gè)經(jīng)典難點(diǎn)是過擬合。很多人把過擬合等同于“訓(xùn)練集效果好、驗(yàn)證集效果差”，這個(gè)定義沒錯(cuò)，但它掩蓋了一個(gè)更深層的問題：模型到底是在“記住”訓(xùn)練樣本，還是在“理解”背后的規(guī)律？

我遇到過最詭異的一次過擬合，驗(yàn)證集準(zhǔn)確率和訓(xùn)練集差了將近30個(gè)百分點(diǎn)。我嘗試了所有標(biāo)準(zhǔn)手段：加Dropout、數(shù)據(jù)增強(qiáng)、L2正則化、早停……每次調(diào)整后過擬合確實(shí)減輕了，但驗(yàn)證集準(zhǔn)確率并沒有提升，只是訓(xùn)練集準(zhǔn)確率降下來了。等于我什么都沒解決。

后來我換了一個(gè)思路：不去盲目加正則化，而是仔細(xì)看模型到底在訓(xùn)練集上“記住”了什么。我找出了訓(xùn)練集中模型預(yù)測正確的樣本和預(yù)測錯(cuò)誤的樣本，對(duì)比它們的特征分布，發(fā)現(xiàn)了一個(gè)明顯的模式——模型對(duì)某個(gè)特定類型的數(shù)據(jù)（比如暗光環(huán)境下的圖片、長尾分布中的某個(gè)類別）幾乎完全無法泛化。問題的根源不是模型容量太大，而是訓(xùn)練數(shù)據(jù)在這個(gè)維度上的覆蓋不足。

找到這個(gè)根因之后，解決方向就很明確了：補(bǔ)充更多該類型的訓(xùn)練樣本，或者針對(duì)性地做數(shù)據(jù)增強(qiáng)。調(diào)整之后，驗(yàn)證集準(zhǔn)確率直接提升了15個(gè)百分點(diǎn)，而訓(xùn)練集準(zhǔn)確率幾乎沒降。這個(gè)經(jīng)歷讓我深刻認(rèn)識(shí)到：泛化問題的根源往往在數(shù)據(jù)分布，而不在模型的復(fù)雜度。

難點(diǎn)三：調(diào)參與實(shí)驗(yàn)管理——從“撞大運(yùn)”到“有方法”

說調(diào)參是一門玄學(xué)，很多深度學(xué)習(xí)初學(xué)者都有同感。我早期調(diào)參的方式很原始：猜一個(gè)學(xué)習(xí)率，跑一晚上，看結(jié)果，再猜一個(gè)新的。效率極低，而且每次實(shí)驗(yàn)之間的結(jié)果沒法直接比較，因?yàn)楦牡膮?shù)不止一個(gè)，實(shí)驗(yàn)環(huán)境也不完全一致。

進(jìn)階階段一個(gè)很大的突破，是建立起了系統(tǒng)化的實(shí)驗(yàn)管理流程。具體來說，有四件事徹底改變了我的調(diào)參效率：

第一，固定隨機(jī)種子。 這聽起來是個(gè)小事，但影響巨大。沒有固定隨機(jī)種子的情況下，同樣的代碼、同樣的參數(shù)跑兩次，結(jié)果都可能不一樣。你永遠(yuǎn)不知道準(zhǔn)確率的提升是來自參數(shù)調(diào)整還是來自隨機(jī)波動(dòng)。把所有能固定的隨機(jī)種子都固定之后，實(shí)驗(yàn)才有可比性。

第二，一次只改一個(gè)變量。 這需要極大的克制力。每次看到一組參數(shù)效果不錯(cuò)，我總想同時(shí)調(diào)一下學(xué)習(xí)率、改一下batch size、再加一層網(wǎng)絡(luò)。但多個(gè)變量同時(shí)變動(dòng)，即使效果變好了，你也無法知道是哪個(gè)改動(dòng)起了作用。后來我嚴(yán)格遵守“單變量實(shí)驗(yàn)”原則，雖然實(shí)驗(yàn)次數(shù)變多了，但每次實(shí)驗(yàn)都能產(chǎn)生確定性的知識(shí)積累。

第三，實(shí)驗(yàn)記錄要像實(shí)驗(yàn)室筆記一樣詳細(xì)。 我見過太多人跑完實(shí)驗(yàn)就關(guān)掉終端，過兩天想復(fù)現(xiàn)結(jié)果卻發(fā)現(xiàn)忘記錄入了?，F(xiàn)在我每次實(shí)驗(yàn)都會(huì)記錄：代碼版本、參數(shù)配置、數(shù)據(jù)切分方式的hash值、訓(xùn)練曲線截圖、最終指標(biāo)。這些記錄看似繁瑣，但在對(duì)比實(shí)驗(yàn)、回溯問題時(shí)價(jià)值連城。

第四，學(xué)會(huì)用超參數(shù)搜索框架。 手動(dòng)調(diào)參的效率上限太低了。學(xué)會(huì)用網(wǎng)格搜索和隨機(jī)搜索之后，我可以在機(jī)器跑一組實(shí)驗(yàn)的同時(shí)去做其他事情，效率提升明顯。后來更進(jìn)一步，開始用貝葉斯優(yōu)化這類更智能的搜索策略，在有限的計(jì)算資源下更快地找到好參數(shù)。

難點(diǎn)四：從論文到代碼——跨越“論文恐懼癥”

進(jìn)階到一定階段，不可避免要開始讀論文，理解前沿進(jìn)展，甚至復(fù)現(xiàn)論文中的方法。這可能是很多人最難跨過的坎。我最初看論文時(shí)，經(jīng)常被公式和符號(hào)勸退，勉強(qiáng)看完也不知道怎么轉(zhuǎn)化為代碼。

突破這個(gè)難點(diǎn)的方法說起來很簡單：帶著“我要?jiǎng)邮謱?shí)現(xiàn)”的目的去讀論文。 不是從頭讀到尾，而是先搞清楚論文解決了什么問題，核心方法是什么，然后直接跳到實(shí)驗(yàn)部分看輸入輸出是什么。接著，嘗試不看論文的實(shí)現(xiàn)細(xì)節(jié)，自己先用偽代碼梳理一遍流程，再用自己的理解和簡單框架跑一個(gè)最小的可運(yùn)行版本。遇到不通的地方再回論文找答案。

這個(gè)過程一開始很慢，一篇不太長的論文可能要花兩三天才能完全復(fù)現(xiàn)。但隨著經(jīng)驗(yàn)積累，速度會(huì)越來越快。而且當(dāng)你成功復(fù)現(xiàn)出論文報(bào)告的效果時(shí)，那種成就感是非常強(qiáng)烈的。

更重要的收獲是：復(fù)現(xiàn)論文的過程會(huì)倒逼你深入理解每一個(gè)細(xì)節(jié)。你以為你懂了，但寫代碼時(shí)就會(huì)發(fā)現(xiàn)自己其實(shí)忽略了很多。當(dāng)你把一篇論文完整跑通之后，你對(duì)這個(gè)方向的理解會(huì)超過絕大多數(shù)只看不寫的人。

結(jié)語

深度學(xué)習(xí)的進(jìn)階之路沒有捷徑，但有一些方法可以讓這條路上的磕絆少一些。診斷梯度問題、剖析泛化根因、系統(tǒng)化管理實(shí)驗(yàn)、以復(fù)現(xiàn)為目的讀論文——這些都是我踩過無數(shù)坑之后提煉出來的“過來人經(jīng)驗(yàn)”。

如果你也正處于“入門已經(jīng)完成、進(jìn)階還很迷?！钡碾A段，不妨從上面提到的某一點(diǎn)開始改變。深度學(xué)習(xí)是一門口手合一的技術(shù)，理解的深度永遠(yuǎn)體現(xiàn)在動(dòng)手解決實(shí)際問題的能力上。當(dāng)你一次次突破難點(diǎn)，你會(huì)發(fā)現(xiàn)：那些曾經(jīng)讓你束手無策的問題，最終都變成了你技術(shù)底色的一部分。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50405

瀏覽量
267295
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5612

瀏覽量
124685

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

人工智能深度學(xué)習(xí)系統(tǒng)班v12.0 第12期咕泡

評(píng)論