日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

權(quán)值衰減和L2正則化傻傻分不清楚?本文來教會你如何分清

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2021-01-21 01:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Divyanshu Mishra
編譯:ronghuaiyang

導讀

權(quán)值衰減和L2正則化,到底是不是同一個東西,這篇文章給你答案。

神經(jīng)網(wǎng)絡(luò)是偉大的函數(shù)逼近器和特征提取器,但有時它們的權(quán)值變得過于特定化,導致過擬合。這就是正則化概念出現(xiàn)的地方,我們將討論兩種主要權(quán)重正則化技術(shù)之間的細微差別,它們經(jīng)常被錯誤地認為是相同的。

介紹

1943年,Warren McCulloch和Walter Pitts首先提出了神經(jīng)網(wǎng)絡(luò),但當時還不夠流行,因為神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)和計算能力,這在當時是不可行的。但隨著上述約束條件和其他訓練技術(shù)的進步(如參數(shù)初始化和更好的激活函數(shù))變得可行,它們再次開始主導各種比賽,并在各種人類輔助技術(shù)中找到了它的應(yīng)用。

如今,神經(jīng)網(wǎng)絡(luò)構(gòu)成了許多著名應(yīng)用的最主要的部分,如自動駕駛汽車、谷歌翻譯、人臉識別系統(tǒng)等,并應(yīng)用于幾乎所有人類發(fā)展所使用的技術(shù)。

神經(jīng)網(wǎng)絡(luò)非常擅長于將函數(shù)近似為線性或非線性,在從輸入數(shù)據(jù)中提取特征時也非常出色。這種能力使他們在大量的任務(wù)中表現(xiàn)出色,無論是計算機視覺領(lǐng)域還是語言建模。但我們都聽過這句名言:

“能力越大,責任越大?!?/p>

這句話也適用于全能的神經(jīng)網(wǎng)絡(luò)。它們作為強大的函數(shù)近似器的能力有時會導致它們通過逼近一個函數(shù)來過擬合數(shù)據(jù)集,這個函數(shù)在它被訓練過的數(shù)據(jù)上表現(xiàn)得非常好,但在測試它之前從未見過的數(shù)據(jù)時卻敗得很慘。更有技術(shù)意義的是,神經(jīng)網(wǎng)絡(luò)學習的權(quán)值對給定的數(shù)據(jù)更加專門化,而不能學習可以一般化的特征。為了解決過擬合的問題,應(yīng)用了一類稱為正則化的技術(shù)來降低模型的復雜性和約束權(quán)值,迫使神經(jīng)網(wǎng)絡(luò)學習可泛化的特征。

正則化

正則化可以定義為我們?yōu)榱藴p少泛化誤差而不是減少訓練誤差而對訓練算法所做的任何改變。有許多正規(guī)化策略。有的對模型添加額外的約束,如對參數(shù)值添加約束,有的對目標函數(shù)添加額外的項,可以認為是對參數(shù)值添加間接或軟約束。如果我們仔細使用這些技術(shù),這可以改善測試集的性能。在深度學習的環(huán)境中,大多數(shù)正則化技術(shù)都基于正則化估計器。當正則化一個估計量時,有一個折衷,我們必須選擇一個增加偏差和減少方差的模型。一個有效的正規(guī)化是使一個有利可圖的交易,顯著減少方差,而不過度增加偏差。

在實踐中使用的主要正規(guī)化技術(shù)有:
① L2正則化
② L1正則化
③ 數(shù)據(jù)增強
④ Dropout
⑤ Early Stopping

在這篇文章中,我們主要關(guān)注L2正則化,并討論我們是否可以將L2正則化和權(quán)重衰減作為同一枚硬幣的兩面。

L2 正則化

L2正則化屬于正則化技術(shù)的一類,稱為參數(shù)范數(shù)懲罰。之所以提到這類技術(shù),是因為在這類技術(shù)中,特定參數(shù)的范數(shù)(主要是權(quán)重)被添加到被優(yōu)化的目標函數(shù)中。在L2范數(shù)中,在網(wǎng)絡(luò)的損失函數(shù)中加入一個額外的項,通常稱為正則化項。例如:

交叉熵損失函數(shù)的定義如下所示。

o4YBAGAIapuALs11AAAhKanq3uY367.png

pIYBAGAIatuADCzxAAAf7iL7SNA056.png

為了將L2正則化應(yīng)用于任何有交叉熵損失的網(wǎng)絡(luò),我們將正則化項添加到損失函數(shù)中,其中正則化項如下所示:

pIYBAGAIaxiAHP7mAAANSDBsGzQ962.png

在上式中,λ是正則化參數(shù),與應(yīng)用的正則化量成正比。如果λ=0,則不應(yīng)用正則化,當λ= 1時,對網(wǎng)絡(luò)應(yīng)用最大正則化。λ是一個超參數(shù),這意味著它不是在訓練期間學習的,而是由用戶手動調(diào)整或使用一些超參數(shù)調(diào)整技術(shù),如隨機搜索。

現(xiàn)在讓我們把這些放在一起,形成L2正則化的最終方程,應(yīng)用于下式所給出的交叉熵損失函數(shù)。

pIYBAGAIa2CAE5BXAAAvLbgDlbE571.png

上面的例子展示了L2正則化應(yīng)用于交叉熵損失函數(shù),但這一概念可以推廣到所有可用的損失函數(shù)。下式給出了L2正則化更一般的公式,其中C0為非正則化損失函數(shù),C為加入正則化項的正則化損失函數(shù)。

pIYBAGAIa56AK9DNAAAW8v1glXA849.png

注:我們在對網(wǎng)絡(luò)進行正則化時不考慮網(wǎng)絡(luò)的bias,原因如下:

1、與權(quán)重相比,bias通常需要更少的數(shù)據(jù)來精確擬合。每個權(quán)重指定了兩個變量如何相互作用(w和x),因此要想很好地擬合權(quán)重,就需要在各種條件下觀察兩個變量,而每個bias只控制一個單一變量(b)。因此,我們對bias不使用正則化,以免引入太多的方差。2、對bias進行正則化可能引入大量的欠擬合。

為什么L2 正則化有用?

實踐推理:

讓我們試著理解L2正則化基于損失函數(shù)的梯度的工作原理。如果我們對網(wǎng)絡(luò)中所有權(quán)重和偏差取上面式子中所示方程的偏導數(shù)或梯度,即?C/?w和?C/?b。求偏導數(shù),我們得到:

pIYBAGAIbAWAaRQWAAAtTFZJ5cI015.png

我們可以使用backpropagation算法計算上述方程中提到的?C0/?w和?C0/?b項。由于沒有應(yīng)用正則化項,偏置參數(shù)的偏導將不變,而權(quán)重參數(shù)將包含額外的(λ/n)*w)正則化項。

偏置和權(quán)重的學習規(guī)則由此變?yōu)椋?/p>

pIYBAGAIbESAPOqgAAASgKegP-0660.png

o4YBAGAIbJCAEQnwAAA1AP9DZsg396.png

上面的權(quán)值方程類似于通常的梯度下降學習規(guī)則,除了現(xiàn)在我們首先通過 (1?(η*λ)/n)重新調(diào)整權(quán)值w。這就是L2正則化經(jīng)常被稱為權(quán)重衰減的原因,因為它使權(quán)重變小。因此,你可以看到為什么正則化工作的時候,它使網(wǎng)絡(luò)的權(quán)值更小。權(quán)值變小意味著,如果我們在這里或那里改變一些隨機輸入,網(wǎng)絡(luò)的行為不會有太大的變化,這反過來使正則化的網(wǎng)絡(luò)很難學習數(shù)據(jù)中的局部噪聲。這迫使網(wǎng)絡(luò)只學習那些在訓練集中經(jīng)??吹降奶卣鳌?/p>

個人的直覺:

簡單地從優(yōu)化損失函數(shù)的角度來考慮L2正則化,當我們把正則化項添加到損失函數(shù)中我們實際上增加了損失函數(shù)的值。因此,如果權(quán)值越大,損失也就越高,訓練算法會試圖通過懲罰權(quán)值來降低損失函數(shù),迫使它們?nèi)「〉闹?,從而使網(wǎng)絡(luò)正則化。

L2 正則化和權(quán)值衰減是一樣的嗎?

L2正則化和權(quán)值衰減并不是一回事,但是可以根據(jù)學習率對權(quán)值衰減因子進行重新參數(shù)化,從而使SGD等價。不明白?讓我給你詳細解釋一下。

以λ為衰減因子,給出了權(quán)值衰減方程。

o4YBAGAIbM6AJnc7AAAVOxUSPmA078.png

在以下證明中可以證明L2正則化等價于SGD情況下的權(quán)值衰減:

1、讓我們首先考慮下面圖中給出的L2正則化方程。我們的目標是對它進行重新參數(shù)化,使其等價于上式中給出的權(quán)值衰減方程。

o4YBAGAIbQyAXJ4yAAASo3gCeRM959.png

2、首先,我們找到L2正則化損失函數(shù)相對于參數(shù)w的偏導數(shù)(梯度),如下式所示。

o4YBAGAIbUmANGkBAAAX9mA-5oY804.png


o4YBAGAIbYmAEmb7AAAPAeMbTLU853.png

注意:上圖中這兩種符號的意思是一樣的。

3、得到損失函數(shù)的偏導數(shù)結(jié)果后,將結(jié)果代入梯度下降學習規(guī)則中,如下式所示。代入后,打開括號,重新排列,使其等價于在一定假設(shè)下的權(quán)值衰減方程。

o4YBAGAIbceAGjFJAABHuKUCFWw158.png

4、你可以注意到,最終重新排列的L2正則化方程和權(quán)值衰減方程之間的唯一區(qū)別是α(學習率)乘以λ(正則化項)。為了得到兩個方程,我們用λ來重新參數(shù)化L2正則化方程。

pIYBAGAIbgWAbBjMAAAJEpeU4cg244.png

5、將λ'替換為λ,對L2正則化方程進行重新參數(shù)化,將其等價于權(quán)值衰減方程,如下式所示。

pIYBAGAIbk2ALd5cAAAfA0pDsE0984.png

從上面的證明中,你必須理解為什么L2正則化在SGD情況下被認為等同于權(quán)值衰減,但對于其他基于自適應(yīng)梯度的優(yōu)化算法,如Adam, AdaGrad等,卻不是這樣。特別是,當與自適應(yīng)梯度相結(jié)合時,L2正則化導致具有較大歷史參數(shù)和/或梯度振幅的權(quán)值比使用權(quán)值衰減時正則化得更少。這導致與SGD相比,當使用L2正則化時adam表現(xiàn)不佳。另一方面,權(quán)值衰減在SGD和Adam身上表現(xiàn)得一樣好。

一個令人震驚的結(jié)果是,帶有動量的SGD優(yōu)于像Adam這樣的自適應(yīng)梯度方法,因為常見的深度學習庫實現(xiàn)了L2正則化,而不是原始的權(quán)重衰減。因此,在使用L2正則化有利于SGD的任務(wù)上,Adam的結(jié)果要比使用動量的SGD差。

總結(jié)

因此,我們得出結(jié)論,盡管權(quán)值衰減和L2正則化在某些條件下可以達到等價,但概念上還是有細微的不同,應(yīng)該區(qū)別對待,否則可能導致無法解釋的性能下降或其他實際問題。


本文轉(zhuǎn)自:AI公園,作者:Divyanshu Mishra,編譯:ronghuaiyang,
轉(zhuǎn)載此文目的在于傳遞更多信息,版權(quán)歸原作者所有。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    MAX2691:L2 頻段 GPS 低噪聲放大器的卓越之選

    MAX2691:L2 頻段 GPS 低噪聲放大器的卓越之選 在 GPS 應(yīng)用領(lǐng)域,低噪聲放大器(LNA)的性能對整個系統(tǒng)的精度和穩(wěn)定性起著關(guān)鍵作用。今天,我們就來深入了解一下 Maxim 推出
    的頭像 發(fā)表于 04-22 09:05 ?392次閱讀

    為什么很多弱電新人分不清BNC和Q9接頭?兩者在底層電氣性能上有何本質(zhì)區(qū)別?

    很多弱電新人分不清BNC與Q9接頭,常因混淆兩者導致工程質(zhì)量隱患。本文深度解析了兩者的歷史淵源與底層電氣性能差異。Q9雖為早期國產(chǎn)標準稱呼,但在數(shù)字高頻傳輸時代,符合國際標準的BNC接頭在阻抗匹配
    的頭像 發(fā)表于 04-21 11:02 ?91次閱讀
    為什么很多弱電新人<b class='flag-5'>分不清</b>BNC和Q9接頭?兩者在底層電氣性能上有何本質(zhì)區(qū)別?

    XTAL、SPXO、VCXO、TCXO、OCXO傻傻分不清楚?一文搞懂他們的特征!

    在頻率控制領(lǐng)域,石英晶振大家都耳熟能詳,但對XTAL、SPXO、VCXO、TCXO、OCXO這些不太常見的英文縮寫可能會有點陌生,它們屬于石英晶振家族的不同品類,功能與特性卻各有千秋。#01XTAL石英晶體諧振器XTAL即為石英晶體諧振器(又稱無源晶振),它利用石英晶體的壓電效應(yīng)將電能轉(zhuǎn)化為機械振動,從而產(chǎn)生穩(wěn)定的固有頻率,但自身無法直接輸出時鐘信號,需搭配
    的頭像 發(fā)表于 01-07 14:40 ?959次閱讀
    XTAL、SPXO、VCXO、TCXO、OCXO<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>?一文搞懂他們的特征!

    MAX2691:GPS L2應(yīng)用的低噪聲放大器解決方案

    MAX2691:GPS L2應(yīng)用的低噪聲放大器解決方案 在GPS L2應(yīng)用領(lǐng)域,低噪聲放大器(LNA)的性能對系統(tǒng)的整體表現(xiàn)起著至關(guān)重要的作用。今天,我們就來深入了解一下Maxim公司推出
    的頭像 發(fā)表于 01-06 11:20 ?403次閱讀

    邊緣計算和人工智能,別再傻傻分不清啦!

    這幾年,只要聊到“智能制造”“智慧城市”“自動化工廠”, 邊緣計算 和**人工智能(AI)**這兩個詞就總是成雙成對地出現(xiàn)。 但是不是也有點懵:到底誰在算?誰在“聰明”?它們又是什么關(guān)系? 別急
    的頭像 發(fā)表于 11-19 15:46 ?592次閱讀

    UV三防漆vs普通三防漆:5大關(guān)鍵區(qū)別,教你精準避坑!

    別再傻傻分不清!選對三防漆,產(chǎn)品壽命翻倍不是夢。
    的頭像 發(fā)表于 10-25 17:45 ?818次閱讀
    UV三防漆vs普通三防漆:5大關(guān)鍵區(qū)別,教你精準避坑!

    機器視覺雙雄YOLO 和 OpenCV 到底有啥區(qū)別?別再傻傻分不清

    很多人一聽到 “YOLO”和“OpenCV” ,總以為它們是同一種東西。其實, 一個是AI算法,一個是視覺工具庫;一個會“識別”,一個會“處理” 。本文帶你深入了解兩者的核心區(qū)別與協(xié)同關(guān)系,以及它們
    的頭像 發(fā)表于 10-14 16:00 ?1753次閱讀
    機器視覺雙雄YOLO 和 OpenCV 到底有啥區(qū)別?別再<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>!

    晶振 VS 晶體:別再傻傻分不清

    很多電子愛好者第一次接觸電路時,經(jīng)常會混淆“晶振”和“晶體”。其實,兩者有相似之處,但用途和結(jié)構(gòu)并不完全一樣。 一、什么是晶體? 晶體(Crystal)是一塊經(jīng)過切割加工的石英晶體,它本身不會“自振”,需要放大器和電容等外部電路才能振蕩。它就像一塊“調(diào)音叉”,只提供頻率參考。常見的就是32.768kHz晶體,在MCU的RTC模塊中非常普遍。 二、什么是晶振? 晶振(Oscillator)則是一個完整的振蕩器模塊,里面已經(jīng)把晶體和驅(qū)動電路集成好,能
    的頭像 發(fā)表于 09-11 14:42 ?856次閱讀
    晶振 VS 晶體:別再<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>

    家里220V,工廠380V,電還分不同&quot;花色&quot;?揭秘三相四線與五線的關(guān)鍵選擇

    火線、零線、地線傻傻分不清?電工師傅教你如何根據(jù)用電選對電能表
    的頭像 發(fā)表于 09-10 10:48 ?2411次閱讀
    家里220V,工廠380V,電還分不同&quot;花色&quot;?揭秘三相四線與五線的關(guān)鍵選擇

    導熱 vs. 散熱:別再傻傻分不清楚!

    1一字之差,本質(zhì)大不同在材料科學與熱管理領(lǐng)域,“導熱”與“散熱”是緊密關(guān)聯(lián)卻又截然不同的兩個概念,很多人常常將二者混淆,在實際應(yīng)用中,準確理解它們的差異至關(guān)重要,這關(guān)系到電子產(chǎn)品、工業(yè)設(shè)備等能否穩(wěn)定高效運行。下面,我們就來深入剖析一下導熱與散熱的區(qū)別。No.1導熱導熱是一個在介質(zhì)內(nèi)部進行熱量傳遞的過程,就像是一場微觀粒子間的“接力賽”。在這個過程中,熱量借助
    的頭像 發(fā)表于 09-07 09:21 ?2749次閱讀
    導熱 vs. 散熱:別再<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>!

    MDDTVS參數(shù)選型不清楚的常見問題解析

    TVS在不同應(yīng)用條件下的綜合特性,導致實際防護效果與預(yù)期差距較大,甚至引發(fā)器件失效或系統(tǒng)不穩(wěn)定。下面是TVS選型不清楚的典型問題。一、對工作電壓與擊穿電壓的理解不足
    的頭像 發(fā)表于 08-20 10:16 ?795次閱讀
    MDDTVS參數(shù)選型<b class='flag-5'>不清楚</b>的常見問題解析

    華銳捷智能座艙以全優(yōu)成績通過ASPICE L2級認證

    ? 近日,華銳捷以全優(yōu)成績通過ASPICE L2等級評估認證。這一成績標志著華銳捷在汽車軟件開發(fā)和項目過程管控能力上已達到國際標準水平,為其產(chǎn)品開發(fā)尤其是軟件研發(fā)領(lǐng)域奠定了堅實的體系根基
    的頭像 發(fā)表于 08-18 09:34 ?1359次閱讀
    華銳捷智能座艙以全優(yōu)成績通過ASPICE <b class='flag-5'>L2</b>級認證

    WiFi和WLAN傻傻分不清楚?#WIFI #WLAN #網(wǎng)絡(luò) #科普

    WIFI
    安泰儀器維修
    發(fā)布于 :2025年05月28日 17:43:46

    秒懂CCC與CQC,別傻傻分不清

    通俗易懂說CCC與CQC
    的頭像 發(fā)表于 05-06 10:23 ?9650次閱讀
    秒懂CCC與CQC,別<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>啦
    宁晋县| 宽城| 桂平市| 贵阳市| 苍山县| 鸡东县| 海原县| 革吉县| 塔城市| 石棉县| 且末县| 普洱| 繁昌县| 新晃| 资源县| 肇源县| 安庆市| 彭山县| 吴江市| 平利县| 沭阳县| 福清市| 伊宁市| 连云港市| 荆州市| 邵阳市| 灌南县| 罗源县| 陈巴尔虎旗| 宁明县| 习水县| 黄大仙区| 岳池县| 大港区| 怀宁县| 新龙县| 祁门县| 苗栗市| 荣成市| 澳门| 乳山市|