四、深度學(xué)習(xí)核心知識(shí)(進(jìn)階必備)
1. 模型訓(xùn)練關(guān)鍵技術(shù)(深度學(xué)習(xí)實(shí)戰(zhàn)核心)
損失函數(shù)(模型優(yōu)化目標(biāo))
分類任務(wù)損失函數(shù)(續(xù)):
稀疏多分類交叉熵?fù)p失(Sparse Categorical Cross-Entropy):L = - (1/n) Σlog?_{i,y_i}(y_i 為標(biāo)簽索引,非獨(dú)熱編碼)
優(yōu)點(diǎn):無(wú)需對(duì)標(biāo)簽進(jìn)行獨(dú)熱編碼,減少內(nèi)存占用(適用于標(biāo)簽為整數(shù)索引的場(chǎng)景)
適用場(chǎng)景:多分類任務(wù),輸出層用 Softmax 激活,標(biāo)簽未做獨(dú)熱編碼(如 TensorFlow/PyTorch 的默認(rèn)標(biāo)簽格式)
Focal Loss(解決類別不平衡):L = - α_t (1-?_{i,y_i})^γ log?_{i,y_i}
核心設(shè)計(jì):
α_t:類別平衡因子(平衡正負(fù)樣本比例)
γ(聚焦參數(shù)):默認(rèn) 2,降低易分樣本的權(quán)重((1-?)^γ 越大,易分樣本權(quán)重越小)
解決問(wèn)題:傳統(tǒng)交叉熵?fù)p失對(duì)類別不平衡敏感(少數(shù)類樣本易被忽視),F(xiàn)ocal Loss 通過(guò)聚焦難分樣本,提升少數(shù)類識(shí)別精度
適用場(chǎng)景:目標(biāo)檢測(cè)、醫(yī)療影像分類(類別不平衡嚴(yán)重的任務(wù))
優(yōu)化器(模型參數(shù)更新策略)
核心優(yōu)化器對(duì)比與實(shí)戰(zhàn):
SGD(隨機(jī)梯度下降):
原理:每次用單個(gè)樣本計(jì)算梯度,更新公式:θ = θ - η?L (θ)
優(yōu)點(diǎn):內(nèi)存占用小、訓(xùn)練速度快、泛化能力強(qiáng)
缺點(diǎn):訓(xùn)練波動(dòng)大(梯度方差大)、收斂速度慢(易陷入局部最優(yōu))
實(shí)戰(zhàn)技巧:結(jié)合學(xué)習(xí)率調(diào)度(如 StepLR、ReduceLROnPlateau),緩解波動(dòng)
Momentum(動(dòng)量?jī)?yōu)化):
原理:模擬物理動(dòng)量,積累歷史梯度方向,更新公式:v = βv + ?L (θ),θ = θ - ηv(β 默認(rèn) 0.9)
優(yōu)點(diǎn):緩解 SGD 波動(dòng),加速收斂(沿歷史梯度方向加速,跨越局部最優(yōu))
適用場(chǎng)景:非凸優(yōu)化問(wèn)題(大部分深度學(xué)習(xí)任務(wù))
RMSProp(根均值平方傳播):
原理:自適應(yīng)學(xué)習(xí)率,對(duì)每個(gè)參數(shù)維護(hù)梯度平方的指數(shù)移動(dòng)平均,更新公式:E [g2] = βE [g2] + (1-β)(?L (θ))2,θ = θ - η/√(E [g2]+ε)(β 默認(rèn) 0.999,ε 默認(rèn) 1e-8)
優(yōu)點(diǎn):解決 SGD 學(xué)習(xí)率一刀切的問(wèn)題,對(duì)稀疏數(shù)據(jù)友好(如 NLP 任務(wù)的詞向量更新)
Adam(自適應(yīng)動(dòng)量?jī)?yōu)化):
原理:結(jié)合 Momentum(動(dòng)量)和 RMSProp(自適應(yīng)學(xué)習(xí)率),更新公式:
m = β?m + (1-β?)?L (θ)(動(dòng)量項(xiàng),β?默認(rèn) 0.9)
v = β?v + (1-β?)(?L (θ))2(自適應(yīng)學(xué)習(xí)率項(xiàng),β?默認(rèn) 0.999)
偏差修正:m_hat = m/(1-β?^t),v_hat = v/(1-β?^t)(t 為迭代次數(shù))
θ = θ - ηm_hat/√(v_hat+ε)(ε 默認(rèn) 1e-8)
優(yōu)點(diǎn):收斂速度快、訓(xùn)練穩(wěn)定、對(duì)超參數(shù)不敏感(默認(rèn)參數(shù)效果好)
缺點(diǎn):泛化能力可能略遜于 SGD(部分任務(wù)需微調(diào))
實(shí)戰(zhàn)場(chǎng)景:首選優(yōu)化器(科研、工業(yè)界通用),尤其適合深度學(xué)習(xí)初始訓(xùn)練
AdamW(帶權(quán)重衰減的 Adam):
改進(jìn)點(diǎn):將 L2 正則改為權(quán)重衰減(Weight Decay),避免 Adam 對(duì) L2 正則的梯度偏移
優(yōu)勢(shì):在 Adam 基礎(chǔ)上提升泛化能力,減少過(guò)擬合(推薦用于 Transformer、CNN 等復(fù)雜模型)
正則化(防止過(guò)擬合核心技術(shù))
L1/L2 正則化:
L1 正則化(Lasso):損失函數(shù)添加 L1 懲罰項(xiàng),L_total = L + λΣ|θ|
效果:使部分參數(shù)變?yōu)?0,實(shí)現(xiàn)特征選擇(稀疏性)
適用場(chǎng)景:高維數(shù)據(jù)(如特征數(shù)遠(yuǎn)大于樣本數(shù)),需篩選核心特征
L2 正則化(Ridge):損失函數(shù)添加 L2 懲罰項(xiàng),L_total = L + λΣθ2
效果:使參數(shù)值縮小(權(quán)重衰減),避免參數(shù)過(guò)大導(dǎo)致的過(guò)擬合
適用場(chǎng)景:大部分深度學(xué)習(xí)模型(默認(rèn)添加 L2 正則)
區(qū)別:L1 產(chǎn)生稀疏解,L2 使參數(shù)平滑(無(wú)稀疏性)
Dropout(隨機(jī)失活):
核心原理:訓(xùn)練時(shí)隨機(jī)將部分神經(jīng)元的輸出置為 0(概率 p),測(cè)試時(shí)恢復(fù)所有神經(jīng)元,輸出乘以 (1-p) 或通過(guò)縮放保持期望一致
訓(xùn)練過(guò)程:
輸入 x 經(jīng)過(guò)神經(jīng)元得到 a,Dropout 后輸出 a' = a × m(m 為掩碼,元素為 0 或 1,概率分別為 p 和 1-p)
作用:打破神經(jīng)元間的協(xié)同依賴(避免過(guò)度擬合訓(xùn)練數(shù)據(jù)的特定模式)
關(guān)鍵參數(shù):dropout_rate(p,默認(rèn) 0.5,輸入層建議 0.1~0.2,隱藏層建議 0.5)
實(shí)戰(zhàn)注意:僅訓(xùn)練時(shí)啟用,測(cè)試時(shí)禁用(框架自動(dòng)處理,如 TensorFlow 的 tf.keras.layers.Dropout)
Batch Normalization(批量歸一化):
核心原理:對(duì)每一層的輸入進(jìn)行歸一化(均值為 0,方差為 1),減少內(nèi)部協(xié)變量偏移(Internal Covariate Shift),加速訓(xùn)練收斂
計(jì)算步驟:
計(jì)算批次均值:μ_B = (1/m)Σx_i(m 為批次大?。?/p>
計(jì)算批次方差:σ_B2 = (1/m)Σ(x_i - μ_B)2
歸一化:x_i^norm = (x_i - μ_B)/√(σ_B2 + ε)(ε 默認(rèn) 1e-5,避免分母為 0)
縮放與偏移:y_i = γx_i^norm + β(γ、β 為可訓(xùn)練參數(shù),恢復(fù)模型表達(dá)能力)
優(yōu)點(diǎn):加速收斂(學(xué)習(xí)率可設(shè)置更大)、緩解梯度消失、降低對(duì)初始化敏感
適用場(chǎng)景:CNN、全連接網(wǎng)絡(luò)(RNN 中常用 Layer Normalization)
實(shí)戰(zhàn)技巧:批次大小不宜過(guò)?。ńㄗh≥32,否則均值 / 方差估計(jì)不準(zhǔn)確)
早停(Early Stopping):
核心邏輯:監(jiān)控驗(yàn)證集性能(如驗(yàn)證損失、準(zhǔn)確率),當(dāng)性能連續(xù)多輪(patience 輪)未提升時(shí),停止訓(xùn)練,避免過(guò)擬合
關(guān)鍵參數(shù):
monitor:監(jiān)控指標(biāo)(如 val_loss、val_accuracy)
patience:允許性能不提升的最大輪數(shù)(默認(rèn) 5~10)
restore_best_weights:恢復(fù)驗(yàn)證集性能最優(yōu)時(shí)的模型權(quán)重(避免保存后期過(guò)擬合的權(quán)重)
實(shí)戰(zhàn)流程:
訓(xùn)練時(shí)同時(shí)記錄訓(xùn)練集和驗(yàn)證集指標(biāo)
若驗(yàn)證集指標(biāo)連續(xù) patience 輪未提升,觸發(fā)早停
加載最優(yōu)權(quán)重作為最終模型
訓(xùn)練技巧(提升模型性能關(guān)鍵)
批量歸一化與梯度裁剪:
梯度裁剪(Gradient Clipping):
問(wèn)題:深層網(wǎng)絡(luò)或 RNN 中易出現(xiàn)梯度爆炸(梯度值過(guò)大,參數(shù)更新幅度過(guò)大)
實(shí)現(xiàn)方式:
norm 裁剪:當(dāng)梯度 L2 范數(shù)超過(guò)閾值 clipnorm 時(shí),縮放梯度:?θ = ?θ × clipnorm / ||?θ||
value 裁剪:將梯度值限制在 [-clipvalue, clipvalue] 區(qū)間(如 clipvalue=1.0)
適用場(chǎng)景:RNN、Transformer(長(zhǎng)序列訓(xùn)練)
組合使用:Batch Normalization 緩解梯度消失,梯度裁剪解決梯度爆炸,協(xié)同提升訓(xùn)練穩(wěn)定性
遷移學(xué)習(xí)(Transfer Learning):
核心思想:利用預(yù)訓(xùn)練模型(如在 ImageNet、Wikipedia 上訓(xùn)練的模型)的權(quán)重,微調(diào)適配目標(biāo)任務(wù),減少目標(biāo)任務(wù)的數(shù)據(jù)需求和訓(xùn)練成本
實(shí)現(xiàn)方式:
特征提?。簝鼋Y(jié)預(yù)訓(xùn)練模型的底層(特征提取層),僅訓(xùn)練頂層(分類層)
微調(diào)(Fine-tuning):解凍預(yù)訓(xùn)練模型的部分頂層,與新添加層一起訓(xùn)練(學(xué)習(xí)率需設(shè)置較小,如 1e-5)
適用場(chǎng)景:目標(biāo)任務(wù)數(shù)據(jù)量少(如醫(yī)療影像分類、小眾領(lǐng)域文本分類)
實(shí)戰(zhàn)技巧:
預(yù)訓(xùn)練模型選擇:選擇與目標(biāo)任務(wù)數(shù)據(jù)分布相近的模型(如 CV 任務(wù)選 ResNet、VGG,NLP 任務(wù)選 BERT、GPT)
學(xué)習(xí)率策略:新添加層用較大學(xué)習(xí)率(如 1e-3),預(yù)訓(xùn)練層用較小學(xué)習(xí)率(如 1e-5)
數(shù)據(jù)增強(qiáng)(Data Augmentation):
核心目的:通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)變換,生成更多 “虛擬樣本”,擴(kuò)大訓(xùn)練集規(guī)模,減少過(guò)擬合
常用變換(CV 任務(wù)):
幾何變換:隨機(jī)裁剪、翻轉(zhuǎn)(水平 / 垂直)、旋轉(zhuǎn)、縮放、平移
像素變換:隨機(jī)亮度、對(duì)比度、飽和度調(diào)整、高斯噪聲添加
高級(jí)變換:MixUp(樣本混合)、CutMix(區(qū)域裁剪混合)
常用變換(NLP 任務(wù)):
文本替換:隨機(jī)替換同義詞(如用 WordNet、BERT 生成同義詞)
文本插入 / 刪除:隨機(jī)插入無(wú)關(guān)詞、刪除部分單詞(保持語(yǔ)義不變)
句子重排:打亂句子中短語(yǔ)的順序(適用于不依賴語(yǔ)序的任務(wù))
實(shí)戰(zhàn)工具:
CV:Albumentations、TorchVision.transforms
NLP:NLPAug、TextAttack
2. 經(jīng)典模型與應(yīng)用場(chǎng)景
計(jì)算機(jī)視覺(jué)(CV)
圖像分類:
核心模型:ResNet(深層特征提取)、EfficientNet(高效網(wǎng)絡(luò),參數(shù)量少、精度高)、Vision Transformer(ViT,基于 Transformer 的圖像分類)
應(yīng)用場(chǎng)景:圖片識(shí)別(如商品分類、疾病診斷、人臉識(shí)別)
實(shí)戰(zhàn)關(guān)鍵點(diǎn):數(shù)據(jù)增強(qiáng)(提升泛化能力)、遷移學(xué)習(xí)(小數(shù)據(jù)場(chǎng)景)、標(biāo)簽平滑(減少過(guò)擬合)
目標(biāo)檢測(cè):
兩階段檢測(cè)模型:Faster R-CNN(先生成候選區(qū)域,再分類回歸)
優(yōu)勢(shì):檢測(cè)精度高,適用于對(duì)精度要求高的場(chǎng)景(如醫(yī)療影像病灶檢測(cè))
單階段檢測(cè)模型:YOLO(You Only Look Once,實(shí)時(shí)檢測(cè))、SSD(Single Shot MultiBox Detector)
優(yōu)勢(shì):速度快,適用于實(shí)時(shí)場(chǎng)景(如自動(dòng)駕駛、視頻監(jiān)控)
核心概念:錨框(Anchor Box)、非極大值抑制(NMS,去除重復(fù)檢測(cè)框)、交并比(IoU,衡量檢測(cè)框與真實(shí)框的重疊程度)
圖像分割:
語(yǔ)義分割:U-Net(醫(yī)學(xué)影像分割首選)、DeepLab(空洞卷積,提升感受野)
應(yīng)用:病灶分割、衛(wèi)星圖像土地分類、自動(dòng)駕駛道路分割
實(shí)例分割:Mask R-CNN(在 Faster R-CNN 基礎(chǔ)上添加分割分支)
應(yīng)用:目標(biāo)計(jì)數(shù)(如人群計(jì)數(shù)、細(xì)胞計(jì)數(shù))、精準(zhǔn)目標(biāo)分割(如工業(yè)零件缺陷分割)
圖像生成:
GAN(生成對(duì)抗網(wǎng)絡(luò)):DCGAN(深度卷積 GAN)、StyleGAN(生成高清人臉)
應(yīng)用:圖像修復(fù)、風(fēng)格遷移、虛擬樣本生成
Diffusion Model(擴(kuò)散模型):Stable Diffusion、DALL-E
應(yīng)用:文本生成圖像、圖像超分辨率、圖像編輯
自然語(yǔ)言處理(NLP)
文本分類與情感分析:
傳統(tǒng)模型:TF-IDF + SVM / 邏輯回歸(簡(jiǎn)單場(chǎng)景)
深度學(xué)習(xí)模型:CNN(捕捉局部特征)、LSTM(捕捉時(shí)序特征)、BERT(預(yù)訓(xùn)練語(yǔ)言模型,捕捉上下文依賴)
應(yīng)用場(chǎng)景:輿情分析、垃圾郵件識(shí)別、商品評(píng)論情感分類
命名實(shí)體識(shí)別(NER):
核心模型:BiLSTM-CRF(雙向 LSTM 捕捉上下文,CRF 優(yōu)化標(biāo)簽序列)、BERT-CRF(預(yù)訓(xùn)練模型提升精度)
應(yīng)用場(chǎng)景:信息抽?。ㄈ绯槿⌒侣勚械娜嗣?、地名、機(jī)構(gòu)名)、智能問(wèn)答、知識(shí)圖譜構(gòu)建
機(jī)器翻譯:
核心模型:Transformer(Encoder-Decoder 結(jié)構(gòu),替代傳統(tǒng) RNN)、mBART(多語(yǔ)言翻譯)
應(yīng)用場(chǎng)景:跨語(yǔ)言溝通(如 Google Translate、百度翻譯)、文檔本地化
大語(yǔ)言模型(LLM):
生成式模型:GPT 系列(自回歸生成,適用于文本生成、對(duì)話)、LLaMA(Meta 開(kāi)源模型)、ChatGLM(中文優(yōu)化模型)
核心技術(shù):預(yù)訓(xùn)練(無(wú)監(jiān)督學(xué)習(xí)海量文本)、微調(diào)(SFT,監(jiān)督微調(diào))、RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí),提升對(duì)話質(zhì)量)
應(yīng)用場(chǎng)景:智能客服、內(nèi)容創(chuàng)作、代碼生成、問(wèn)答系統(tǒng)
推薦系統(tǒng)
傳統(tǒng)推薦模型:
協(xié)同過(guò)濾:基于用戶的 CF(User-Based CF)、基于物品的 CF(Item-Based CF)
矩陣分解:SVD、ALS(交替最小二乘法,適用于大規(guī)模數(shù)據(jù))
應(yīng)用場(chǎng)景:電商商品推薦、視頻推薦(如早期 Netflix)
深度學(xué)習(xí)推薦模型:
神經(jīng)協(xié)同過(guò)濾(NCF):融合 MF(矩陣分解)和神經(jīng)網(wǎng)絡(luò),捕捉非線性交互
DeepFM(深度因子分解機(jī)):自動(dòng)捕捉低階和高階特征交互,無(wú)需手動(dòng)構(gòu)造特征
序列推薦模型:GRU4Rec(基于 GRU)、SASRec(基于自注意力機(jī)制),捕捉用戶行為序列依賴
應(yīng)用場(chǎng)景:短視頻推薦(如抖音、快手)、信息流推薦(如微信公眾號(hào)、今日頭條)
-
算法
+關(guān)注
關(guān)注
23文章
4810瀏覽量
98603 -
人工智能
+關(guān)注
關(guān)注
1821文章
50366瀏覽量
267046 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
67文章
8567瀏覽量
137252 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5610瀏覽量
124652 -
AI大模型
+關(guān)注
關(guān)注
0文章
410瀏覽量
1045
發(fā)布評(píng)論請(qǐng)先 登錄
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)
AI大模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課
【免費(fèi)直播】AI芯片專家陳小柏博士,帶你解析AI算法及其芯片操作系統(tǒng)。
史上最全AI人工智能入門(mén)+進(jìn)階學(xué)習(xí)視頻全集(200G)【免費(fèi)領(lǐng)取】
深度學(xué)習(xí)推理和計(jì)算-通用AI核心
深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)
深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)
數(shù)據(jù)結(jié)構(gòu)預(yù)算法核心知識(shí)點(diǎn)總結(jié)概述
嵌入式開(kāi)發(fā)中會(huì)用到哪些核心知識(shí)
掌握EMC核心知識(shí)——7天倒計(jì)時(shí)!
AI 算法核心知識(shí)清單(深度實(shí)戰(zhàn)版1)
AI 算法核心知識(shí)清單(深度實(shí)戰(zhàn)版2)
AI算法核心知識(shí)清單(深度實(shí)戰(zhàn)版3)
評(píng)論