日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI 算法核心知識清單(深度實戰(zhàn)版2)

華清遠(yuǎn)見工控 ? 2026-04-24 11:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

三、機(jī)器學(xué)習(xí)核心算法(入門到實戰(zhàn))?

1. 監(jiān)督學(xué)習(xí)算法(已知標(biāo)簽的模型訓(xùn)練)?

線性模型?

  • 線性回歸(回歸任務(wù)):?
  • 核心原理:假設(shè) y = w? + w?x? + w?x? + ... + w?x? + ε(ε 為誤差項),通過最小化均方誤差(MSE=Σ(y_i - ?_i)2/n)求解參數(shù) w?
  • 求解方法:?
  • 最小二乘法(閉式解):w = (X^T X)?1 X^T y(適用于特征數(shù)少、樣本數(shù)適中的情況)?
  • 梯度下降法(迭代解):適用于高維數(shù)據(jù)(特征數(shù)多),避免矩陣求逆的高復(fù)雜度?
  • 優(yōu)缺點:?
  • 優(yōu)點:模型簡單、可解釋性強(權(quán)重 w 表示特征重要性)、訓(xùn)練速度快?
  • 缺點:只能捕捉線性關(guān)系,對非線性數(shù)據(jù)擬合效果差?
  • 實戰(zhàn)技巧:特征標(biāo)準(zhǔn)化后訓(xùn)練(避免不同量綱影響參數(shù)),用正則化(Ridge/Lasso)防止過擬合?
  • 邏輯回歸(分類任務(wù)):?
  • 核心原理:將線性回歸的輸出通過 Sigmoid 函數(shù)映射到 [0,1] 區(qū)間,作為分類概率,Sigmoid 函數(shù):σ(z)=1/(1+e^(-z)),z=w^T X + b?
  • 損失函數(shù):交叉熵?fù)p失(Binary Cross-Entropy),L = -Σ(y_i logσ(z_i) + (1-y_i) log (1-σ(z_i)))?
  • 求解方法:梯度下降法(批量梯度下降 BGD、隨機(jī)梯度下降 SGD、小批量梯度下降 MBGD)?
  • 優(yōu)缺點:?
  • 優(yōu)點:可解釋性強(概率輸出)、訓(xùn)練快、適合二分類任務(wù)?
  • 缺點:對非線性數(shù)據(jù)需手動構(gòu)造特征,多分類需用 One-vs-Rest/One-vs-One 策略?
  • 實戰(zhàn)技巧:處理類別不平衡(用 class_weight 參數(shù)或 SMOTE 過采樣),調(diào)整正則化強度(C 參數(shù),C 越小正則化越強)?

樹模型?

  • 決策樹:?
  • 核心原理:基于特征的閾值劃分?jǐn)?shù)據(jù)集,構(gòu)建樹形結(jié)構(gòu)(根節(jié)點→內(nèi)部節(jié)點→葉節(jié)點),葉節(jié)點為預(yù)測結(jié)果?
  • 劃分準(zhǔn)則:?
  • ID3:信息增益(最大化劃分后信息熵的減少量)?
  • C4.5:信息增益比(解決信息增益偏向多值特征的問題)?
  • CART:Gini 系數(shù)(衡量節(jié)點純度,Gini=1-Σp_i2,p_i 為節(jié)點中第 i 類樣本的比例)?
  • 剪枝策略(防止過擬合):?
  • 預(yù)剪枝:限制樹的深度、最小樣本分裂數(shù)、最小樣本葉節(jié)點數(shù)?
  • 后剪枝:先構(gòu)建完整樹,再刪除對模型性能無提升的分支?
  • 優(yōu)缺點:?
  • 優(yōu)點:可解釋性強(可視化樹結(jié)構(gòu))、無需特征標(biāo)準(zhǔn)化、能捕捉非線性關(guān)系?
  • 缺點:容易過擬合(單棵樹泛化能力差)、對噪聲數(shù)據(jù)敏感?
  • 隨機(jī)森林(集成樹模型):?
  • 核心原理:基于 Bagging(bootstrap aggregation)策略,構(gòu)建多棵決策樹,最終預(yù)測結(jié)果為多棵樹的投票(分類)或平均(回歸)?
  • 隨機(jī)性體現(xiàn):?
  • 樣本隨機(jī):每棵樹用 bootstrap 采樣(有放回抽樣)得到的樣本訓(xùn)練?
  • 特征隨機(jī):每棵樹分裂時,從所有特征中隨機(jī)選擇部分特征(如 sqrt (n_features))作為候選劃分特征?
  • 優(yōu)缺點:?
  • 優(yōu)點:泛化能力強(降低過擬合風(fēng)險)、魯棒性好(對噪聲不敏感)、能處理高維數(shù)據(jù)?
  • 缺點:可解釋性差(黑盒模型)、訓(xùn)練速度比單棵決策樹慢?
  • 實戰(zhàn)參數(shù)調(diào)優(yōu):?
  • n_estimators:樹的數(shù)量(越多越好,但需平衡訓(xùn)練時間)?
  • max_depth:樹的深度(避免過深)?
  • min_samples_split:節(jié)點分裂的最小樣本數(shù)(默認(rèn) 2)?
  • max_features:每棵樹使用的最大特征數(shù)(分類任務(wù)默認(rèn) sqrt (n_features))?
  • XGBoost/LightGBM(梯度提升樹):?
  • 核心原理:基于 Boosting 策略,串行構(gòu)建多棵樹,每棵樹擬合前序模型的殘差(梯度下降方向),最終模型為多棵樹的加權(quán)和?
  • 核心優(yōu)化:?
  • XGBoost:正則化(L1/L2 正則)、缺失值自動處理、并行計算(特征并行)、樹結(jié)構(gòu)剪枝?
  • LightGBM:基于直方圖的分裂策略(提高訓(xùn)練速度)、梯度單邊采樣(GOSS)、互斥特征捆綁(EFB)(降低內(nèi)存占用)?
  • 優(yōu)缺點:?
  • 優(yōu)點:預(yù)測精度高(競賽常用模型)、處理非線性數(shù)據(jù)能力強、支持分類 / 回歸 / 排序任務(wù)?
  • 缺點:對超參數(shù)敏感(需仔細(xì)調(diào)優(yōu))、易過擬合(需控制樹的復(fù)雜度)?
  • 實戰(zhàn)參數(shù)調(diào)優(yōu):?
  • learning_rate(學(xué)習(xí)率):0.01~0.1(越小需越多樹)?
  • max_depth:3~10(避免過深)?
  • subsample/colsample_bytree:樣本 / 特征采樣比例(0.5~1.0,防止過擬合)?
  • reg_alpha/reg_lambda:L1/L2 正則系數(shù)(增大可防止過擬合)?

核方法:支持向量機(jī)(SVM)?

  • 核心原理:找到一個超平面,使兩類樣本的間隔最大化(硬間隔 SVM),對于非線性數(shù)據(jù),通過核函數(shù)映射到高維特征空間,再找線性超平面?
  • 核函數(shù)選擇:?
  • 線性核(Linear Kernel):k (x1,x2)=x1^T x2,適用于線性可分?jǐn)?shù)據(jù)?
  • 高斯核(RBF Kernel):k (x1,x2)=e^(-γ||x1-x2||2),適用于非線性數(shù)據(jù)(γ 越大,模型越復(fù)雜)?
  • 多項式核:k (x1,x2)=(x1^T x2 + c)^d,d 為多項式次數(shù)?
  • 軟間隔 SVM:引入松弛變量 ξ,允許部分樣本越界,平衡間隔與分類錯誤,目標(biāo)函數(shù):min (1/2)||w||2 + CΣξ_i(C 為懲罰系數(shù),C 越大對錯誤樣本懲罰越重)?
  • 優(yōu)缺點:?
  • 優(yōu)點:泛化能力強(基于間隔最大化)、適合高維數(shù)據(jù)(特征數(shù)多)、對小樣本數(shù)據(jù)效果好?
  • 缺點:訓(xùn)練速度慢(不適用于大規(guī)模數(shù)據(jù))、可解釋性差、對核函數(shù)和參數(shù)敏感?
  • 實戰(zhàn)技巧:數(shù)據(jù)標(biāo)準(zhǔn)化(SVM 對量綱敏感)、用交叉驗證選擇核函數(shù)和 C/γ 參數(shù)、處理類別不平衡(調(diào)整 class_weight)?

集成學(xué)習(xí)策略?

  • Bagging:?
  • 核心思想:并行訓(xùn)練多棵獨立模型,通過投票 / 平均降低方差(防止過擬合),代表模型:隨機(jī)森林?
  • 關(guān)鍵步驟:bootstrap 采樣(有放回抽樣)、模型獨立訓(xùn)練、結(jié)果融合?
  • Boosting:?
  • 核心思想:串行訓(xùn)練多棵弱模型,每棵模型聚焦前序模型的錯誤樣本(調(diào)整樣本權(quán)重),通過加權(quán)和提升模型性能,代表模型:AdaBoost、XGBoost、LightGBM?
  • 關(guān)鍵步驟:初始化樣本權(quán)重、訓(xùn)練弱模型、計算模型權(quán)重(錯誤率越低權(quán)重越高)、更新樣本權(quán)重(錯誤樣本權(quán)重增大)?
  • Stacking:?
  • 核心思想:用多個基礎(chǔ)模型的預(yù)測結(jié)果作為新特征,訓(xùn)練一個元模型(如邏輯回歸、線性回歸),輸出最終預(yù)測結(jié)果?
  • 關(guān)鍵步驟:?
  1. 將數(shù)據(jù)集劃分為訓(xùn)練集和驗證集?
  2. 訓(xùn)練多個基礎(chǔ)模型(如隨機(jī)森林、XGBoost、SVM),用驗證集得到預(yù)測結(jié)果?
  3. 將訓(xùn)練集的基礎(chǔ)模型預(yù)測結(jié)果拼接成新特征,訓(xùn)練元模型?
  4. 用元模型對測試集的基礎(chǔ)模型預(yù)測結(jié)果進(jìn)行預(yù)測?

2. 無監(jiān)督學(xué)習(xí)算法(未知標(biāo)簽的模型訓(xùn)練)?

聚類算法?

  • K-Means:?
  • 核心原理:將 n 個樣本劃分為 k 個簇,使簇內(nèi)樣本相似度高、簇間樣本相似度低(基于歐氏距離)?
  • 算法步驟:?
  1. 隨機(jī)選擇 k 個樣本作為初始聚類中心?
  2. 計算每個樣本到各聚類中心的距離,將樣本分配到最近的簇?
  3. 重新計算每個簇的均值(新聚類中心)?
  4. 重復(fù)步驟 2-3,直到聚類中心不再變化或達(dá)到最大迭代次數(shù)?
  • 聚類效果評估:?
  • 內(nèi)部指標(biāo):輪廓系數(shù)(Silhouette Coefficient),取值范圍 [-1,1],越接近 1 聚類效果越好?
  • 外部指標(biāo):調(diào)整蘭德指數(shù)(ARI)、互信息(NMI),適用于有真實標(biāo)簽的情況?
  • 優(yōu)缺點:?
  • 優(yōu)點:算法簡單、訓(xùn)練速度快、適用于大規(guī)模數(shù)據(jù)?
  • 缺點:需提前指定 k 值、對初始聚類中心敏感、對非球形簇聚類效果差?
  • 實戰(zhàn)技巧:用肘部法則(Elbow Method)選擇 k 值(繪制簇內(nèi)平方和隨 k 的變化曲線,拐點處為最優(yōu) k)、對數(shù)據(jù)標(biāo)準(zhǔn)化(避免量綱影響距離計算)?
  • DBSCAN(密度聚類):?
  • 核心原理:基于樣本的密度(ε 鄰域內(nèi)的樣本數(shù))劃分簇,無需提前指定 k 值?
  • 核心參數(shù):?
  • ε(epsilon):鄰域半徑?
  • MinPts:ε 鄰域內(nèi)的最小樣本數(shù)(核心點的閾值)?
  • 樣本分類:?
  • 核心點:ε 鄰域內(nèi)樣本數(shù)≥MinPts?
  • 邊界點:ε 鄰域內(nèi)樣本數(shù),但在核心點的鄰域內(nèi)?
  • 噪聲點:既不是核心點也不是邊界點?
  • 優(yōu)缺點:?
  • 優(yōu)點:無需指定 k 值、能發(fā)現(xiàn)任意形狀的簇、能識別噪聲點?
  • 缺點:對 ε 和 MinPts 參數(shù)敏感、高維數(shù)據(jù)中距離計算不準(zhǔn)確(聚類效果差)?
  • 實戰(zhàn)技巧:用 K 距離圖選擇 ε(繪制樣本到第 k 個最近鄰的距離曲線,拐點處為最優(yōu) ε)、對高維數(shù)據(jù)先降維再聚類?
  • 層次聚類:?
  • 核心原理:構(gòu)建聚類樹(樹狀圖),通過合并或分裂簇逐步形成最終聚類結(jié)果?
  • 聚類策略:?
  • 凝聚式(自底向上):初始每個樣本為一個簇,逐步合并相似度最高的簇?
  • 分裂式(自頂向下):初始所有樣本為一個簇,逐步分裂差異最大的簇?
  • 相似度計算:?
  • 單鏈接(最小距離):兩個簇中最近樣本的距離?
  • 全鏈接(最大距離):兩個簇中最遠(yuǎn)樣本的距離?
  • 平均鏈接(平均距離):兩個簇中所有樣本對的平均距離?
  • 優(yōu)缺點:?
  • 優(yōu)點:無需指定 k 值、能可視化聚類過程(樹狀圖)?
  • 缺點:訓(xùn)練速度慢(時間復(fù)雜度 O (n3))、不適用于大規(guī)模數(shù)據(jù)?
  • 實戰(zhàn)技巧:用樹狀圖確定 k 值(橫向切割樹狀圖,得到 k 個簇)、對小樣本數(shù)據(jù)效果更佳?

降維算法?

  • PCA(主成分分析):?
  • 核心原理:通過線性變換將高維數(shù)據(jù)映射到低維空間,保留數(shù)據(jù)的主要信息(方差最大的方向)?
  • 算法步驟:?
  1. 對數(shù)據(jù)標(biāo)準(zhǔn)化(均值為 0,方差為 1)?
  2. 計算數(shù)據(jù)的協(xié)方差矩陣?
  3. 對協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和特征向量?
  4. 選擇特征值最大的前 k 個特征向量,組成投影矩陣?
  5. 將原始數(shù)據(jù)乘以投影矩陣,得到低維數(shù)據(jù)?
  • 降維效果評估:解釋方差比例(每個主成分的特征值占總特征值的比例,累計比例≥80% 為宜)?
  • 優(yōu)缺點:?
  • 優(yōu)點:降維速度快、無參數(shù)需要調(diào)整、能去除數(shù)據(jù)冗余?
  • 缺點:線性降維(無法捕捉非線性關(guān)系)、對異常值敏感?
  • 實戰(zhàn)技巧:降維前必須標(biāo)準(zhǔn)化數(shù)據(jù)、用累計解釋方差比例確定 k 值?
  • t-SNE(t 分布隨機(jī)鄰域嵌入):?
  • 核心原理:基于概率分布的非線性降維算法,在高維空間中用高斯分布描述樣本間的相似度,在低維空間中用 t 分布描述,通過最小化 KL 散度使兩個分布盡可能接近?
  • 核心參數(shù):?
  • n_components:降維后的維度(通常為 2 或 3,用于可視化)?
  • perplexity:困惑度(反映近鄰樣本的數(shù)量,通常取 5~50)?
  • 優(yōu)缺點:?
  • 優(yōu)點:能有效捕捉高維數(shù)據(jù)的非線性結(jié)構(gòu)、可視化效果好(適合高維數(shù)據(jù)聚類結(jié)果展示)?
  • 缺點:訓(xùn)練速度慢(不適用于大規(guī)模數(shù)據(jù))、對參數(shù) perplexity 敏感、不適合用于后續(xù)建模(僅用于可視化)?
  • 實戰(zhàn)技巧:先用水 PCA 降維到 50 維,再用 t-SNE 降維到 2/3 維(提高速度)、調(diào)整 perplexity 觀察可視化效果?
  • LDA(線性判別分析):?
  • 核心原理:監(jiān)督式降維算法,通過線性變換使降維后的數(shù)據(jù)滿足 “類內(nèi)方差最小、類間方差最大”,保留有利于分類的信息?
  • 算法步驟:?
  1. 計算各類樣本的均值向量?
  2. 計算類內(nèi)散度矩陣 S_w 和類間散度矩陣 S_b?
  3. 求解 S_w?1 S_b 的特征值和特征向量,選擇特征值最大的前 k 個特征向量組成投影矩陣?
  4. 將原始數(shù)據(jù)乘以投影矩陣,得到低維數(shù)據(jù)?
  • 與 PCA 的區(qū)別:PCA 是無監(jiān)督(不考慮標(biāo)簽),LDA 是有監(jiān)督(利用標(biāo)簽信息)?
  • 優(yōu)缺點:?
  • 優(yōu)點:降維后的數(shù)據(jù)更適合分類任務(wù)、能提高模型訓(xùn)練速度?
  • 缺點:線性降維、對多分類任務(wù)計算復(fù)雜?
  • 實戰(zhàn)技巧:適用于分類任務(wù)的預(yù)處理步驟、降維后的維度 k≤類別數(shù) - 1?

關(guān)聯(lián)規(guī)則:Apriori 算法與 FP-Growth 算法?

  • 核心概念:?
  • 頻繁項集:支持度≥最小支持度(min_support)的項集(項集是多個物品的集合)?
  • 支持度:項集在所有交易中出現(xiàn)的比例(如 {牛奶,面包} 的支持度 = 包含兩者的交易數(shù) / 總交易數(shù))?
  • 置信度:關(guān)聯(lián)規(guī)則 A→B 的置信度 = 支持度 (A∪B)/ 支持度 (A)(反映 A 發(fā)生時 B 發(fā)生的概率)?
  • 提升度:關(guān)聯(lián)規(guī)則 A→B 的提升度 = 置信度 (A→B)/ 支持度 (B)(提升度 > 1 表示 A 促進(jìn) B 發(fā)生,=1 表示無關(guān))?
  • Apriori 算法:?
  • 核心原理:基于 “頻繁項集的子集也是頻繁項集” 的先驗性質(zhì),通過逐層掃描交易數(shù)據(jù),生成候選頻繁項集并篩選?
  • 算法步驟:?
  1. 掃描數(shù)據(jù),生成 1 - 項集(單個物品的集合),篩選支持度≥min_support 的 1 - 頻繁項集?
  2. 由 k - 頻繁項集生成 (k+1)- 候選項集(連接操作)?
  3. 剪枝操作(刪除包含非頻繁子集的候選項集)?
  4. 掃描數(shù)據(jù),篩選 (k+1)- 候選項集中支持度≥min_support 的 (k+1)- 頻繁項集?
  5. 重復(fù)步驟 2-4,直到無法生成新的頻繁項集?
  • 優(yōu)缺點:?
  • 優(yōu)點:思路簡單、易于實現(xiàn)?
  • 缺點:多次掃描數(shù)據(jù)(效率低)、生成大量候選項集(內(nèi)存占用大)?
  • FP-Growth 算法:?
  • 核心原理:通過構(gòu)建 FP 樹(頻繁模式樹),將交易數(shù)據(jù)壓縮存儲,無需生成候選項集,直接從 FP 樹中挖掘頻繁項集?
  • 算法步驟:?
  1. 掃描數(shù)據(jù),統(tǒng)計各項的支持度,篩選頻繁項并按支持度降序排序?
  2. 構(gòu)建 FP 樹:逐筆處理交易,將交易中的頻繁項按排序后的順序插入 FP 樹,記錄項的計數(shù)?
  3. 從 FP 樹中挖掘頻繁項集:對每個頻繁項,構(gòu)建條件 FP 樹,遞歸挖掘條件頻繁項集?
  • 優(yōu)缺點:?
  • 優(yōu)點:僅掃描數(shù)據(jù)兩次(效率高)、無需生成候選項集(內(nèi)存占用?。?
  • 缺點:構(gòu)建 FP 樹的復(fù)雜度較高、對高維數(shù)據(jù)適應(yīng)性一般?
  • 實戰(zhàn)場景:購物籃分析(如超市商品關(guān)聯(lián)推薦)、用戶行為分析(如視頻觀看序列關(guān)聯(lián))?

3. 半監(jiān)督與強化學(xué)習(xí)?

半監(jiān)督學(xué)習(xí)?

  • 核心概念:利用少量有標(biāo)簽樣本和大量無標(biāo)簽樣本訓(xùn)練模型,解決 “標(biāo)簽獲取成本高” 的問題,適用于標(biāo)簽稀缺場景(如醫(yī)療影像診斷、自然語言處理)?
  • 常用算法:?
  • 自訓(xùn)練法(Self-Training):?
  1. 用少量有標(biāo)簽樣本訓(xùn)練初始模型?
  2. 用初始模型預(yù)測無標(biāo)簽樣本,選擇置信度最高的部分樣本(如置信度≥0.9),將其預(yù)測結(jié)果作為偽標(biāo)簽,加入有標(biāo)簽樣本集?
  3. 用新的有標(biāo)簽樣本集重新訓(xùn)練模型,重復(fù)步驟 2-3,直到無標(biāo)簽樣本耗盡或模型性能收斂?
  • 協(xié)同訓(xùn)練法(Co-Training):?
  1. 將特征集劃分為兩個獨立的視圖(如文本數(shù)據(jù)的 “詞袋特征” 和 “詞性特征”)?
  2. 基于兩個視圖分別訓(xùn)練兩個模型?
  3. 每個模型預(yù)測無標(biāo)簽樣本,選擇置信度高的樣本作為偽標(biāo)簽,交叉添加到對方的有標(biāo)簽樣本集?
  4. 重復(fù)訓(xùn)練和偽標(biāo)簽添加,直到模型性能收斂?
  • 生成式半監(jiān)督模型(如高斯混合模型 GMM):?
  1. 假設(shè)數(shù)據(jù)服從混合高斯分布,有標(biāo)簽樣本和無標(biāo)簽樣本來自同一分布?
  2. 用 EM 算法(期望最大化算法)估計分布參數(shù)(均值、方差、混合系數(shù))?
  3. 基于估計的分布,預(yù)測無標(biāo)簽樣本的標(biāo)簽?
  • 實戰(zhàn)注意事項:?
  • 偽標(biāo)簽的質(zhì)量至關(guān)重要(避免將錯誤標(biāo)簽加入訓(xùn)練集),需設(shè)置較高的置信度閾值?
  • 特征視圖的獨立性(協(xié)同訓(xùn)練法)是算法有效的關(guān)鍵?
  • 適用于 “聚類假設(shè)” 或 “流形假設(shè)” 成立的數(shù)據(jù)(聚類假設(shè):同一簇的樣本標(biāo)簽相同;流形假設(shè):高維數(shù)據(jù)位于低維流形上,鄰近樣本標(biāo)簽相同)?

強化學(xué)習(xí)?

  • 核心概念:智能體(Agent)通過與環(huán)境(Environment)交互,學(xué)習(xí)最優(yōu)行為策略(Policy),使累積獎勵(Reward)最大化,適用于序列決策場景(如游戲、機(jī)器人控制、推薦系統(tǒng))?
  • 核心要素:?
  • 狀態(tài)(State, S):環(huán)境的當(dāng)前狀態(tài)(如游戲畫面、機(jī)器人位置)?
  • 動作(Action, A):智能體可執(zhí)行的動作(如游戲中的上下左右、機(jī)器人的移動)?
  • 獎勵(Reward, R):環(huán)境對智能體動作的反饋(如游戲得分、碰撞懲罰)?
  • 策略(Policy, π):狀態(tài)到動作的映射(如 π(a|s) 表示狀態(tài) s 下選擇動作 a 的概率)?
  • 價值函數(shù)(Value Function, V (s)):狀態(tài) s 的長期價值(從 s 出發(fā)的累積獎勵期望)?
  • Q 函數(shù)(Action-Value Function, Q (s,a)):狀態(tài) s 下執(zhí)行動作 a 的長期價值?
  • 常用算法:?
  • 基于價值的算法:?
  • Q-Learning:離線策略(Off-Policy)算法,更新公式:Q (s,a) = Q (s,a) + α[r + γ max_a’ Q (s’,a’) - Q (s,a)](α 為學(xué)習(xí)率,γ 為折扣因子)?
  • SARSA:在線策略(On-Policy)算法,更新公式:Q (s,a) = Q (s,a) + α[r + γ Q (s’,a’) - Q (s,a)](a’為實際執(zhí)行的下一個動作)?
  • 基于策略的算法:?
  • 策略梯度(Policy Gradient):直接優(yōu)化策略 π,目標(biāo)函數(shù)為累積獎勵期望,通過梯度上升最大化目標(biāo)函數(shù)?
  • 演員 - 評論家(Actor-Critic):結(jié)合價值函數(shù)(評論家)和策略函數(shù)(演員),演員負(fù)責(zé)選擇動作,評論家負(fù)責(zé)評估動作價值,指導(dǎo)演員更新策略?
  • 深度強化學(xué)習(xí):?
  • DQN(深度 Q 網(wǎng)絡(luò)):用神經(jīng)網(wǎng)絡(luò)替代 Q 表,解決高維狀態(tài)空間問題,核心技術(shù):經(jīng)驗回放(Experience Replay)、目標(biāo)網(wǎng)絡(luò)(Target Network)?
  • DDPG(深度確定性策略梯度):適用于連續(xù)動作空間(如機(jī)器人關(guān)節(jié)控制)?
  • 實戰(zhàn)流程:?
  1. 定義狀態(tài)、動作、獎勵函數(shù)(根據(jù)具體任務(wù)設(shè)計)?
  2. 構(gòu)建強化學(xué)習(xí)環(huán)境(如用 OpenAI Gym 提供的標(biāo)準(zhǔn)環(huán)境,或自定義環(huán)境)?
  3. 選擇合適的算法(離散動作選 DQN,連續(xù)動作選 DDPG)?
  4. 訓(xùn)練模型:調(diào)整超參數(shù)(學(xué)習(xí)率 α、折扣因子 γ、經(jīng)驗回放緩沖區(qū)大?。?
  5. 評估模型:測試集上計算平均累積獎勵,驗證策略有效性
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41305

    瀏覽量

    302687
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50366

    瀏覽量

    267046
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    67

    文章

    8567

    瀏覽量

    137253
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124652
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    410

    瀏覽量

    1045
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI Agent 應(yīng)用與項目實戰(zhàn)》----- 學(xué)習(xí)如何開發(fā)視頻應(yīng)用

    再次感謝發(fā)燒友提供的閱讀體驗活動。本期跟隨《AI Agent 應(yīng)用與項目實戰(zhàn)》這本書學(xué)習(xí)如何構(gòu)建開發(fā)一個視頻應(yīng)用。AI Agent是一種智能應(yīng)用,能夠根據(jù)用戶需求和環(huán)境變化做出相應(yīng)響應(yīng)。通?;?/div>
    發(fā)表于 03-05 19:52

    AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識

    技術(shù)不僅解決了LLM的知識更新問題,更為構(gòu)建專業(yè)領(lǐng)域的智能問答系統(tǒng)提供了完整的技術(shù)方案。通過與向量數(shù)據(jù)庫的深度集成,RAG實現(xiàn)了知識的動態(tài)擴(kuò)展和精準(zhǔn)檢索,這種架構(gòu)設(shè)計為AI系統(tǒng)的持續(xù)進(jìn)
    發(fā)表于 03-07 19:49

    AI大模型微調(diào)企業(yè)項目實戰(zhàn)

    實戰(zhàn)通常遵循嚴(yán)密的“三步走”戰(zhàn)略: 第一步:數(shù)據(jù)煉金——高質(zhì)量SFT數(shù)據(jù)的構(gòu)建 在微調(diào)領(lǐng)域,“垃圾進(jìn),垃圾出”是鐵律。實戰(zhàn)課的核心首先是教企業(yè)如何“洗數(shù)據(jù)”。這包括從內(nèi)部ERP、OA系統(tǒng)、知識
    發(fā)表于 04-16 18:48

    【免費直播】AI芯片專家陳小柏博士,帶你解析AI算法及其芯片操作系統(tǒng)。

    仿真的優(yōu)勢?3、國產(chǎn)AI芯片如何突圍,和傳統(tǒng)SOC設(shè)計上設(shè)計差別?4、為什么選擇ZYNQ做AI 深度學(xué)習(xí)?目錄(主要大綱):1、AI應(yīng)用場景介紹(人臉識別,物體識別/分類)
    發(fā)表于 11-07 14:03

    史上最全AI人工智能入門+進(jìn)階學(xué)習(xí)視頻全集(200G)【免費領(lǐng)取】

    、神經(jīng)系統(tǒng)網(wǎng)絡(luò)與深度學(xué)習(xí),AI場景應(yīng)用和項目實戰(zhàn)知識,活動期間,小編為大家精心準(zhǔn)備了一份AI人工智能入門學(xué)習(xí)資料,超過200G+經(jīng)典的入門
    發(fā)表于 11-27 12:10

    深度學(xué)習(xí)推理和計算-通用AI核心

    摘要與深度學(xué)習(xí)算法的進(jìn)步超越硬件的進(jìn)步,你如何確保算法明天是一個很好的適合現(xiàn)有的人工智能芯片下發(fā)展?,這些人工智能芯片大多是為今天的人工智能算法算法
    發(fā)表于 11-01 09:28

    深度學(xué)習(xí)DeepLearning實戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強化學(xué)習(xí)核心技術(shù)實戰(zhàn)時間地點: 1 月 27 日—
    發(fā)表于 01-09 17:01

    深度強化學(xué)習(xí)實戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強化學(xué)習(xí)核心技術(shù)實戰(zhàn)時間地點: 1 月 27 日—
    發(fā)表于 01-10 13:42

    數(shù)據(jù)結(jié)構(gòu)預(yù)算法核心知識點總結(jié)概述

    數(shù)據(jù)結(jié)構(gòu)預(yù)算法核心知識點總結(jié)概述最近有看一些大佬的專欄,受益匪淺。深刻的覺察到我們要想成為一個偉大的程序員,或者說小一點,成為一個厲害的程序員,基礎(chǔ)知識核心競爭力也是我們不斷向上提升
    發(fā)表于 12-21 08:00

    嵌入式開發(fā)中會用到哪些核心知識

    、什么是嵌入式、嵌入式系統(tǒng)的技術(shù)特征、三次信息化浪潮、嵌入式技術(shù)的主要發(fā)展方向和主流產(chǎn)品。2、什么人適合學(xué)習(xí)嵌入式本節(jié)主要講述嵌入式開發(fā)中會用到哪些核心知識,需要哪些核心技能,嵌入式開發(fā)和Android應(yīng)用、微信定制開發(fā)等純應(yīng)用
    發(fā)表于 12-24 07:39

    IIC的核心知識點匯總,絕對實用

    IIC的核心知識點匯總,絕對實用
    發(fā)表于 01-24 06:14

    掌握EMC核心知識——7天倒計時!

    賽盛技術(shù)第九期“EMC實戰(zhàn)特訓(xùn)營“開課倒計時7天”!本期課特訓(xùn)營將于12月18日正式開課,課程涵蓋電磁兼容(EMC)領(lǐng)域的核心知識。四位資深講師主講,團(tuán)隊經(jīng)驗累計超過70年,并結(jié)合賽盛技術(shù)公司19年
    的頭像 發(fā)表于 12-11 09:40 ?1092次閱讀
    掌握EMC<b class='flag-5'>核心知識</b>——7天倒計時!

    AI 算法核心知識清單深度實戰(zhàn)版1)

    ?一、基礎(chǔ)數(shù)學(xué)功底(算法的底層基石)?1.線性代數(shù)(AI數(shù)據(jù)處理與模型計算核心)?核心概念深度解析?向量:n維有序數(shù)組,是
    的頭像 發(fā)表于 04-24 11:16 ?130次閱讀
    <b class='flag-5'>AI</b> <b class='flag-5'>算法</b><b class='flag-5'>核心知識</b><b class='flag-5'>清單</b>(<b class='flag-5'>深度</b><b class='flag-5'>實戰(zhàn)</b>版1)

    AI算法核心知識清單深度實戰(zhàn)版3)

    四、深度學(xué)習(xí)核心知識(進(jìn)階必備)1.模型訓(xùn)練關(guān)鍵技術(shù)(深度學(xué)習(xí)實戰(zhàn)核心)損失函數(shù)(模型優(yōu)化目標(biāo))分類任務(wù)損失函數(shù)(續(xù)):稀疏多分類交叉熵?fù)p失
    的頭像 發(fā)表于 04-29 17:18 ?635次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>算法</b><b class='flag-5'>核心知識</b><b class='flag-5'>清單</b>(<b class='flag-5'>深度</b><b class='flag-5'>實戰(zhàn)</b>版3)

    AI算法核心知識清單深度實戰(zhàn)版4)

    五、AI算法工程化與實踐1.數(shù)據(jù)預(yù)處理全流程數(shù)據(jù)采集結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)庫查詢(SQL)、Excel/CSV文件讀取、API接口調(diào)用(如RESTfulAPI)非結(jié)構(gòu)化數(shù)據(jù):圖像數(shù)據(jù):爬蟲爬?。ㄈ?/div>
    的頭像 發(fā)表于 04-30 09:22 ?197次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>算法</b><b class='flag-5'>核心知識</b><b class='flag-5'>清單</b>(<b class='flag-5'>深度</b><b class='flag-5'>實戰(zhàn)</b>版4)
    德格县| 朝阳县| 乐昌市| 千阳县| 社会| 华蓥市| 景洪市| 屏东市| 财经| 庄浪县| 平安县| 阿勒泰市| 泾阳县| 油尖旺区| 邹城市| 清远市| 赣榆县| 衡南县| 灵璧县| 永清县| 巨野县| 库尔勒市| 巴林左旗| 新源县| 鄂温| 丽水市| 银川市| 大冶市| 康平县| 芷江| 日土县| 涪陵区| 三明市| 怀柔区| 柘荣县| 三亚市| 岐山县| 慈溪市| 汕头市| 宜春市| 长沙市|