美女黄色片三级99,国产精品久久精品视

大模型時代，模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過稀疏神經(jīng)網(wǎng)絡(luò)實現(xiàn)模型壓縮和加速，那么同樣需要大量計算開銷的強化學(xué)習(xí)任務(wù)可以基于稀疏網(wǎng)絡(luò)進行訓(xùn)練嗎？本文提出了一種強化學(xué)習(xí)專用稀疏訓(xùn)練框架，可以節(jié)省至多 95% 的訓(xùn)練開銷。

深度強化學(xué)習(xí)模型的訓(xùn)練通常需要很高的計算成本，因此對深度強化學(xué)習(xí)模型進行稀疏化處理具有加快訓(xùn)練速度和拓展模型部署的巨大潛力。然而現(xiàn)有的生成小型模型的方法主要基于知識蒸餾，即通過迭代訓(xùn)練稠密網(wǎng)絡(luò)，訓(xùn)練過程仍需要大量的計算資源。另外，由于強化學(xué)習(xí)自舉訓(xùn)練的復(fù)雜性，訓(xùn)練過程中全程進行稀疏訓(xùn)練在深度強化學(xué)習(xí)領(lǐng)域尚未得到充分的研究。清華大學(xué)黃隆波團隊提出了一種強化學(xué)習(xí)專用的動態(tài)稀疏訓(xùn)練框架，“Rigged Reinforcement Learning Lottery”（RLx2），可適用于多種離策略強化學(xué)習(xí)算法。它采用基于梯度的拓?fù)溲莼瓌t，能夠完全基于稀疏網(wǎng)絡(luò)訓(xùn)練稀疏深度強化學(xué)習(xí)模型。RLx2 引入了一種延遲多步差分目標(biāo)機制，配合動態(tài)容量的回放緩沖區(qū)，實現(xiàn)了在稀疏模型中的穩(wěn)健值學(xué)習(xí)和高效拓?fù)涮剿?。在多個 MuJoCo 基準(zhǔn)任務(wù)中，RLx2 達到了最先進的稀疏訓(xùn)練性能，顯示出 7.5 倍至 20 倍的模型壓縮，而僅有不到 3% 的性能降低，并且在訓(xùn)練和推理中分別減少了高達 20 倍和 50 倍的浮點運算數(shù)。

論文主頁：https://arxiv.org/abs/2205.15043
論文代碼：https://github.com/tyq1024/RLx2

背景在游戲、機器人技術(shù)等領(lǐng)域，深度強化學(xué)習(xí)（DRL）已經(jīng)取得了重要的應(yīng)用。然而，深度強化學(xué)習(xí)模型的訓(xùn)練需要巨大的計算資源。例如，DeepMind 開發(fā)的 AlphaGo-Zero 在圍棋游戲中擊敗了已有的圍棋 AI 和人類專家，但需要在四個 TPU 上進行 40 多天的訓(xùn)練。OpenAI-Five 是 OpenAI 開發(fā)的 Dota2 AI，同樣擊敗了人類半職業(yè) Dota 高手，但是需要高達 256 個 GPU 進行 180 天的訓(xùn)練。實際上，即使是簡單的 Rainbow DQN [Hessel et al. 2018] 算法，也需要在單個 GPU 上訓(xùn)練約一周時間才能達到較好的性能。

圖：基于強化學(xué)習(xí)的 AlphaGo-Zero 在圍棋游戲中擊敗了已有的圍棋 AI 和人類專家 高昂的資源消耗限制了深度強化學(xué)習(xí)在資源受限設(shè)備上的訓(xùn)練和部署。為了解決這一問題，作者引入了稀疏神經(jīng)網(wǎng)絡(luò)。稀疏神經(jīng)網(wǎng)絡(luò)最初在深度監(jiān)督學(xué)習(xí)中提出，展示出了對深度強化學(xué)習(xí)模型壓縮和訓(xùn)練加速的巨大潛力。在深度監(jiān)督學(xué)習(xí)中，SET [Mocanu et al. 2018] 和 RigL [Evci et al. 2020] 等常用的基于網(wǎng)絡(luò)結(jié)構(gòu)演化的動態(tài)稀疏訓(xùn)練（Dynamic sparse training - DST）框架可以從頭開始訓(xùn)練一個 90% 稀疏的神經(jīng)網(wǎng)絡(luò)，而不會出現(xiàn)性能下降。

圖：SET 和 RigL 等常用的稀疏訓(xùn)練框架會在訓(xùn)練的過程中周期性地調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 在深度強化學(xué)習(xí)領(lǐng)域，已有的工作已經(jīng)成功生成了極度稀疏的深度強化學(xué)習(xí)網(wǎng)絡(luò)。然而，他們的方法仍然需要迭代地訓(xùn)練稠密網(wǎng)絡(luò)，往往需要預(yù)訓(xùn)練的稠密模型作為基礎(chǔ)，導(dǎo)致深度強化學(xué)習(xí)的訓(xùn)練成本仍然過高，無法直接應(yīng)用于資源有限設(shè)備。

圖：迭代剪枝通過迭代地訓(xùn)練稠密網(wǎng)絡(luò)得到稀疏的深度強化學(xué)習(xí)網(wǎng)絡(luò) 從頭開始訓(xùn)練一個稀疏深度強化學(xué)習(xí)模型，如果能夠完美實現(xiàn)，將極大地減少計算開銷，并實現(xiàn)在資源受限設(shè)備上的高效部署，具備優(yōu)秀的模型適應(yīng)性。然而，在深度強化學(xué)習(xí)中從頭開始訓(xùn)練一個超稀疏網(wǎng)絡(luò)（例如 90% 的稀疏度）具有挑戰(zhàn)性，原因在于自舉訓(xùn)練（Bootstrap training）的非穩(wěn)定性。在深度強化學(xué)習(xí)中，學(xué)習(xí)目標(biāo)不是固定的，而是以自舉方式給出，訓(xùn)練數(shù)據(jù)的分布也可能是非穩(wěn)定的。此外，使用稀疏網(wǎng)絡(luò)結(jié)構(gòu)意味著在一個較小的假設(shè)空間中搜索，這進一步降低了學(xué)習(xí)目標(biāo)的置信度。因此，不當(dāng)?shù)南∈杌赡軐W(xué)習(xí)路徑造成不可逆的傷害，導(dǎo)致性能較差。最近的研究 [Sokar et al. 2021] 表明，在深度強化學(xué)習(xí)中直接采用動態(tài)稀疏訓(xùn)練框架仍然無法在不同環(huán)境中實現(xiàn)模型的良好壓縮。因此，這一重要的開放問題仍然懸而未決：

能否通過全程使用超稀疏網(wǎng)絡(luò)從頭訓(xùn)練出高效的深度強化學(xué)習(xí)智能體？

方法清華大學(xué)黃隆波團隊對這一問題給出了肯定的答案，并提出了一種強化學(xué)習(xí)專用的動態(tài)稀疏訓(xùn)練框架，“Rigged Reinforcement Learning Lottery”（RLx2），用于離策略強化學(xué)習(xí)（Off-policy RL）。這是第一個在深度強化學(xué)習(xí)領(lǐng)域以 90% 以上稀疏度進行全程稀疏訓(xùn)練，并且僅有微小性能損失的算法框架。RLx2 受到了在監(jiān)督學(xué)習(xí)中基于梯度的拓?fù)溲莼膭討B(tài)稀疏訓(xùn)練方法 RigL [Evci et al. 2020] 的啟發(fā)。然而，直接應(yīng)用 RigL 無法實現(xiàn)高稀疏度，因為稀疏的深度強化學(xué)習(xí)模型由于假設(shè)空間有限而導(dǎo)致價值估計不可靠，進而干擾了網(wǎng)絡(luò)結(jié)構(gòu)的拓?fù)溲莼?/span> 因此，RLx2 引入了延遲多步差分目標(biāo)（Delayed multi-step TD target）機制和動態(tài)容量回放緩沖區(qū)（Dynamic capacity buffer），以實現(xiàn)穩(wěn)健的價值學(xué)習(xí)（Value learning）。這兩個新組件解決了稀疏拓?fù)湎碌膬r值估計問題，并與基于 RigL 的拓?fù)溲莼瘻?zhǔn)則一起實現(xiàn)了出色的稀疏訓(xùn)練性能。為了闡明設(shè)計 RLx2 的動機，作者以一個簡單的 MuJoCo 控制任務(wù) InvertedPendulum-v2 為例，對四種使用不同價值學(xué)習(xí)和網(wǎng)絡(luò)拓?fù)涓路桨傅南∈栌?xùn)練方法進行了比較。

圖：不同網(wǎng)絡(luò)結(jié)構(gòu)更新方案的性能比較。其中，SS 表示采用靜態(tài)稀疏網(wǎng)絡(luò)，RigL 表示使用基于梯度的網(wǎng)絡(luò)拓?fù)溲莼姆椒ǎ琑igL+Q * 表示使用 RigL 的拓?fù)溲莼也捎谜鎸嵵岛瘮?shù)引導(dǎo)自舉訓(xùn)練的方法（真實值函數(shù)在實際算法中并不可知），RLx2 表示使用 RigL 網(wǎng)絡(luò)拓?fù)溲莼也捎米髡咚嶂倒酪龑?dǎo)自舉訓(xùn)練的方法?？梢园l(fā)現(xiàn)，RLx2 的性能已經(jīng)非常逼近 RigL+Q * 的方法。下圖展示了 RLx2 算法的主要部分，包括基于梯度的拓?fù)溲莼⒀舆t多步差分目標(biāo)和動態(tài)容量回放緩沖區(qū)。

圖：RLx2 算法的概覽 基于梯度的拓?fù)溲莼?/strong> 在 RLx2 中，作者采用了與 RigL [Evci et al. 2020] 相同的方法來進行拓?fù)浣Y(jié)構(gòu)的演化。作者計算了損失函數(shù)對網(wǎng)絡(luò)權(quán)重的梯度值。然后，周期性地增加稀疏網(wǎng)絡(luò)中具有較大梯度的連接，并移除權(quán)重絕對值最小的現(xiàn)有連接。通過周期性的結(jié)構(gòu)演化，獲得了一個結(jié)構(gòu)合理的稀疏神經(jīng)網(wǎng)絡(luò)。 延遲多步差分目標(biāo) RLx2 框架還引入了多步差分目標(biāo)：

這一概念在現(xiàn)有研究中 [Munos et al. 2016] 已被證實能夠改善差分學(xué)習(xí)（TD learning）。作者還發(fā)現(xiàn)，引入多步目標(biāo)可以通過折扣因子減少稀疏網(wǎng)絡(luò)的擬合誤差，如下式所示：

然而，訓(xùn)練伊始立即采用多步差分目標(biāo)可能會導(dǎo)致更大的策略不一致誤差。因此，作者額外采用了延遲方案來抑制策略不一致性并進一步提高值函數(shù)的學(xué)習(xí)效果。 動態(tài)容量回放緩沖區(qū) 離策略（Off-policy）算法使用回放緩沖區(qū)（Replay buffer）來存儲收集到的數(shù)據(jù)，并使用從緩沖區(qū)中抽樣的批次數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)。研究表明 [Fedus et al. 2020]，當(dāng)使用更大的回放容量時，算法的性能通常會提高。然而，無限大小的回放緩沖區(qū)會因為多步目標(biāo)的不一致性和訓(xùn)練數(shù)據(jù)的不匹配導(dǎo)致策略不一致性。動態(tài)容量回放緩沖區(qū)是一種通過調(diào)整緩沖區(qū)容量控制緩沖區(qū)中數(shù)據(jù)的不一致性，以實現(xiàn)穩(wěn)健值函數(shù)學(xué)習(xí)的方法。作者引入了以下策略距離度量來評估緩沖區(qū)中數(shù)據(jù)的不一致性：

隨著訓(xùn)練的進行，當(dāng)回放緩存中的策略距離度量大于閾值時，則停止增加緩沖區(qū)容量，使得策略距離度量始終小于設(shè)定的閾值。實驗作者在四個 MuJoCo 環(huán)境（HalfCheetah-v3、Hopper-v3、Walker2d-v3 和 Ant-v3），和兩個常見的深度強化學(xué)習(xí)算法 TD3 和 SAC 中進行了實驗。作者定義了一個終極壓縮比率，即在該比率下，RLx2 的性能下降在原始稠密模型的 ±3% 之內(nèi)。這也可以理解為具有與原始稠密模型完全相同性能的稀疏模型的最小大小。根據(jù)終極壓縮比率，作者在下表中呈現(xiàn)了不同算法在不同環(huán)境采用相同參數(shù)量的神經(jīng)網(wǎng)絡(luò)的性能。

性能在所有四個環(huán)境中，RLx2 的性能在很大程度上優(yōu)于所有基準(zhǔn)算法（除了 Hopper 環(huán)境中與 RigL 和 SAC 的性能相近）。此外，小型稠密網(wǎng)絡(luò)（Tiny）和隨機靜態(tài)稀疏網(wǎng)絡(luò)（SS）的性能平均最差。SET 和 RigL 的性能較好，但在 Walker2d-v3 和 Ant-v3 環(huán)境中無法保持性能，這意味著在稀疏訓(xùn)練下穩(wěn)健的價值學(xué)習(xí)是必要的。 模型壓縮 RLx2 實現(xiàn)了優(yōu)秀的壓縮比，并且僅有輕微的性能下降（不到 3%）。具體而言，使用 TD3 算法的 RLx2 實現(xiàn)了 7.5 倍至 25 倍的模型壓縮，在 Hopper-v3 環(huán)境中獲得了最佳的 25 倍壓縮比。在每個環(huán)境中，演員網(wǎng)絡(luò)（Actor network）可以壓縮超過 96% 的參數(shù)，評論家網(wǎng)絡(luò)（Critic network）可以壓縮 85% 至 95% 的參數(shù)。SAC 算法的結(jié)果類似。另外，使用 SAC 算法的 RLx2 實現(xiàn)了 5 倍至 20 倍的模型壓縮。 節(jié)省訓(xùn)練開銷 與基于知識蒸餾或行為克隆的方法 [Vischer et al. 2021] 不同，RLx2 在整個訓(xùn)練過程中使用了稀疏網(wǎng)絡(luò)。因此，它具有加速訓(xùn)練并節(jié)省計算資源的額外潛力。四個環(huán)境的平均結(jié)果表明，表格中 RLx2-TD3 分別減少了 12 倍和 20 倍的訓(xùn)練和推理浮點運算數(shù)，RLx2-SAC 分別減少了 7 倍和 12 倍的訓(xùn)練和推理浮點運算數(shù)。 總結(jié) 作者提出了一種用于離策略強化學(xué)習(xí)的稀疏訓(xùn)練框架 RLx2，能夠適用于各種離策略強化學(xué)習(xí)算法。這一框架利用基于梯度的結(jié)構(gòu)演化方法實現(xiàn)了高效的拓?fù)涮剿?，并通過延遲多步差分目標(biāo)和動態(tài)容量回放緩沖區(qū)建立了穩(wěn)健的值函數(shù)學(xué)習(xí)。RLx2 不需要像傳統(tǒng)剪枝方法一樣預(yù)訓(xùn)練稠密網(wǎng)絡(luò)，卻能夠在訓(xùn)練過程中使用超稀疏網(wǎng)絡(luò)來訓(xùn)練高效的深度強化學(xué)習(xí)智能體，并且?guī)缀鯖]有性能損失。作者在使用 TD3 和 SAC 的 RLx2 上進行了實驗，結(jié)果表明其稀疏訓(xùn)練性能非常出色：模型壓縮比例為 7.5 倍至 20 倍，性能下降不到 3%，訓(xùn)練和推理的浮點運算數(shù)分別減少高達 20 倍和 50 倍。作者認(rèn)為未來有趣的工作包括將 RLx2 框架擴展到更復(fù)雜的 RL 場景，這些場景對計算資源的需求更高，例如多智能體、離線強化學(xué)習(xí)等場景，也包括真實世界的復(fù)雜決策問題而非標(biāo)準(zhǔn)的 MuJoCo 環(huán)境。 參考文獻1.Hessel, Matteo, et al. "Rainbow: Combining improvements in deep reinforcement learning." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.2.Mocanu, Decebal Constantin, et al. "Scalable training of artificial neural networks with adaptive sparse connectivity inspired by network science." Nature communications 9.1 (2018): 2383.3.Evci, Utku, et al. "Rigging the lottery: Making all tickets winners." International Conference on Machine Learning. PMLR, 2020.4.Sokar, Ghada, et al. "Dynamic sparse training for deep reinforcement learning." arXiv preprint arXiv:2106.04217 (2021).5.Munos, Rémi, et al. "Safe and efficient off-policy reinforcement learning." Advances in neural information processing systems 29 (2016).6.Fedus, William, et al. "Revisiting fundamentals of experience replay." International Conference on Machine Learning. PMLR, 2020.7.Vischer, Marc Aurel, Robert Tjarko Lange, and Henning Sprekeler. "On lottery tickets and minimal task representations in deep reinforcement learning." arXiv preprint arXiv:2105.01648 (2021).

原文標(biāo)題：ICLR 2023 Spotlight｜節(jié)省95%訓(xùn)練開銷，清華黃隆波團隊提出強化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

文章出處：【微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2950

文章
48147

瀏覽量
418868

原文標(biāo)題：ICLR 2023 Spotlight｜節(jié)省95%訓(xùn)練開銷，清華黃隆波團隊提出強化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

加入交流群

掃碼添加小助手

加入工程師交流群

評論

發(fā)布評論請先登錄

相關(guān)推薦

熱點推薦

上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學(xué)習(xí)大模型

近日，上汽奧迪宣布旗下 E5 Sportback 車型升級搭載全新Momenta 強化學(xué)習(xí)大模型。

發(fā)表于 04-09 09:33 ?254次閱讀

螞蟻集團全模態(tài)代碼算法團隊自研OpAgent技術(shù)框架

為應(yīng)對真實 Web 環(huán)境的非結(jié)構(gòu)化復(fù)雜性、時序不穩(wěn)定性與交互隱式邏輯等挑戰(zhàn)，螞蟻集團全模態(tài)代碼算法團隊提出了一套結(jié)合了多任務(wù)微調(diào)、在線強化學(xué)習(xí)與模塊化協(xié)作的綜合解決方案：OpAgent。

發(fā)表于 03-18 17:13 ?1034次閱讀

自動駕駛中常提的離線強化學(xué)習(xí)是什么？

，圖片源自：網(wǎng)絡(luò) 但強化學(xué)習(xí)本身是需要不斷試錯的，如果采用這種學(xué)習(xí)方式在真實道路中不斷嘗試，一定會導(dǎo)致不可控的事故。于是就有人提出一種猜測，能不能利用已經(jīng)存在的大量行駛?cè)罩?、仿真記錄和人類駕駛數(shù)據(jù)，在

發(fā)表于 02-07 09:21 ?377次閱讀

強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎？

[首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時，有的技術(shù)方案會采用模仿學(xué)習(xí)，而有些會采用強化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式，強化學(xué)習(xí)

發(fā)表于 01-31 09:34 ?858次閱讀

多智能體強化學(xué)習(xí)（MARL）核心概念與算法概覽

訓(xùn)練單個RL智能體的過程非常簡單，那么我們現(xiàn)在換一個場景，同時訓(xùn)練五個智能體，而且每個都有自己的目標(biāo)、只能看到部分信息，還能互相幫忙。這就是多智能體強化學(xué)習(xí)

發(fā)表于 01-21 16:21 ?352次閱讀

如何訓(xùn)練好自動駕駛端到端模型？

[首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問：端到端算法是怎樣訓(xùn)練的？是模仿學(xué)習(xí)、強化學(xué)習(xí)和離線強化學(xué)習(xí)這三類嗎？其實端到端（end-to-end）算法在自動駕駛、智能體

發(fā)表于 12-08 16:31 ?1628次閱讀

今日看點：智元推出真機強化學(xué)習(xí);美國軟件公司SAS退出中國市場

智元推出真機強化學(xué)習(xí)，機器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日，智元機器人宣布其研發(fā)的真機強化學(xué)習(xí)技術(shù)，已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹，此次落地的真機強化學(xué)習(xí)

發(fā)表于 11-05 09:44 ?1174次閱讀

自動駕駛中常提的“強化學(xué)習(xí)”是個啥？

[首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時，有些方案中會提到“強化學(xué)習(xí)（Reinforcement Learning，簡稱RL）”，強化學(xué)習(xí)是一類讓機器通過試錯來學(xué)會做決策的技術(shù)。簡單理解

發(fā)表于 10-23 09:00 ?934次閱讀

在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE，以TensorFlow2為訓(xùn)練框架，目標(biāo)是

發(fā)表于 10-22 07:03

借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別，如何在有限顯存中“塞下”訓(xùn)練任務(wù)，對研發(fā)和運維團隊都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型訓(xùn)練框架，提供了靈

發(fā)表于 10-21 10:55 ?1431次閱讀

NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

NVIDIA Isaac Lab 是一個適用于機器人學(xué)習(xí)的開源統(tǒng)一框架，基于 NVIDIA Isaac Sim 開發(fā)，其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境，可提供各種物理 AI 功能和由 GPU 驅(qū)動的物理仿真，縮小仿真與現(xiàn)實世

發(fā)表于 09-23 17:15 ?2660次閱讀

如何在Ray分布式計算框架下集成NVIDIA Nsight Systems進行GPU性能分析

在大語言模型的強化學(xué)習(xí)訓(xùn)練過程中，GPU 性能優(yōu)化至關(guān)重要。隨著模型規(guī)模不斷擴大，如何高效地分析和優(yōu)化 GPU 性能成為開發(fā)者面臨的主要挑戰(zhàn)之一。

發(fā)表于 07-23 10:34 ?2598次閱讀

NVIDIA Isaac Lab可用環(huán)境與強化學(xué)習(xí)腳本使用指南

Lab 是一個適用于機器人學(xué)習(xí)的開源模塊化框架，其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境，Isaac Lab 同時支持模仿學(xué)習(xí)（模仿人類）和強化學(xué)習(xí)

發(fā)表于 07-14 15:29 ?2678次閱讀

【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù)：DeepSeek 核心技術(shù)揭秘

與 PPO 對比示意圖 03.獎勵模型的創(chuàng)新在強化學(xué)習(xí)的訓(xùn)練過程中，DeepSeek 研究團隊選擇面向結(jié)果的獎勵模型，而不是通常的面向過程的獎勵模型。這種方式可以較好地避免獎勵欺騙，同時，由于

發(fā)表于 06-09 14:38

OCR識別訓(xùn)練完成后給的是空壓縮包，為什么？

OCR識別一共弄了26張圖片，都標(biāo)注好了，點擊開始訓(xùn)練，顯示訓(xùn)練成功了，也將壓縮包發(fā)到郵箱了，下載下來后，壓縮包里面是空的 OCR圖片20幾張圖太少了。麻煩您多添加點，參考我們的ocr識別訓(xùn)練數(shù)據(jù)集請問

發(fā)表于 05-28 06:46

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

ICLR 2023 Spotlight｜節(jié)省95%訓(xùn)練開銷，清華黃隆波團隊提出強化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

評論