日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

用非參數(shù)方法提高強化學習的樣本效率

星星科技指導員 ? 來源:NVIDIA ? 作者:Samuele Tosatto ? 2022-04-28 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能和自主學習的最新發(fā)展表明,在棋盤游戲和電腦游戲等任務中取得了令人印象深刻的成果。然而,學習技術的適用性主要局限于模擬環(huán)境。

這種不適用于實際場景的主要原因之一是樣本效率低下,無法保證最先進的強化學習的安全運行。在強化學習理論中,你想根據(jù)一個特定的指標來改善一個代理的行為。為了改進這個度量,代理可以與環(huán)境交互,從中收集觀察結果和獎勵??梢杂脙煞N不同的方式進行改進: 論政策 和 非保險單 。

在政策性案例中,必須通過代理人與環(huán)境的直接互動來實現(xiàn)改進。這種改進在數(shù)學上很簡單,但由于不允許重復使用樣本,因此阻礙了樣本效率。當代理行為得到改善時,代理必須與環(huán)境重新交互以生成新的 on 策略樣本。例如,在學習的早期階段, agentMIG 不適合與物理環(huán)境直接交互,因為它的行為是隨機的。在模擬任務中,樣本的可用性是無限的,有害行為的應用沒有危險。然而,對于實際應用,這些問題是嚴重的。

在關閉策略的情況下,可以通過與其他代理完成的環(huán)境的交互來改進代理的行為。這允許樣本重用和更安全的交互,因為與環(huán)境交互的代理可以是專家。例如,人類可以通過移動機械臂來采集樣本。

政策外改善的缺點是難以獲得可靠的估計。在目前的技術狀況下,所提出的技術要么具有高偏差,要么具有高方差。此外,有些技術對必須如何與環(huán)境進行交互有著具體而強烈的要求。

在這篇文章中,我討論了非參數(shù)非政策梯度( NOPG ),它具有更好的偏差方差權衡,并且對如何生成非政策樣本沒有什么要求。 NOPG 是由 Darmstadt 的智能自治系統(tǒng)實驗室開發(fā)的,已經(jīng)被證明可以有效地解決一些經(jīng)典的控制問題,并克服了目前最先進的非策略梯度估計中存在的一些問題。有關詳細信息,請參見 非參數(shù)的政策外政策梯度 。

強化學習與政策外梯度

強化學習是機器學習的一個子領域,其中一個代理(我在這篇文章中稱之為策略)與環(huán)境交互并觀察環(huán)境的狀態(tài)和獎勵信號。代理人的目標是使累計折扣報酬最大化,如下式所示:

latex.php?latex=J%5E%5Cpi+%3D+%5Cmathbb%7BE%7D%5Cleft%5B%5Csum_t+%5Cgamma%5Etr_t%5Cright%5D&bg=ffffff&fg=000&s=0

代理通常由一組參數(shù)來參數(shù)化使得它能夠利用梯度優(yōu)化使強化學習目標最大化。坡度關于策略參數(shù)通常是未知的,并且很難以分析形式獲得。因此,你不得不用樣本來近似它。利用非策略樣本估計梯度主要有兩種方法:半梯度法和重要性抽樣法。

半梯度

這些方法在梯度展開中減少了一個項,這導致了估計量的偏差。理論上,這個偏差項仍然足夠低,足以保證梯度收斂到正確的解。然而,當引入其他近似源(例如有限樣本或臨界近似)時,不能保證收斂到最優(yōu)策略。在實踐中,經(jīng)常會觀察到性能不佳。

重要性抽樣

這些方法都是基于重要性抽樣校正的。這種估計通常會受到高方差的影響,并且這種方差在強化學習環(huán)境中會被放大,因為它會隨著情節(jié)的長度而倍增。涉及重要性抽樣的技術需要已知的隨機策略和基于軌跡的數(shù)據(jù)(與環(huán)境的順序交互)。因此,在這種情況下,不允許不完整的數(shù)據(jù)或基于人的交互。

非參數(shù)非政策梯度估計

強化學習理論的一個重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數(shù):

pYYBAGJqL7iAdB5pAAAdEG7Z69M420.png

求梯度的一種方法是用非參數(shù)技術近似 Bellman 方程,并進行解析求解。具體來說,可以構造一個非參數(shù)的報酬函數(shù)和轉移函數(shù)模型。

通過增加采樣數(shù)和減少內(nèi)核帶寬,您將向右收斂到無偏解。更準確地說,當方差縮小到零時,這個估計量是一致的。

非參數(shù) Bellman 方程的求解涉及到一組線性方程組的求解,該方程組可以通過矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線性代數(shù)運算,因此適合與 GPUs 并行計算。

求解非參數(shù) Bellman 方程后,梯度的計算變得非常簡單,可以使用自動微分工具,如 TensorFlow 或 PyTorch 來獲得。這些工具具有易于使用的 GPU 支持,與以前僅使用 CPU 的實現(xiàn)相比,這些工具已經(jīng)被證明實現(xiàn)了相當大的加速。

特別是, IASL 團隊在配備了四個 NVIDIA V100 GPUs 的 NVIDIA DGX 站 上測試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個 NVIDIA 核有助于利用多處理技術進行多次評估,因此該機器非常適合于實證評估。有關實現(xiàn)代碼的更多信息,請參見 非參數(shù)政策外政策梯度 。

實證分析

為了評估 NOPG 相對于經(jīng)典的非政策梯度方法的性能,例如深度確定性策略梯度,或具有重要抽樣校正的 G-POMDP ,團隊選擇了一些經(jīng)典的低維控制任務:

線性二次型調節(jié)器

OpenAI 健身房秋千

手推車和電桿( Quanser 平臺)

OpenAI 健身山地車

我的團隊的分析表明,與最先進的技術相比,這種方法更具優(yōu)勢。在表示為 NOPG-S 和 NOPG-D 的圖中,我們分別展示了隨機策略和確定性策略的算法:

PWIS (路徑重要性抽樣)

DPG ( deterministicpolicy gradient ),一種半梯度方法

DDPG ( deep deterministicy policy gradient ),在其經(jīng)典的在線和離線模式下

該團隊使用 OpenAI 基線 對在線版本的 DDPG 進行編碼。

坡度的質量

pYYBAGJqMBiAEGWHAAEqugswRAs005.png

圖 1 LQR 任務中的梯度方向。與 DPG 技術相比,方差是有利的。

圖 1 描述了參數(shù)空間中的漸變方向。真梯度( TG )是理想的梯度方向。當 PWIS 的方差較大時, DPG 表現(xiàn)出較大的偏差,兩種方法都無法優(yōu)化策略。相反,這種同時具有隨機和確定性策略的方法顯示出更好的偏差/方差權衡,并允許更好和一致的策略改進。

學習曲線

poYBAGJqMPSAC2JPAAED649PFzI321.png

圖 2 該算法( NOPG-D , NOPG-S )比其他基線具有更好的采樣效率。在實際系統(tǒng)上,驗證了所學習策略對車輛穩(wěn)定性的有效性。

圖 2 描述了算法關于一些經(jīng)典基線的學習曲線。該算法使用較少的樣本,取得了較好的效果。 cartpole 的最終策略已經(jīng)在一個真實的 cartpole 上進行了測試,如右圖所示。

從人類示范中學習

該算法可以處理基于人類的數(shù)據(jù),而重要性抽樣技術并不直接適用。在這個實驗中,研究小組提供了次優(yōu)的,人類演示的山地車任務軌跡。

poYBAGJqMA2ATCWjAADv75ksEa8838.png

圖3 在左邊,提供了關于演示次數(shù)的算法學習曲線。該圖附有 95% 的置信區(qū)間。右邊是一個人類演示和隨后的政策在空間狀態(tài)下的表現(xiàn)的例子。

左邊的圖 3 顯示, NOPG 可以在只有兩個次優(yōu)的演示或軌跡的情況下獲得一個有效的策略。然而,更大的數(shù)字有助于它學習稍微好一點的政策。右邊是一個人類演示的例子(橙色)和策略優(yōu)化的結果(綠色)。人體在位置和速度空間的演示是次優(yōu)的,因為它需要更多的步驟來達到目標位置。即使人類的演示是次優(yōu)的,算法也能找到一個接近最優(yōu)的策略。

今后的工作

博世人工智能中心 的一個應用是節(jié)流閥控制器。節(jié)流閥是用來調節(jié)流體或氣體流量的技術裝置。由于其復雜的動力學和物理約束,該裝置的控制具有挑戰(zhàn)性。

由于參數(shù)設置困難,設計最先進的控制器(如 PID 控制器)非常耗時。強化學習似乎特別適合這種應用。然而,政策外數(shù)據(jù)的可用性加上系統(tǒng)的低維性(系統(tǒng)可以用襟翼的角度和角速度來描述),使得它特別適合于 NOPG 方法。

結論

在這篇文章中,您研究了非政策梯度估計的問題。最先進的技術,如半梯度法和重要性抽樣法,往往不能提供一個可靠的估計。我討論了 NOPG ,它是在達姆施塔特的 智能自治系統(tǒng)( IAS ) 實驗室開發(fā)的。

在經(jīng)典和低維任務(如 LQR 、擺起擺錘和 cartopole )上, NOPG 方法是樣本有效的,與基線相比安全(也就是說,它可以向人類專家學習)。雖然重要性抽樣不適用,但該方法也能從次優(yōu)的人類演示數(shù)據(jù)中學習。然而,由于非參數(shù)方法不適用于高維問題,該算法僅限于低維任務。您可以研究深度學習技術的適用性,以允許降維,以及 Bellman 方程的不同近似值的使用,從而克服非參數(shù)技術的問題。

關于作者

Samuele Tosatto 是達姆施塔特理工大學的博士生。他的主要研究方向是將強化學習應用于現(xiàn)實世界的機器人技術。他認為,獲得更有效的學習算法對于縮短強化學習與實際機器人技術之間的差距至關重要。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 控制器
    +關注

    關注

    114

    文章

    17902

    瀏覽量

    195628
  • 機器人
    +關注

    關注

    214

    文章

    31585

    瀏覽量

    224174
  • 深度學習
    +關注

    關注

    73

    文章

    5613

    瀏覽量

    124710
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Momenta R7強化學習世界模型實現(xiàn)量產(chǎn)首發(fā)

    等話題展開深度對話,正式宣布Momenta R7強化學習世界模型實現(xiàn)量產(chǎn)首發(fā),標志著智能駕駛從“看見世界”到“理解世界”的全新跨越,物理AI正式從技術理念走向規(guī)?;慨a(chǎn)落地。
    的頭像 發(fā)表于 04-29 15:44 ?795次閱讀

    Momenta R7強化學習世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強化學習世界模型。這意味著Momenta R7率先在全球強化學習+世界模型方向上取得量產(chǎn)突破——標志著物理AI上車。
    的頭像 發(fā)表于 04-29 15:42 ?721次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學習大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強化學習大模型。
    的頭像 發(fā)表于 04-09 09:33 ?297次閱讀

    上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強化學習世界模型

    3月30日,Momenta R7強化學習世界模型全球首發(fā)搭載車型——上汽大眾ID. ERA 9X正式開啟預售。
    的頭像 發(fā)表于 03-31 13:48 ?467次閱讀

    Momenta R6強化學習大模型上車東風日產(chǎn)NX8

    3月20日,東風日產(chǎn)NX8技術暨預售發(fā)布會在廣州舉辦,官宣Momenta R6強化學習大模型正式上車東風日產(chǎn)新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?947次閱讀

    Momenta強化學習大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強化學習大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗。
    的頭像 發(fā)表于 03-18 15:48 ?383次閱讀

    Momenta R7強化學習世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術發(fā)布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術亮點。會上,Momenta CEO曹旭東正式宣布:Momenta R7強化學習世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV ID. ERA 9X。
    的頭像 發(fā)表于 03-17 13:57 ?1334次閱讀

    自動駕駛中常提的離線強化學習是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造了更多可能。 強化學習
    的頭像 發(fā)表于 02-07 09:21 ?413次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發(fā)表于 01-31 09:34 ?917次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發(fā)表于 01-21 16:21 ?376次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?570次閱讀

    提高系統(tǒng)效率幾個誤解解析

    參數(shù)設置的,在實際應用中應結合總線工作頻率和等待周期等參數(shù)進行合理調配。有時把頻率降低反而可提高效率,如RAM的 存取周期是70ns,總線頻率為40M時,設3個周期的存取時間,即75ns即可;若總線
    發(fā)表于 12-15 06:09

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機強化學習方案,機器人
    發(fā)表于 11-05 09:44 ?1191次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?976次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發(fā)表于 07-14 15:29 ?2732次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南
    宣威市| 东兴市| 永定县| 广丰县| 灵台县| 遂川县| 基隆市| 营山县| 娄烦县| 顺昌县| 巴青县| 开化县| 茌平县| 榆社县| 沂南县| 大城县| 乌拉特前旗| 淮安市| 阿克| 英山县| 宜都市| 锡林郭勒盟| 阆中市| 保康县| 辽阳县| 房山区| 宁国市| 新竹县| 襄城县| 郁南县| 隆化县| 东乌珠穆沁旗| 辽阳县| 铜梁县| 绥中县| 南宁市| 松桃| 房产| 金昌市| 九寨沟县| 泸西县|