日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種利用任何形式的先驗策略來改進初始化強化學習任務(wù)的探索的方法

倩倩 ? 來源:AI前線 ? 作者:谷歌 AI ? 2022-09-06 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強化學習可以用于訓(xùn)練一種策略,使其能夠在試錯的情況下來完成任務(wù),但強化學習面臨的最大挑戰(zhàn)就是,如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學習策略。比如,考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設(shè)置,其中強化學習智能體必須在三維空間中控制一只手來打開放在它前面的門。

由于智能體沒有收到任何中間獎勵,它無法衡量自己離完成任務(wù)有多遠,所以只能在空間里隨機探索,直至門被打開為止。鑒于這項任務(wù)所需的時間以及對其進行精準的控制,這種可能性微乎其微。

對于這樣的任務(wù),我們可以通過使用先驗信息來規(guī)避對狀態(tài)空間的隨機探索。這種先驗信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的,應(yīng)該進一步探索。

我們可以利用離線數(shù)據(jù)(即由人類演示者、腳本策略或其他強化學習智能體收集的數(shù)據(jù)),對策略進行訓(xùn)練,并將之用于初始化新的強化學習策略。如果采用神經(jīng)網(wǎng)絡(luò)來表達策略,則需要將預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)復(fù)制到新的強化學習策略中。這一過程使得新的強化學習策略看起來就像是預(yù)訓(xùn)練好的。但是,用這種幼稚的方式來進行新的強化學習通常是行不通的,尤其是基于值的強化學習方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用離線數(shù)據(jù)在 antmaze-large-diverse-v0 D4RL 環(huán)境中對一種策略進行預(yù)訓(xùn)練(負向步驟對應(yīng)預(yù)訓(xùn)練)。然后,我們使用該策略來初始化 actor-crittic 的微調(diào)(從第 0 步開始的正向步驟),以該預(yù)訓(xùn)練的策略作為初始 actor。crittic 是隨機初始化的。由于未經(jīng)訓(xùn)練的 critic 提供了一個糟糕的學習信號,并導(dǎo)致良好的初始策略被遺忘,所以 actor 的性能會立即下降,并且不會恢復(fù)。

有鑒于此,我們在“跳躍式強化學習”(Jump-Start Reinforcement Learning,JSRL)中,提出了一種可以利用任意一種與現(xiàn)存在的策略對任意一種強化學習算法進行初始化的元算法。

JSRL 在學習任務(wù)時采用了兩種策略:一種是指導(dǎo)策略,另一種是探索策略。探索策略是一種強化學習策略,通過智能體從環(huán)境中收集的新經(jīng)驗進行在線訓(xùn)練,而指導(dǎo)策略是一種預(yù)先存在的任何形式的策略,在在線訓(xùn)練中不被更新。在這項研究中,我們關(guān)注的是指導(dǎo)策略從演示中學習的情景,但也可以使用許多其他類型的指導(dǎo)策略。JSRL 通過滾動指導(dǎo)策略創(chuàng)建了一個學習課程,然后由自我改進的探索策略跟進,其結(jié)果是與競爭性的 IL+RL 方法相比較或改進的性能。

JSRL 方法

指導(dǎo)策略可以采取任何形式:它可以是一種腳本化的策略,一種用于強化學習訓(xùn)練的策略,甚至是一個真人演示者。唯一的要求是,指導(dǎo)策略要合理(也就是優(yōu)于隨機探索),而且可以根據(jù)對環(huán)境的觀察來選擇行動。理想情況下,指導(dǎo)策略可以在環(huán)境中達到較差或中等的性能,但不能通過額外的微調(diào)來進一步改善自己。然后,JSRL 允許我們利用這個指導(dǎo)策略的進展,從而提到它的性能。

在訓(xùn)練開始時,我們將指導(dǎo)策略推出一個固定的步驟,使智能體更接近目標狀態(tài)。然后,探索策略接手,繼續(xù)在環(huán)境中行動以達到這些目標。隨著探索策略性能的提高,我們逐漸減少指導(dǎo)策略的步驟,直到探索策略完全接管。這個過程為探索策略創(chuàng)建了一個起始狀態(tài)的課程,這樣在每個課程階段,它只需要學習達到之前課程階段的初始狀態(tài)。

這個任務(wù)是讓機械臂拿起藍色木塊。指導(dǎo)策略可以將機械臂移動到木塊上,但不能將其拾起。它控制智能體,直到它抓住木塊,然后由探索策略接管,最終學會拿起木塊。隨著探索策略的改進,指導(dǎo)策略對智能體的控制越來越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來初始化強化學習,一個自然的比較是模仿和強化學習(IL+RL)方法,該方法在離線數(shù)據(jù)集上進行訓(xùn)練,然后用新的在線經(jīng)驗對預(yù)訓(xùn)練的策略進行微調(diào)。我們展示了 JSRL 在 D4RL 基準任務(wù)上與具有競爭力的 IL+RL 方法的比較情況。這些任務(wù)包括模擬機器人控制環(huán)境,以及來自人類演示者的離線數(shù)據(jù)集、計劃者和其他學到的策略。在 D4RL 任務(wù)中,我們重點關(guān)注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

對于每個實驗,我們在一個離線數(shù)據(jù)集上進行訓(xùn)練,然后運行在線微調(diào)。我們與專門為每個環(huán)境設(shè)計的算法進行比較,這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導(dǎo)策略或微調(diào)算法結(jié)合使用,但我們使用我們最強大的基線——IQL,作為預(yù)訓(xùn)練的指導(dǎo)和微調(diào)。完整的 D4RL 數(shù)據(jù)集包括每個螞蟻迷宮任務(wù)的一百萬個離線轉(zhuǎn)換。每個轉(zhuǎn)換是一個格式序列(S, A, R, S'),它指定了智能體開始時的狀態(tài)(S),智能體采取的行動(A),智能體收到的獎勵(R),以及智能體在采取行動 A 后結(jié)束的狀態(tài)(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基準套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分(最大值 =100)。即使在有限的離線轉(zhuǎn)換的情況下,JSRL 也可以改進。

基于視覺的機器人任務(wù)

由于維度的限制,在復(fù)雜的任務(wù)中使用離線數(shù)據(jù)特別困難,比如基于視覺的機器人操縱。連續(xù)控制動作空間和基于像素的狀態(tài)空間的高維度,給 IL+RL 方法帶來了學習良好策略所需的數(shù)據(jù)量方面的擴展挑戰(zhàn)。為了研究 JSRL 如何適應(yīng)這種環(huán)境,我們重點研究了兩個困難的仿生機器人操縱任務(wù):無差別抓取(即,舉起任何物體)和實例抓?。?,舉起特定的目標物體)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一個仿生機械臂被放置在一張有各種類別物體的桌子前。當機械臂舉起任何物體時,對于無差別的抓取任務(wù),會給予稀疏的獎勵。對于實例抓取任務(wù),只有在抓取特定的目標物體時,才會給予稀疏的獎勵。

我們將 JSRL 與能夠擴展到復(fù)雜的基于視覺的機器人環(huán)境的方法進行比較,如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據(jù)集,并被允許運行多達 10 萬步的在線微調(diào)。

在這些實驗中,我們使用行為克隆作為指導(dǎo)策略,并將 JSRL 與 QT-Opt 相結(jié)合進行微調(diào)。QT-Opt+JSRL 的組合比其他所有方法改進得更快,同時獲得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,無差別和實例抓取環(huán)境的平均抓取成功率。

結(jié)語

我們提出了 JSRL,它是一種利用任何形式的先驗策略來改進初始化強化學習任務(wù)的探索的方法。我們的算法通過在預(yù)先存在的指導(dǎo)策略中滾動,創(chuàng)建了一個學習課程,然后由自我改進的探索策略跟進。探索策略的工作被大大簡化,因為它從更接近目標的狀態(tài)開始探索。隨著探索策略的改進,指導(dǎo)策略的影響也隨之減弱,從而形成一個完全有能力的強化學習策略。在未來,我們計劃將 JSRL 應(yīng)用于 Sim2Real 等問題,并探索我們?nèi)绾卫枚喾N指導(dǎo)策略來訓(xùn)練強化學習智能體。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108288
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    598

    瀏覽量

    11652
  • 強化學習
    +關(guān)注

    關(guān)注

    4

    文章

    274

    瀏覽量

    12010

原文標題:如何使用先驗策略有效地初始化強化學習?

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    SDK如何初始化 MIMXRT1060-EVK 的 SDRAM

    直在嘗試了解 SDK 的啟動過程,但我找不到任何初始化 SEMC SDRAM 的代碼。如果存在,代碼在哪里?如果不存在,SDRAM如何初始化
    發(fā)表于 05-05 07:10

    ELF-RV112B RKNN模型加載與運行時初始化

    ELF-RV112B RKNN模型加載與運行時初始化
    的頭像 發(fā)表于 04-03 16:08 ?221次閱讀
    ELF-RV112B RKNN模型加載與運行時<b class='flag-5'>初始化</b>

    自動駕駛中常提的離線強化學習是什么?

    ,圖片源自:網(wǎng)絡(luò) 但強化學習本身是需要不斷試錯的,如果采用這種學習方式在真實道路中不斷嘗試,定會導(dǎo)致不可控的事故。于是就有人提出一種猜測,能不能
    的頭像 發(fā)表于 02-07 09:21 ?407次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    PC強實時運動控制():C#的EtherCAT總線初始化(下)

    通過使用配置工具導(dǎo)出ZAR文件進行EtherCAT總線初始化
    的頭像 發(fā)表于 02-05 10:00 ?2664次閱讀
    PC強實時運動控制(<b class='flag-5'>一</b>):C#的EtherCAT總線<b class='flag-5'>初始化</b>(下)

    強化學習會讓自動駕駛模型學習更快嗎?

    一種讓機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每步的“正確答案”都告訴
    的頭像 發(fā)表于 01-31 09:34 ?910次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換個場景,同時訓(xùn)練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發(fā)表于 01-21 16:21 ?368次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    EtherCAT總線初始化步驟

    EtherCAT(Ethernet for Control Automation Technology)是一種高性能的工業(yè)以太網(wǎng)通信協(xié)議,廣泛應(yīng)用于工業(yè)自動領(lǐng)域。其初始化過程是確保系統(tǒng)穩(wěn)定運行
    的頭像 發(fā)表于 12-22 10:10 ?1095次閱讀
    EtherCAT總線<b class='flag-5'>初始化</b>步驟

    串口通信基石:Air8000下Modbus RTU串口初始化詳解!

    的RTU通信搭建牢固無憂。 、MODBUS 概述 Modbus 是一種廣泛應(yīng)用于工業(yè)自動領(lǐng)域的串行通信協(xié)議,由 Modicon 公司(現(xiàn)為施耐德電氣旗下)于 1979 年推出,主要用于可編程邏輯控制器(PLC)與工業(yè)設(shè)備之間
    的頭像 發(fā)表于 10-28 16:33 ?1819次閱讀
    串口通信基石:Air8000下Modbus RTU串口<b class='flag-5'>初始化</b>詳解!

    自動駕駛中常提的“強化學習”是個啥?

    下,就是個智能體在環(huán)境里行動,它能觀察到環(huán)境的些信息,并做出個動作,然后環(huán)境會給出個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監(jiān)督
    的頭像 發(fā)表于 10-23 09:00 ?972次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現(xiàn)AI

    的憶阻器、MAC計算單元及存儲器 可以利用液體的流體力學特征做個納米級微流體系統(tǒng),用水柱實現(xiàn)邏輯門。 ①用有機聚合物溶液實現(xiàn)互連、憶阻器和神經(jīng)網(wǎng)絡(luò) 有機聚合物計算通常被歸類為化學
    發(fā)表于 09-15 17:29

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的未來:提升算力還是智力

    、浪費資源與破壞環(huán)境 二、用小模型代替大模型 1、強化學習 2、指令調(diào)整 3、合成數(shù)據(jù) 三、終身學習與遷移學習 1、終身學習 終身學習
    發(fā)表于 09-14 14:04

    GraniStudio:初始化例程

    說明 通過初始化運控板卡算子連接格拉尼總線型運控卡,導(dǎo)入工程自動進行連接,此算子為使用運控控制板卡的第項操作,后續(xù)運控算子需引用其輸出板卡對象才可使用。 3.異常處理 當手動執(zhí)行初始化運控板卡算子出現(xiàn)錯誤時: 查看總線卡與驅(qū)動
    的頭像 發(fā)表于 08-22 16:45 ?1090次閱讀
    GraniStudio:<b class='flag-5'>初始化</b>例程

    定義IO初始化結(jié)構(gòu)體

    由上述IOPORT相關(guān)功能的枚舉類型我們可以知道,在對IOPORT模塊進行初始化時需要根據(jù)情況配置它們。因此我們定義個IOPORT初始化的結(jié)構(gòu)體類型IOPORT_Init_t,它的成員包括了由上述所有枚舉類型所聲明的變量,因此
    的頭像 發(fā)表于 07-16 16:26 ?1635次閱讀

    IM 系列設(shè)備過載保護機制下界面初始化中斷的底層邏輯與解決方案

    、過載保護機制與界面初始化的關(guān)聯(lián)基礎(chǔ) IM 系列設(shè)備的過載保護機制是保障設(shè)備安全運行的核心功能,其通過傳感器實時采集設(shè)備運行參數(shù),如電流、電壓、溫度、系統(tǒng)資源占用率等。旦這些參數(shù)超出預(yù)設(shè)閾值
    的頭像 發(fā)表于 06-27 09:58 ?738次閱讀

    使用MATLAB進行無監(jiān)督學習

    無監(jiān)督學習一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學習方法。無監(jiān)督學習旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的
    的頭像 發(fā)表于 05-16 14:48 ?1669次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學習</b>
    格尔木市| 铁岭市| 凌源市| 乐业县| 厦门市| 陇西县| 济阳县| 竹北市| 渭南市| 万全县| 霸州市| SHOW| 法库县| 仁化县| 巴中市| 南宫市| 铅山县| 永和县| 澄江县| 墨脱县| 喀什市| 六枝特区| 洪雅县| 涟水县| 韩城市| 昌都县| 苗栗县| 绥中县| 日喀则市| 杨浦区| 曲沃县| 赤城县| 定安县| 招远市| 韩城市| 独山县| 台南县| 时尚| 上蔡县| 泽州县| 海原县|