亚洲三级久久女优视频,人妻无码字幕一区

強化學習可以用于訓(xùn)練一種策略，使其能夠在試錯的情況下來完成任務(wù)，但強化學習面臨的最大挑戰(zhàn)就是，如何在具有艱難探索挑戰(zhàn)的環(huán)境中從頭學習策略。比如，考慮到 adroit manipulation 套件中的 door-binary-v0 環(huán)境所描述的設(shè)置，其中強化學習智能體必須在三維空間中控制一只手來打開放在它前面的門。

由于智能體沒有收到任何中間獎勵，它無法衡量自己離完成任務(wù)有多遠，所以只能在空間里隨機探索，直至門被打開為止。鑒于這項任務(wù)所需的時間以及對其進行精準的控制，這種可能性微乎其微。

對于這樣的任務(wù)，我們可以通過使用先驗信息來規(guī)避對狀態(tài)空間的隨機探索。這種先驗信息有助于智能體了解環(huán)境的哪些狀態(tài)是好的，應(yīng)該進一步探索。

我們可以利用離線數(shù)據(jù)（即由人類演示者、腳本策略或其他強化學習智能體收集的數(shù)據(jù)），對策略進行訓(xùn)練，并將之用于初始化新的強化學習策略。如果采用神經(jīng)網(wǎng)絡(luò)來表達策略，則需要將預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)復(fù)制到新的強化學習策略中。這一過程使得新的強化學習策略看起來就像是預(yù)訓(xùn)練好的。但是，用這種幼稚的方式來進行新的強化學習通常是行不通的，尤其是基于值的強化學習方法，如下所示。

用離線數(shù)據(jù)在 antmaze-large-diverse-v0 D4RL 環(huán)境中對一種策略進行預(yù)訓(xùn)練（負向步驟對應(yīng)預(yù)訓(xùn)練）。然后，我們使用該策略來初始化 actor-crittic 的微調(diào)（從第 0 步開始的正向步驟），以該預(yù)訓(xùn)練的策略作為初始 actor。crittic 是隨機初始化的。由于未經(jīng)訓(xùn)練的 critic 提供了一個糟糕的學習信號，并導(dǎo)致良好的初始策略被遺忘，所以 actor 的性能會立即下降，并且不會恢復(fù)。

有鑒于此，我們在“跳躍式強化學習”（Jump-Start Reinforcement Learning，JSRL）中，提出了一種可以利用任意一種與現(xiàn)存在的策略對任意一種強化學習算法進行初始化的元算法。

JSRL 在學習任務(wù)時采用了兩種策略：一種是指導(dǎo)策略，另一種是探索策略。探索策略是一種強化學習策略，通過智能體從環(huán)境中收集的新經(jīng)驗進行在線訓(xùn)練，而指導(dǎo)策略是一種預(yù)先存在的任何形式的策略，在在線訓(xùn)練中不被更新。在這項研究中，我們關(guān)注的是指導(dǎo)策略從演示中學習的情景，但也可以使用許多其他類型的指導(dǎo)策略。JSRL 通過滾動指導(dǎo)策略創(chuàng)建了一個學習課程，然后由自我改進的探索策略跟進，其結(jié)果是與競爭性的 IL+RL 方法相比較或改進的性能。

JSRL 方法

指導(dǎo)策略可以采取任何形式：它可以是一種腳本化的策略，一種用于強化學習訓(xùn)練的策略，甚至是一個真人演示者。唯一的要求是，指導(dǎo)策略要合理（也就是優(yōu)于隨機探索），而且可以根據(jù)對環(huán)境的觀察來選擇行動。理想情況下，指導(dǎo)策略可以在環(huán)境中達到較差或中等的性能，但不能通過額外的微調(diào)來進一步改善自己。然后，JSRL 允許我們利用這個指導(dǎo)策略的進展，從而提到它的性能。

在訓(xùn)練開始時，我們將指導(dǎo)策略推出一個固定的步驟，使智能體更接近目標狀態(tài)。然后，探索策略接手，繼續(xù)在環(huán)境中行動以達到這些目標。隨著探索策略性能的提高，我們逐漸減少指導(dǎo)策略的步驟，直到探索策略完全接管。這個過程為探索策略創(chuàng)建了一個起始狀態(tài)的課程，這樣在每個課程階段，它只需要學習達到之前課程階段的初始狀態(tài)。

這個任務(wù)是讓機械臂拿起藍色木塊。指導(dǎo)策略可以將機械臂移動到木塊上，但不能將其拾起。它控制智能體，直到它抓住木塊，然后由探索策略接管，最終學會拿起木塊。隨著探索策略的改進，指導(dǎo)策略對智能體的控制越來越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來初始化強化學習，一個自然的比較是模仿和強化學習（IL+RL）方法，該方法在離線數(shù)據(jù)集上進行訓(xùn)練，然后用新的在線經(jīng)驗對預(yù)訓(xùn)練的策略進行微調(diào)。我們展示了 JSRL 在 D4RL 基準任務(wù)上與具有競爭力的 IL+RL 方法的比較情況。這些任務(wù)包括模擬的機器人控制環(huán)境，以及來自人類演示者的離線數(shù)據(jù)集、計劃者和其他學到的策略。在 D4RL 任務(wù)中，我們重點關(guān)注困難的螞蟻迷宮和 adroit dexterous manipulation 環(huán)境。

對于每個實驗，我們在一個離線數(shù)據(jù)集上進行訓(xùn)練，然后運行在線微調(diào)。我們與專門為每個環(huán)境設(shè)計的算法進行比較，這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導(dǎo)策略或微調(diào)算法結(jié)合使用，但我們使用我們最強大的基線——IQL，作為預(yù)訓(xùn)練的指導(dǎo)和微調(diào)。完整的 D4RL 數(shù)據(jù)集包括每個螞蟻迷宮任務(wù)的一百萬個離線轉(zhuǎn)換。每個轉(zhuǎn)換是一個格式序列（S, A, R, S'），它指定了智能體開始時的狀態(tài)（S），智能體采取的行動（A），智能體收到的獎勵（R），以及智能體在采取行動 A 后結(jié)束的狀態(tài)（S'）。

在 D4RL 基準套件的 antmaze-medium-diverse-v0 環(huán)境中的平均得分（最大值 =100）。即使在有限的離線轉(zhuǎn)換的情況下，JSRL 也可以改進。

基于視覺的機器人任務(wù)

由于維度的限制，在復(fù)雜的任務(wù)中使用離線數(shù)據(jù)特別困難，比如基于視覺的機器人操縱。連續(xù)控制動作空間和基于像素的狀態(tài)空間的高維度，給 IL+RL 方法帶來了學習良好策略所需的數(shù)據(jù)量方面的擴展挑戰(zhàn)。為了研究 JSRL 如何適應(yīng)這種環(huán)境，我們重點研究了兩個困難的仿生機器人操縱任務(wù)：無差別抓取（即，舉起任何物體）和實例抓?。?，舉起特定的目標物體）。

一個仿生機械臂被放置在一張有各種類別物體的桌子前。當機械臂舉起任何物體時，對于無差別的抓取任務(wù)，會給予稀疏的獎勵。對于實例抓取任務(wù)，只有在抓取特定的目標物體時，才會給予稀疏的獎勵。

我們將 JSRL 與能夠擴展到復(fù)雜的基于視覺的機器人環(huán)境的方法進行比較，如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數(shù)據(jù)集，并被允許運行多達 10 萬步的在線微調(diào)。

在這些實驗中，我們使用行為克隆作為指導(dǎo)策略，并將 JSRL 與 QT-Opt 相結(jié)合進行微調(diào)。QT-Opt+JSRL 的組合比其他所有方法改進得更快，同時獲得了最高的成功率。

使用 2 千次成功演示，無差別和實例抓取環(huán)境的平均抓取成功率。

結(jié)語

我們提出了 JSRL，它是一種利用任何形式的先驗策略來改進初始化強化學習任務(wù)的探索的方法。我們的算法通過在預(yù)先存在的指導(dǎo)策略中滾動，創(chuàng)建了一個學習課程，然后由自我改進的探索策略跟進。探索策略的工作被大大簡化，因為它從更接近目標的狀態(tài)開始探索。隨著探索策略的改進，指導(dǎo)策略的影響也隨之減弱，從而形成一個完全有能力的強化學習策略。在未來，我們計劃將 JSRL 應(yīng)用于 Sim2Real 等問題，并探索我們?nèi)绾卫枚喾N指導(dǎo)策略來訓(xùn)練強化學習智能體。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4844

瀏覽量
108288
智能體

智能體

+關(guān)注

關(guān)注
1

文章
598

瀏覽量
11652
強化學習

強化學習

+關(guān)注

關(guān)注
4

文章
274

瀏覽量
12010