青青视频在线视频,91视频这里只有精品

人工智能和自主學習的最新發(fā)展表明，在棋盤游戲和電腦游戲等任務中取得了令人印象深刻的成果。然而，學習技術的適用性主要局限于模擬環(huán)境。

這種不適用于實際場景的主要原因之一是樣本效率低下，無法保證最先進的強化學習的安全運行。在強化學習理論中，你想根據(jù)一個特定的指標來改善一個代理的行為。為了改進這個度量，代理可以與環(huán)境交互，從中收集觀察結果和獎勵?？梢杂脙煞N不同的方式進行改進：論政策和非保險單。

在政策性案例中，必須通過代理人與環(huán)境的直接互動來實現(xiàn)改進。這種改進在數(shù)學上很簡單，但由于不允許重復使用樣本，因此阻礙了樣本效率。當代理行為得到改善時，代理必須與環(huán)境重新交互以生成新的 on 策略樣本。例如，在學習的早期階段， agentMIG 不適合與物理環(huán)境直接交互，因為它的行為是隨機的。在模擬任務中，樣本的可用性是無限的，有害行為的應用沒有危險。然而，對于實際應用，這些問題是嚴重的。

在關閉策略的情況下，可以通過與其他代理完成的環(huán)境的交互來改進代理的行為。這允許樣本重用和更安全的交互，因為與環(huán)境交互的代理可以是專家。例如，人類可以通過移動機械臂來采集樣本。

政策外改善的缺點是難以獲得可靠的估計。在目前的技術狀況下，所提出的技術要么具有高偏差，要么具有高方差。此外，有些技術對必須如何與環(huán)境進行交互有著具體而強烈的要求。

在這篇文章中，我討論了非參數(shù)非政策梯度（ NOPG ），它具有更好的偏差方差權衡，并且對如何生成非政策樣本沒有什么要求。 NOPG 是由 Darmstadt 的智能自治系統(tǒng)實驗室開發(fā)的，已經(jīng)被證明可以有效地解決一些經(jīng)典的控制問題，并克服了目前最先進的非策略梯度估計中存在的一些問題。有關詳細信息，請參見非參數(shù)的政策外政策梯度。

強化學習與政策外梯度

強化學習是機器學習的一個子領域，其中一個代理（我在這篇文章中稱之為策略）與環(huán)境交互并觀察環(huán)境的狀態(tài)和獎勵信號。代理人的目標是使累計折扣報酬最大化，如下式所示：

$latex.php?latex=J%5E%5Cpi+%3D+%5Cmathbb%7BE%7D%5Cleft%5B%5Csum_t+%5Cgamma%5Etr_t%5Cright%5D&bg=ffffff&fg=000&s=0$

代理通常由一組參數(shù)來參數(shù)化使得它能夠利用梯度優(yōu)化使強化學習目標最大化。坡度關于策略參數(shù)通常是未知的，并且很難以分析形式獲得。因此，你不得不用樣本來近似它。利用非策略樣本估計梯度主要有兩種方法：半梯度法和重要性抽樣法。

半梯度

這些方法在梯度展開中減少了一個項，這導致了估計量的偏差。理論上，這個偏差項仍然足夠低，足以保證梯度收斂到正確的解。然而，當引入其他近似源（例如有限樣本或臨界近似）時，不能保證收斂到最優(yōu)策略。在實踐中，經(jīng)常會觀察到性能不佳。

重要性抽樣

這些方法都是基于重要性抽樣校正的。這種估計通常會受到高方差的影響，并且這種方差在強化學習環(huán)境中會被放大，因為它會隨著情節(jié)的長度而倍增。涉及重要性抽樣的技術需要已知的隨機策略和基于軌跡的數(shù)據(jù)（與環(huán)境的順序交互）。因此，在這種情況下，不允許不完整的數(shù)據(jù)或基于人的交互。

非參數(shù)非政策梯度估計

強化學習理論的一個重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數(shù)：

求梯度的一種方法是用非參數(shù)技術近似 Bellman 方程，并進行解析求解。具體來說，可以構造一個非參數(shù)的報酬函數(shù)和轉移函數(shù)模型。

通過增加采樣數(shù)和減少內(nèi)核帶寬，您將向右收斂到無偏解。更準確地說，當方差縮小到零時，這個估計量是一致的。

非參數(shù) Bellman 方程的求解涉及到一組線性方程組的求解，該方程組可以通過矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線性代數(shù)運算，因此適合與 GPUs 并行計算。

求解非參數(shù) Bellman 方程后，梯度的計算變得非常簡單，可以使用自動微分工具，如 TensorFlow 或 PyTorch 來獲得。這些工具具有易于使用的 GPU 支持，與以前僅使用 CPU 的實現(xiàn)相比，這些工具已經(jīng)被證明實現(xiàn)了相當大的加速。

特別是， IASL 團隊在配備了四個 NVIDIA V100 GPUs 的 NVIDIA DGX 站上測試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個 NVIDIA 核有助于利用多處理技術進行多次評估，因此該機器非常適合于實證評估。有關實現(xiàn)代碼的更多信息，請參見非參數(shù)政策外政策梯度。

實證分析

為了評估 NOPG 相對于經(jīng)典的非政策梯度方法的性能，例如深度確定性策略梯度，或具有重要抽樣校正的 G-POMDP ，團隊選擇了一些經(jīng)典的低維控制任務：

線性二次型調節(jié)器

OpenAI 健身房秋千

手推車和電桿（ Quanser 平臺）

OpenAI 健身山地車

我的團隊的分析表明，與最先進的技術相比，這種方法更具優(yōu)勢。在表示為 NOPG-S 和 NOPG-D 的圖中，我們分別展示了隨機策略和確定性策略的算法：

PWIS （路徑重要性抽樣）

DPG （ deterministicpolicy gradient ），一種半梯度方法

DDPG （ deep deterministicy policy gradient ），在其經(jīng)典的在線和離線模式下

該團隊使用 OpenAI 基線對在線版本的 DDPG 進行編碼。

坡度的質量

圖 1 LQR 任務中的梯度方向。與 DPG 技術相比，方差是有利的。

圖 1 描述了參數(shù)空間中的漸變方向。真梯度（ TG ）是理想的梯度方向。當 PWIS 的方差較大時， DPG 表現(xiàn)出較大的偏差，兩種方法都無法優(yōu)化策略。相反，這種同時具有隨機和確定性策略的方法顯示出更好的偏差/方差權衡，并允許更好和一致的策略改進。

學習曲線

圖 2 該算法（ NOPG-D ， NOPG-S ）比其他基線具有更好的采樣效率。在實際系統(tǒng)上，驗證了所學習策略對車輛穩(wěn)定性的有效性。

圖 2 描述了算法關于一些經(jīng)典基線的學習曲線。該算法使用較少的樣本，取得了較好的效果。 cartpole 的最終策略已經(jīng)在一個真實的 cartpole 上進行了測試，如右圖所示。

從人類示范中學習

該算法可以處理基于人類的數(shù)據(jù)，而重要性抽樣技術并不直接適用。在這個實驗中，研究小組提供了次優(yōu)的，人類演示的山地車任務軌跡。

圖3 在左邊，提供了關于演示次數(shù)的算法學習曲線。該圖附有 95% 的置信區(qū)間。右邊是一個人類演示和隨后的政策在空間狀態(tài)下的表現(xiàn)的例子。

左邊的圖 3 顯示， NOPG 可以在只有兩個次優(yōu)的演示或軌跡的情況下獲得一個有效的策略。然而，更大的數(shù)字有助于它學習稍微好一點的政策。右邊是一個人類演示的例子（橙色）和策略優(yōu)化的結果（綠色）。人體在位置和速度空間的演示是次優(yōu)的，因為它需要更多的步驟來達到目標位置。即使人類的演示是次優(yōu)的，算法也能找到一個接近最優(yōu)的策略。

今后的工作

博世人工智能中心的一個應用是節(jié)流閥控制器。節(jié)流閥是用來調節(jié)流體或氣體流量的技術裝置。由于其復雜的動力學和物理約束，該裝置的控制具有挑戰(zhàn)性。

由于參數(shù)設置困難，設計最先進的控制器（如 PID 控制器）非常耗時。強化學習似乎特別適合這種應用。然而，政策外數(shù)據(jù)的可用性加上系統(tǒng)的低維性（系統(tǒng)可以用襟翼的角度和角速度來描述），使得它特別適合于 NOPG 方法。

結論

在這篇文章中，您研究了非政策梯度估計的問題。最先進的技術，如半梯度法和重要性抽樣法，往往不能提供一個可靠的估計。我討論了 NOPG ，它是在達姆施塔特的智能自治系統(tǒng)（ IAS ）實驗室開發(fā)的。

在經(jīng)典和低維任務（如 LQR 、擺起擺錘和 cartopole ）上， NOPG 方法是樣本有效的，與基線相比安全（也就是說，它可以向人類專家學習）。雖然重要性抽樣不適用，但該方法也能從次優(yōu)的人類演示數(shù)據(jù)中學習。然而，由于非參數(shù)方法不適用于高維問題，該算法僅限于低維任務。您可以研究深度學習技術的適用性，以允許降維，以及 Bellman 方程的不同近似值的使用，從而克服非參數(shù)技術的問題。

關于作者

Samuele Tosatto 是達姆施塔特理工大學的博士生。他的主要研究方向是將強化學習應用于現(xiàn)實世界的機器人技術。他認為，獲得更有效的學習算法對于縮短強化學習與實際機器人技術之間的差距至關重要。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

控制器

控制器

+關注

關注
114

文章
17902

瀏覽量
195628
機器人

機器人

+關注

關注
214

文章
31585

瀏覽量
224174
深度學習

深度學習

+關注

關注
73

文章
5613

瀏覽量
124710

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

用非參數(shù)方法提高強化學習的樣本效率

評論