日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI開(kāi)放模擬機(jī)器人環(huán)境和HER算法,讓機(jī)器人從失敗中學(xué)習(xí)

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李建兵 ? 2018-03-16 11:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從錯(cuò)誤中吸取教訓(xùn)是人類能長(zhǎng)久保持優(yōu)勢(shì)的原因之一,即使我們做了失敗的嘗試,但至少有一部分是正確的,總結(jié)經(jīng)驗(yàn)后也能成功。

機(jī)器人也可以使用類似的試錯(cuò)法學(xué)習(xí)新任務(wù)。通過(guò)強(qiáng)化學(xué)習(xí),機(jī)器人嘗試用不同的方法做一件事,如果嘗試的方法有效則會(huì)獲得獎(jiǎng)勵(lì)。給予獎(jiǎng)勵(lì)生成的強(qiáng)化,機(jī)器人會(huì)不斷嘗試直到成功到達(dá)目標(biāo)。

人與機(jī)器的不同之處在于我們?nèi)绾螐氖『统晒χ袑W(xué)習(xí),從中我們不僅知道哪些東西對(duì)實(shí)現(xiàn)目標(biāo)沒(méi)有幫助,而且能了解為什么失敗以及之后如何避免。這就使我們能比機(jī)器人更有效地學(xué)習(xí)。

今天,位于美國(guó)舊金山的人工智能研究機(jī)構(gòu)OpenAI發(fā)布了一款開(kāi)源算法,名為Hindsight Experience Replay(HER),該算法將失敗作為成功的手段,讓機(jī)器人像人類一樣學(xué)習(xí)。

HER的重要特征是它能像人類一樣,即使沒(méi)有達(dá)到預(yù)期目標(biāo),但至少收獲了其他成果。那么為什么不假裝這就是最初想實(shí)現(xiàn)的目標(biāo)呢?

Spectrum IEEE的編輯Evan Ackerman用比喻具體形容了HER的原理:想像一下你正要擊打棒球,目標(biāo)是全壘打。但是在第一次擊球時(shí),球出界了,雖然沒(méi)有做到全壘打,但是你卻知道了一種打出界球的方法。事后通過(guò)總結(jié),你可以這么想:“如果我的目標(biāo)就是打個(gè)出界球,那么剛剛的那一記擊球就是完美的!”雖然沒(méi)有打出全壘打,但仍然有了進(jìn)步。

HER的另一個(gè)優(yōu)點(diǎn)是它使用了研究人員所稱的“稀疏獎(jiǎng)勵(lì)”來(lái)指導(dǎo)學(xué)習(xí)。獎(jiǎng)勵(lì)是我們?nèi)绾胃嬖V機(jī)器人它們的所作所為對(duì)強(qiáng)化學(xué)習(xí)是好事還是壞事。大多數(shù)強(qiáng)化學(xué)習(xí)算法使用的是“密集獎(jiǎng)勵(lì)”,機(jī)器人根據(jù)完成目標(biāo)的程度獲得不同大小的cookies。這些cookies可以單獨(dú)獎(jiǎng)勵(lì)任務(wù)的一個(gè)方面,并在某種程度上幫助指導(dǎo)機(jī)器人按照指示的方式學(xué)習(xí)。

密集獎(jiǎng)勵(lì)很有效,但是部署起來(lái)卻有些麻煩,并且在有些情況下并不是那么實(shí)用。大多數(shù)應(yīng)用非常關(guān)注結(jié)果,并且出于實(shí)用的目的,你可以從中取得成功,也可能不成功。稀疏獎(jiǎng)勵(lì)是指,機(jī)器人在成功后只得到一個(gè)cookie,這樣一來(lái),該程序就更容易測(cè)量、編程和實(shí)施。但另一方面,這種方法可能會(huì)降低學(xué)習(xí)速度,因?yàn)闄C(jī)器人沒(méi)有獲得增量反饋,它只是被一遍又一遍地告訴“沒(méi)有cookie”,除非它非常幸運(yùn)地偶然成功了。

這就是HER的基本原理:它讓機(jī)器人通過(guò)分散獎(jiǎng)勵(lì)學(xué)習(xí),改變?cè)镜哪繕?biāo),把每次嘗試行為都看做成功,所以機(jī)器人每次都能學(xué)到一些東西。

通過(guò)這種方法,強(qiáng)化學(xué)習(xí)算法可以獲得學(xué)習(xí)信號(hào),因?yàn)樗呀?jīng)實(shí)現(xiàn)了一些目標(biāo);即使它不是你原本想達(dá)到的目標(biāo),如果重復(fù)這個(gè)過(guò)程,最終機(jī)器人也會(huì)實(shí)現(xiàn)任意一種目標(biāo),包括最初真正的目標(biāo)。

下面的視頻是HER方法與其他深度學(xué)習(xí)方法在實(shí)踐中的對(duì)比,左邊是新開(kāi)發(fā)的HER方法,右邊是T. Lillicrap等人于2015年提出的深度決定性策略梯度(DDPG)方法:

最終的結(jié)果對(duì)比差別非常大:

HandManipulateBlockRotateXYZ-v0上四個(gè)不同配置下的中位測(cè)試成功率(曲線)和四分位范圍(陰影部分)。數(shù)據(jù)繪制于訓(xùn)練時(shí)期,每種配置下每隔五個(gè)隨機(jī)種子就進(jìn)行總結(jié)

帶有稀疏獎(jiǎng)勵(lì)的DDPG+HER明顯優(yōu)于其他所有配置,并且只從稀疏獎(jiǎng)勵(lì)中學(xué)習(xí)了成功策略來(lái)完成這項(xiàng)具有挑戰(zhàn)性的任務(wù)。有趣的是,帶有密集獎(jiǎng)勵(lì)的DDPG+HER能夠?qū)W習(xí),但表現(xiàn)得卻不好。而Vanilla DDPG的兩種配置均不能學(xué)習(xí)。完整的實(shí)驗(yàn)結(jié)果可以在論文中查看。

OpenAI此次發(fā)布了八個(gè)Gym模擬機(jī)器人環(huán)境(Gym是OpenAI用于開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,它能教智能體各種任務(wù),比如走路、打乒乓球或玩彈球等),其中四個(gè)用于Fetch研究平臺(tái),四個(gè)用于ShadowHand機(jī)器人,使用的是MuJoCo物理模擬引擎。

Fetch上的四個(gè)環(huán)境

機(jī)械臂末端以最快速度移動(dòng)到目標(biāo)位置

擊中灰色目標(biāo),使其滑動(dòng)到桌上一固定位置

用機(jī)械臂末端推動(dòng)正方體使其到達(dá)目標(biāo)位置

機(jī)械臂抓取桌上的正方體,并停留在桌子上方某固定位置

ShadowHand上的四個(gè)環(huán)境

將拇指和另一個(gè)手指移動(dòng)到指定位置

在手上翻轉(zhuǎn)正方體直到達(dá)到預(yù)期位置

在手上翻轉(zhuǎn)彩蛋直到達(dá)到預(yù)期位置

在手上轉(zhuǎn)筆直到達(dá)到預(yù)期位置

HER的問(wèn)題

雖然HER對(duì)于學(xué)習(xí)稀疏獎(jiǎng)勵(lì)的復(fù)雜任務(wù)是很有前景的方式,但它仍存在改進(jìn)的空間。和OpenAI最近發(fā)布的Request for Research 2.0相似,研究人員針對(duì)HER的進(jìn)步提出了一下幾條想法:

事后自動(dòng)創(chuàng)建目標(biāo)。目前的HER使用硬編碼策略選擇目標(biāo),如果算法可以自動(dòng)學(xué)習(xí)應(yīng)該會(huì)很有趣。

無(wú)偏差HER。替換目標(biāo)以無(wú)原則的方式改變了經(jīng)驗(yàn)的分布。這種偏差在理論上會(huì)導(dǎo)致不穩(wěn)定,盡管在實(shí)踐中還沒(méi)有遇到這種情況。

HER+HRL。將HER與最近推出的層次強(qiáng)化學(xué)習(xí)(HRL)結(jié)合起來(lái)一定很有趣。這樣一來(lái),HER不僅僅可以應(yīng)用到目標(biāo)上,還能應(yīng)用到較高層次的策略生成的動(dòng)作上。例如,如果較高層次命令低層次實(shí)現(xiàn)目標(biāo)A,結(jié)果實(shí)現(xiàn)了目標(biāo)B,那么我們可以假設(shè)高層次原本命令的是目標(biāo)B。

更豐富的價(jià)值函數(shù)。擴(kuò)展最近的研究,并在額外的輸入上調(diào)整價(jià)值函數(shù),例如折扣因子或成功閾值。

更快的信息傳播。大多數(shù)off-policy深度強(qiáng)化學(xué)習(xí)算法使用目標(biāo)網(wǎng)絡(luò)來(lái)穩(wěn)定訓(xùn)練。然而,由于改變需要時(shí)間傳播,就會(huì)限制訓(xùn)練的速度。我們注意到在我們的實(shí)驗(yàn)中,這是決定DDPG+HER學(xué)習(xí)速度最重要的因素。

HER+多步驟回報(bào)。由于我們更換了目標(biāo),HER上的實(shí)驗(yàn)是off-policy的。所以用多步驟回報(bào)使用它就變得困難了。然而,多步驟回報(bào)能讓信息傳播的速度更快,所以也是可行的。

On-policy HER。目前,HER只能與off-policy算法一起使用。但是,最近的算法如PPO的穩(wěn)定性非常好。所以我們可以研究一下HER能否與on-policy算法一起使用。

高頻動(dòng)作的強(qiáng)化學(xué)習(xí)。目前的強(qiáng)化學(xué)習(xí)算法對(duì)動(dòng)作過(guò)多的案例十分敏感,這就是為什么跳幀技術(shù)經(jīng)常用于雅達(dá)利游戲。在連續(xù)控制領(lǐng)域,動(dòng)作頻率越趨近于無(wú)窮,性能則越趨近于零。這是由兩個(gè)因素造成的:不一致的探索,和需要多次引導(dǎo)來(lái)傳播信息。

將HER與強(qiáng)化學(xué)習(xí)的最近進(jìn)展相結(jié)合。最近,強(qiáng)化學(xué)習(xí)在多個(gè)方面都有了很大進(jìn)步,它可以和優(yōu)先經(jīng)驗(yàn)回放(Prioritized Experience Replay)、分布強(qiáng)化學(xué)習(xí)(distributional RL)以及entropy-regularized RL或反向課程生成相結(jié)合。

在論文中你可以找到關(guān)于新Gym環(huán)境應(yīng)用的更多信息。

使用基于目標(biāo)的環(huán)境

引入“目標(biāo)”概念需要對(duì)現(xiàn)有Gym的API進(jìn)行一些反向兼容更改:

所有基于目標(biāo)的環(huán)境使用gym.spaces.Dict觀察空間。環(huán)境需要包含一個(gè)智能體嘗試達(dá)到的預(yù)期目標(biāo)(desired_goal)、一個(gè)目前已經(jīng)達(dá)到的目標(biāo)(achieved_goal)、以及實(shí)際觀察(observation),例如機(jī)器人的狀態(tài)。

我們公開(kāi)環(huán)境的獎(jiǎng)勵(lì)函數(shù)以重新計(jì)算更換目標(biāo)之后的獎(jiǎng)勵(lì)。

下面是在新的基于目標(biāo)的環(huán)境中,執(zhí)行目標(biāo)替換時(shí)的簡(jiǎn)單例子:

import numpy as np

import gym

env = gym.make('FetchReach-v0')

obs = env.reset()

done = False

def policy(observation, desired_goal):

# Here you would implement your smarter policy. In this case,

# we just sample random actions.

return env.action_space.sample()

whilenotdone:

action = policy(obs['observation'], obs['desired_goal'])

obs, reward, done, info = env.step(action)

# If we want, we can substitute a goal here and re-compute

# the reward. For instance, we can just pretend that the desired

# goal was what we achieved all along.

substitute_goal = obs['achieved_goal'].copy()

substitute_reward = env.compute_reward(

obs['achieved_goal'], substitute_goal, info)

print('reward is {}, substitute_reward is {}'.format(

reward, substitute_reward))

新的環(huán)境可以使用與Gym兼容的強(qiáng)化學(xué)習(xí)算法,如Baselines。用gym.wrappers.FlattenDictWrapper將基于字典的觀察空間壓縮成一個(gè)數(shù)組。

import numpy as np

import gym

env = gym.make('FetchReach-v0')

# Simply wrap the goal-based environment using FlattenDictWrapper

# and specify the keys that you would like to use.

env = gym.wrappers.FlattenDictWrapper(

env, dict_keys=['observation', 'desired_goal'])

# From now on, you can use the wrapper env as per usual:

ob = env.reset()

print(ob.shape) # is now just an np.array

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4811

    瀏覽量

    98628
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41458

    瀏覽量

    302787
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50388

    瀏覽量

    267147

原文標(biāo)題:OpenAI開(kāi)放模擬機(jī)器人環(huán)境和HER算法,讓機(jī)器人從失敗中學(xué)習(xí)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于米爾RK3576核心板的國(guó)產(chǎn)割草機(jī)器人解決方案

    在智慧庭院與機(jī)器人產(chǎn)業(yè)高速發(fā)展的今天,割草機(jī)器人正經(jīng)歷“隨機(jī)碰撞式”向“規(guī)劃自主式”的深刻變革。與此同時(shí),在國(guó)產(chǎn)化替代、供應(yīng)鏈自主可控的產(chǎn)業(yè)政策推動(dòng)下,國(guó)內(nèi)整機(jī)廠商對(duì)高算力、低功耗、國(guó)產(chǎn)自主可控
    發(fā)表于 04-24 17:31

    為什么說(shuō)關(guān)節(jié)扭矩傳感器是高端機(jī)器人的“觸覺(jué)神經(jīng)”?

    如果把高端機(jī)器人比作一個(gè)“”,那么關(guān)節(jié)扭矩傳感器就是遍布全身的“觸覺(jué)神經(jīng)”。沒(méi)有它,機(jī)器人就像得了末梢神經(jīng)麻痹——能按程序動(dòng),卻感受不到外界的力量,動(dòng)作僵硬、笨拙,甚至危險(xiǎn)。 核心原因:
    發(fā)表于 04-17 17:27

    人形機(jī)器人與物理人工智能的崛起

    機(jī)器人曾只存在于虛構(gòu)作品中,是服從指令的機(jī)器。機(jī)器人曾是人類智能的延伸,如今它們已在現(xiàn)實(shí)世界中學(xué)習(xí)、移動(dòng)與適應(yīng)。
    的頭像 發(fā)表于 03-13 11:29 ?735次閱讀

    再談低溫?zé)Y(jié)銀的應(yīng)用:春晚四家機(jī)器人出鏡的幕后推手說(shuō)起

    再談低溫?zé)Y(jié)銀的應(yīng)用:春晚四家機(jī)器人出鏡的幕后推手說(shuō)起 2026年馬年春晚四家機(jī)器人公司:宇樹(shù)、魔法原子、銀河通用、松延動(dòng)力的高動(dòng)態(tài)、高精度、高可靠表現(xiàn),背后離不開(kāi)低溫?zé)Y(jié)銀在電機(jī)驅(qū)動(dòng)、傳感器
    發(fā)表于 02-17 14:07

    探索RISC-V在機(jī)器人領(lǐng)域的潛力

    利用Gazebo仿真環(huán)境(在x86主機(jī)上運(yùn)行)和MUSE Pi Pro上的ROS 2節(jié)點(diǎn)進(jìn)行了聯(lián)合仿真。 ? 場(chǎng)景: 在PC的Gazebo中運(yùn)行一個(gè)TurtleBot3機(jī)器人模型,MUSE Pi
    發(fā)表于 12-03 14:40

    高精度機(jī)器人控制的核心——基于 MYD-LT536 開(kāi)發(fā)板的精密運(yùn)動(dòng)控制方案

    算法與 C++ 實(shí)時(shí)模塊開(kāi)發(fā); - 可作為控制核心部署在高精度測(cè)量機(jī)器人、激光切割機(jī)械臂、協(xié)作機(jī)械臂、AGV導(dǎo)航車(chē)等系統(tǒng)中; - 具備機(jī)器人動(dòng)態(tài)補(bǔ)償算法與誤差校正方案運(yùn)行
    發(fā)表于 11-14 15:48

    RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知

    ?RK3576的強(qiáng)大并非偶然,其架構(gòu)設(shè)計(jì)完美契合了現(xiàn)代機(jī)器人的核心需求:· 強(qiáng)大的異構(gòu)計(jì)算與AI能力:內(nèi)置的NPU為機(jī)器人的視覺(jué)AI算法(如SLAM、行為識(shí)別、手勢(shì)交互)提供了強(qiáng)勁的算力支持,
    發(fā)表于 10-29 16:41

    小蘿卜機(jī)器人的故事

    代替, LED, 有大佬感興趣, 一起關(guān)注和討論代碼, 這個(gè)機(jī)器人知名度不高, 可是是機(jī)器人的原型, 如果開(kāi)放接口, 定位和無(wú)線充電, 也不失為未來(lái)的禮物。 讓我們?yōu)樾√}卜工程師的, 自掏腰包救蘿卜
    發(fā)表于 10-23 05:24

    自制巡線解迷宮機(jī)器人(上)

    作為上層決策單元,是整個(gè)機(jī)器人硬件架構(gòu)中的核心。在本次的巡線解迷宮機(jī)器人中,它主要用于采樣紅外反射傳感器回傳的模擬數(shù)據(jù)并根據(jù)PID算法進(jìn)行數(shù)學(xué)運(yùn)算,最后將計(jì)算結(jié)果以邏輯電平信號(hào)的形式反
    發(fā)表于 10-20 10:39

    什么是機(jī)器人?追溯機(jī)器人技術(shù)的演變和未來(lái)

    的定義。機(jī)器人的定義,真如表面看起來(lái)那么簡(jiǎn)單直白?還是比我們所認(rèn)為的更為復(fù)雜呢? 本質(zhì)上講,機(jī)器人是一種可編程機(jī)器,能夠感知、處理信息,并自主或在一定程度的人工指令引導(dǎo)下執(zhí)行任務(wù)。與
    的頭像 發(fā)表于 10-02 16:32 ?5764次閱讀
    什么是<b class='flag-5'>機(jī)器人</b>?追溯<b class='flag-5'>機(jī)器人</b>技術(shù)的演變和未來(lái)

    機(jī)器人競(jìng)技幕后:磁傳感器芯片激活 “精準(zhǔn)感知力”

    ,也推動(dòng)著機(jī)器人應(yīng)用場(chǎng)景變革。昆泰芯 KTH71 系列傳感器芯片工作溫度范圍擴(kuò)展至 - 40℃~125℃,機(jī)器人首次能在 “極寒救援模擬”“高溫焊接挑戰(zhàn)” 等極端項(xiàng)目中穩(wěn)定運(yùn)作,某團(tuán)
    發(fā)表于 08-26 10:02

    工業(yè)機(jī)器人的特點(diǎn)

    0.3%的年化生產(chǎn)力提升。因此,發(fā)展工業(yè)機(jī)器人推動(dòng)國(guó)內(nèi)自動(dòng)化水平,提高產(chǎn)出是目前的不二之選。 ** 適用范圍廣** 機(jī)器人相對(duì)于工人的優(yōu)勢(shì)還體現(xiàn)在應(yīng)用范圍廣。機(jī)器人可以運(yùn)用在危險(xiǎn)、惡劣的環(huán)境
    發(fā)表于 07-26 11:22

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    接口則語(yǔ)音機(jī)器人可以連接到互聯(lián)網(wǎng),實(shí)時(shí)獲取最新的信息,增強(qiáng)其智能性和交互能力。 在實(shí)際應(yīng)用場(chǎng)景中,以智能客服語(yǔ)音機(jī)器人為例。SSD2351開(kāi)發(fā)板可以驅(qū)動(dòng)語(yǔ)音識(shí)別模塊,準(zhǔn)確識(shí)別用戶的問(wèn)題,并在本地或
    發(fā)表于 05-28 11:36

    盤(pán)點(diǎn)#機(jī)器人開(kāi)發(fā)平臺(tái)

    地瓜機(jī)器人RDK X5開(kāi)發(fā)套件地瓜機(jī)器人RDK X5開(kāi)發(fā)套件產(chǎn)品介紹 旭日5芯片10TOPs算力-電子發(fā)燒友網(wǎng)機(jī)器人開(kāi)發(fā)套件 Kria KR260機(jī)器人開(kāi)發(fā)套件 Kria KR260-
    發(fā)表于 05-13 15:02

    詳細(xì)介紹機(jī)場(chǎng)智能指路機(jī)器人的工作原理

    負(fù)責(zé)接收旅客的語(yǔ)音指令,以便機(jī)器人理解旅客的需求。 環(huán)境感知與信息融合 :這些傳感器收集到的信息會(huì)進(jìn)行融合處理。例如,激光雷達(dá)提供的距離信息和攝像頭捕捉的視覺(jué)信息相結(jié)合,能讓機(jī)器人更準(zhǔn)確地識(shí)別周?chē)?/div>
    發(fā)表于 05-10 18:26
    清水县| 舞钢市| 龙岩市| 九寨沟县| 台安县| 含山县| 兴城市| 迁安市| 岳池县| 泰和县| 荃湾区| 杭州市| 靖边县| 株洲市| 公主岭市| 夏河县| 上犹县| 宕昌县| 扎兰屯市| 鹤山市| 桐城市| 荆州市| 华池县| 包头市| 绥棱县| 凌海市| 盘锦市| 红安县| 山阳县| 澜沧| 海城市| 玉田县| 盐津县| 辉县市| 沭阳县| 新民市| 雷州市| 云林县| 温泉县| 井冈山市| 罗城|