日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google強(qiáng)化學(xué)習(xí)框架,要滿足哪三大特性

MqC7_CAAI_1981 ? 來源:未知 ? 作者:工程師郭婷 ? 2018-09-03 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強(qiáng)化學(xué)習(xí)是一種非常重要 AI 技術(shù),它能使用獎勵(或懲罰)來驅(qū)動智能體(agents)朝著特定目標(biāo)前進(jìn),比如它訓(xùn)練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網(wǎng)絡(luò)(DQN)的核心部分,它可以在多個 workers 之間分步學(xué)習(xí),例如,在 Atari 2600 游戲中實(shí)現(xiàn)“超人”性能。

麻煩的是,強(qiáng)化學(xué)習(xí)框架需要花費(fèi)大量時間來掌握一個目標(biāo),而且框架往往是不靈活和不總是穩(wěn)定的。

但不用擔(dān)心,Google 近日發(fā)布了一個替代方案:基于 TensorFlow 的開源強(qiáng)化學(xué)習(xí)框架 Dopamine(多巴胺)。

Google 的博文中提到,這個基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架,旨在為 RL 的研究人員提供靈活性,穩(wěn)定性和可重復(fù)性的研究。受到大腦中獎勵動機(jī)行為的主要成分的啟發(fā),以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺旨在實(shí)現(xiàn)可推動激進(jìn)發(fā)現(xiàn)的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

除了強(qiáng)化學(xué)習(xí)框架的發(fā)布,谷歌還推出了一個網(wǎng)站(https://google.github.io/dopamine/baselines/plots.html),允許開發(fā)人員快速可視化多個智能體的訓(xùn)練運(yùn)行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進(jìn)式還是激進(jìn)式的想法。

引入靈活和可重復(fù)的強(qiáng)化學(xué)習(xí)研究的新框架

強(qiáng)化學(xué)習(xí)(RL)研究在過去幾年中取得了許多重大進(jìn)展。這些進(jìn)步使得智能體可以以超人類級別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具體而言,在 DQN 中引入 replay memories 可以利用以前的智能體經(jīng)驗(yàn),大規(guī)模的分布式訓(xùn)練可以在多個 workers 之間分配學(xué)習(xí)過程,分布式方法允許智能體模擬完整的分布過程,而不僅僅是模擬它們期望值,以學(xué)習(xí)更完整的圖景。這種類型的進(jìn)展很重要,因?yàn)槌霈F(xiàn)這些進(jìn)步的算法還適用于其他領(lǐng)域,例如機(jī)器人技術(shù)。

通常,這種進(jìn)步都來自于快速迭代設(shè)計(jì)(通常沒有明確的方向),以及顛覆既定方法的結(jié)構(gòu)。然而,大多數(shù)現(xiàn)有的 RL 框架并沒有結(jié)合靈活性和穩(wěn)定性以及使研究人員能夠有效地迭代 RL 方法,并因此探索可能沒有直接明顯益處的新研究方向。此外,從現(xiàn)有框架再現(xiàn)結(jié)果通常太耗時,這可能導(dǎo)致科學(xué)的再現(xiàn)性問題。

今天,我們推出了一個新的基于 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。受到大腦中獎勵動機(jī)行為的主要成分的啟發(fā),以及反映神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺旨在實(shí)現(xiàn)可推動激進(jìn)發(fā)現(xiàn)的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

易用性

清晰和簡潔是該框架設(shè)計(jì)中要考慮的兩個關(guān)鍵因素。我們提供更精簡的代碼(大約 15 個Python 文件),并且有詳細(xì)記錄。這是通過專注于 Arcade 學(xué)習(xí)環(huán)境(一個成熟的,易于理解的基準(zhǔn))和四個基于 value 的智能體來實(shí)現(xiàn)的:DQN,C51,一個精心策劃的 Rainbow 智能體的簡化版本,以及隱式分位數(shù)網(wǎng)絡(luò)(Implicit Quantile Network)智能體,這已在上個月的 ICML 大會上已經(jīng)發(fā)表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內(nèi)部的運(yùn)作狀況,并積極嘗試新的想法。

可重復(fù)性

我們對重復(fù)性在強(qiáng)化學(xué)習(xí)研究中的重要性特別敏感。為此,我們?yōu)榇a提供完整的測試覆蓋率,這些測試也可作為其他文檔形式。此外,我們的實(shí)驗(yàn)框架遵循 Machado 等人給出的關(guān)于使用 Arcade 學(xué)習(xí)環(huán)境標(biāo)準(zhǔn)化經(jīng)驗(yàn)評估的建議。

基準(zhǔn)測試

對于新的研究人員來說,能夠根據(jù)既定方法快速對其想法進(jìn)行基準(zhǔn)測試非常重要。因此,我們?yōu)?Arcade 學(xué)習(xí)環(huán)境支持的 60 個游戲提供四個智能體的完整培訓(xùn)數(shù)據(jù),可用作 Python pickle 文件(用于使用我們框架訓(xùn)練的智能體)和 JSON 數(shù)據(jù)文件(用于與受過其他框架訓(xùn)練的智能體進(jìn)行比較);我們還提供了一個網(wǎng)站,你可以在其中快速查看 60 個游戲中所有智能體的訓(xùn)練運(yùn)行情況。

下面展示我們在 Seaquest 上的 4 個代理的訓(xùn)練情況,這是由 Arcade 學(xué)習(xí)環(huán)境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓(xùn)練。x 軸表示迭代,其中每次迭代是 100 萬個游戲幀(4.5 小時的實(shí)時游戲);y 軸是每場比賽獲得的平均分?jǐn)?shù)。陰影區(qū)域顯示的是來自 5 次獨(dú)立運(yùn)行的置信區(qū)間。

我們還提供已經(jīng)訓(xùn)練好的深度網(wǎng)絡(luò),原始統(tǒng)計(jì)日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網(wǎng)站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法,包括漸進(jìn)式和激進(jìn)式的想法。我們已經(jīng)積極地將它用于我們的研究,并發(fā)現(xiàn)它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區(qū)做些貢獻(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1817

    瀏覽量

    60655
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41354

    瀏覽量

    302735

原文標(biāo)題:Google發(fā)布“多巴胺”開源強(qiáng)化學(xué)習(xí)框架,三大特性全滿足

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型實(shí)現(xiàn)量產(chǎn)首發(fā)

    等話題展開深度對話,正式宣布Momenta R7強(qiáng)化學(xué)習(xí)世界模型實(shí)現(xiàn)量產(chǎn)首發(fā),標(biāo)志著智能駕駛從“看見世界”到“理解世界”的全新跨越,物理AI正式從技術(shù)理念走向規(guī)?;慨a(chǎn)落地。
    的頭像 發(fā)表于 04-29 15:44 ?727次閱讀

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強(qiáng)化學(xué)習(xí)世界模型。這意味著Momenta R7率先在全球強(qiáng)化學(xué)習(xí)+世界模型方向上取得量產(chǎn)突破——標(biāo)志著物理AI上車。
    的頭像 發(fā)表于 04-29 15:42 ?664次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強(qiáng)化學(xué)習(xí)大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強(qiáng)化學(xué)習(xí)大模型。
    的頭像 發(fā)表于 04-09 09:33 ?255次閱讀

    上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強(qiáng)化學(xué)習(xí)世界模型

    3月30日,Momenta R7強(qiáng)化學(xué)習(xí)世界模型全球首發(fā)搭載車型——上汽大眾ID. ERA 9X正式開啟預(yù)售。
    的頭像 發(fā)表于 03-31 13:48 ?432次閱讀

    Momenta R6強(qiáng)化學(xué)習(xí)大模型上車東風(fēng)日產(chǎn)NX8

    3月20日,東風(fēng)日產(chǎn)NX8技術(shù)暨預(yù)售發(fā)布會在廣州舉辦,官宣Momenta R6強(qiáng)化學(xué)習(xí)大模型正式上車東風(fēng)日產(chǎn)新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?897次閱讀

    Momenta強(qiáng)化學(xué)習(xí)大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強(qiáng)化學(xué)習(xí)大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術(shù)積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗(yàn)。
    的頭像 發(fā)表于 03-18 15:48 ?350次閱讀

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術(shù)發(fā)布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術(shù)亮點(diǎn)。會上,Momenta CEO曹旭東正式宣布:Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV ID. ERA 9X。
    的頭像 發(fā)表于 03-17 13:57 ?1259次閱讀

    防漆是指

    的常用材料,不少人都會好奇:防漆是指防,它又憑借什么成為電子設(shè)備的防護(hù)選擇?防漆是指
    的頭像 發(fā)表于 02-28 15:19 ?338次閱讀
    <b class='flag-5'>三</b>防漆是指<b class='flag-5'>哪</b><b class='flag-5'>三</b>防

    自動駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學(xué)習(xí)時,詳細(xì)聊過強(qiáng)化學(xué)習(xí)的作用,由于強(qiáng)化學(xué)習(xí)能讓大模型通過交互學(xué)到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造了更多可能。 強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 02-07 09:21 ?380次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    強(qiáng)化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?860次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓(xùn)練五個智能體,而且每個都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?354次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型,帶來全場景的智能出行體驗(yàn)。
    的頭像 發(fā)表于 01-12 16:23 ?533次閱讀

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國軟件公司SAS退出中國市場

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)方案,機(jī)器人
    發(fā)表于 11-05 09:44 ?1174次閱讀

    自動駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過試錯來學(xué)會做決策的技術(shù)。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?936次閱讀
    自動駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯誤中進(jìn)行
    的頭像 發(fā)表于 07-14 15:29 ?2679次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南
    靖西县| 岢岚县| 沁水县| 嘉义市| 和林格尔县| 革吉县| 深水埗区| 晋城| 铜川市| 凌海市| 天全县| 无极县| 边坝县| 柯坪县| 长岛县| 合阳县| 喀什市| 星座| 黎川县| 麦盖提县| 寻甸| 柞水县| 阳春市| 双牌县| 习水县| 永川市| 左权县| 密山市| 聂拉木县| 武平县| 都江堰市| 海林市| 莆田市| 临海市| 和平区| 巫山县| 东乌珠穆沁旗| 宜兴市| 巩留县| 丰县| 封丘县|