日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

【重磅】DeepMind發(fā)布通用強化學習新范式,自主機器人可學會任何任務

DPVg_AI_era ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-19 14:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


新智元報道

來源:DeepMind

編譯:Marvin

【新智元導讀】DeepMind今天發(fā)表博客文章,提出一種稱為SAC-X(計劃輔助控制)的新學習范式,旨在解決讓AI以最少的先驗知識,從頭開始學習復雜控制問題的挑戰(zhàn)。這在真實環(huán)境中成功讓機械臂從頭開始學習拾放物體。研究者認為,SAC-X是一種通用的強化學習方法,未來可以應用于機器人以外的更廣泛領域。

讓孩子(甚至成年人)在使用物品之后自己收拾可能是頗有挑戰(zhàn)性的事情,但我們面臨一個更大的挑戰(zhàn):試圖讓我們的AI也這樣做。成功與否取決于AI是否掌握幾個核心的視覺運動技能:接近一個物體,抓住并舉起它,然后打開一個盒子并把物體放進里面。使事情更復雜的是,這些技能還必須用正確的順序做。

控制任務(control tasks),例如整理桌子或堆放物體,要求agent能夠確定如何、何時以及在哪里協(xié)調它的模擬手臂和手指的9個關節(jié),以正確地移動物體,實現(xiàn)它的目標。在任何給定一段時間里,可能的運動組合數量會非常龐大,并且需要執(zhí)行一系列正確的操作,這就構成了一個嚴峻的探索性問題——使得這成為強化學習研究的一個特別有趣的領域。

獎賞塑形(reward shaping)、學徒學習(apprenticeship learning)以及示范學習等技巧可以幫助解決這個問題。但是,這些方法依賴于大量的關于任務的知識——以最少的先驗知識,從頭開始學習復雜控制問題,仍然是一個公開的挑戰(zhàn)。

DeepMind近日發(fā)表的新論文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一種新的學習范式,稱為“Scheduled Auxiliary Control (SAC-X)”(計劃輔助控制),旨在解決這個問題。SAC-X的想法是要從頭開始學習復雜的任務,那么agent必須先學習探索和掌握一套基本的技能。就像嬰兒在學會爬行和走路之前必須先發(fā)展協(xié)調和平衡的能力一樣,向agent提供一些與簡單的技能相對應的內部(輔助)目標可以增加它理解和成功執(zhí)行更復雜任務的機會。

我們在幾個模擬的和真實的機器人任務中演示了SAC-X的方法,包含各種任務,例如不同類物體的堆疊問題,場地整理問題(需要將物體放入盒子)。 我們定義的輔助任務遵循一個總原則:它們鼓勵agent去探索它的感知空間( sensor space)。 例如,激活它的手指上的觸摸傳感器,感知其手腕受到的力,使其本體感受傳感器( proprioceptive sensors)中的關節(jié)角度達到最大,或強制物體在其視覺相機傳感器中移動。如果達到了目標,每個任務會關聯(lián)到一個簡單的獎勵,否則獎勵為零。

圖2:agent學習的第一件事是激活手指上的觸摸傳感器,并移動兩個物體。

圖3:模擬agent最終掌握了“堆疊”物體這個復雜任務。

然后,agent就可以自行決定它當前的“意圖”(intention),即接下來的目標。目標可以是輔助任務或外部定義的目標任務。更重要的是,agent可以通過充分利用off-policy learning來檢測并從其他任務的獎勵信號學習。例如,在拾取或移動一個物體時,agent可能會順便把它堆疊起來,從而得到“堆疊”的獎勵。由于一系列簡單的任務可以導致觀察到罕見的外部獎勵,所以將“意圖”進行安排(schedule)的能力是至關重要的。這可以根據所收集到的所有相關知識創(chuàng)建一個個性化的學習課程。

事實證明,這是在如此大的一個領域中充分利用知識的一種有效方法,而且在只有很少的外部獎勵信號的情況下尤其有用。我們的agent通過一個 scheduling 模塊來決定遵循那個意圖。在訓練過程中,scheduler通過一個meta-learning算法進行優(yōu)化,該算法試圖使主任務的進度最大化,從而顯著提高數據效率。

圖4:在探索了許多內部輔助任務之后,agent學習如何堆疊和整理物體。

我們的評估顯示,SAC-X能夠解決我們從頭設置的所有任務——使用相同的底層輔助任務集。更令人興奮的是,我們在實驗室的一個真實的機械臂上直接利用SAC-X,成功地從頭開始學會了拾取和放置任務。過去,這一點特別具有挑戰(zhàn)性,因為真實世界中機器人的學習需要數據效率,所以主流的方法是在模擬環(huán)境中預訓練(pre-train)一個agent,然后將agent轉移到真實的機械臂。

圖5:在真正的機械臂上,SAC-X學習如何從頭開始拾取和移動綠色方塊。它此前從未見過這一任務。

我們認為SAC-X是從頭開始學習控制任務的重要一步,只需指定一個總體目標。SAC-X允許你任意定義輔助任務:可以基于一般性認識(例如在個實驗中是故意激活傳感器),但最終可以包含研究人員認為重要的任何任務。從這個角度看,SAC-X是一種通用的強化學習方法,不止是控制和機器人領域,可以廣泛應用于一般的稀疏強化學習環(huán)境。

這一工作由以下研究者共同完成:Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.


【2018 新智元 AI 技術峰會倒計時28天】大會早鳥票已經售罄,現(xiàn)正式進入全額票階段。


2017 年,作為人工智能領域最具影響力的產業(yè)服務平臺——新智元成功舉辦了「新智元開源 · 生態(tài)技術峰會」和「2017AIWORLD 世界人工智能大會」。憑借超高活動人氣及行業(yè)影響力,獲得2017 年度活動行 “年度最具影響力主辦方”獎項。

其中「2017AIWORLD 世界人工智能大會」創(chuàng)人工智能領域活動先河,參會人次超 5000;開場視頻在騰訊視頻點播量超 100 萬;新華網圖文直播超 1200 萬;

2018 年的 3 月 29 日,新智元再匯 AI 之力,共筑產業(yè)躍遷之路,將在北京舉辦 2018 年中國 AI 開年盛典——2018 新智元 AI 技術峰會。本次峰會以 “產業(yè) · 躍遷” 為主題,特邀諾貝爾獎評委 德國人工智能研究中心創(chuàng)始人兼 CEO Wolfgang Wahlster 親臨現(xiàn)場與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業(yè)重量級嘉賓,共同研討技術變革,助力領域融合發(fā)展。

新智元誠摯邀請關心人工智能行業(yè)發(fā)展的各界人士 3 月 29 日親臨峰會現(xiàn)場,共同參與這一跨領域的思維碰撞。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:【重磅】DeepMind發(fā)布通用強化學習新范式,自主機器人可學會任何任務

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    北京人形具身天工3.0斬獲全球首個全自主機器人勇士挑戰(zhàn)賽冠軍

      4月18日,首屆北京亦莊機器人勇士挑戰(zhàn)賽圓滿舉行,由優(yōu)必選作為大股東和總經理單位牽頭成立的北京人形機器人創(chuàng)新中心(以下簡稱:北京人形)攜具身天工3.0全尺寸通用人形機器人參賽,以全
    的頭像 發(fā)表于 04-21 17:28 ?1073次閱讀

    NVIDIA如何用AI構建機器人

    下一代機器人將是通用型專家,既能理解指令、學習通用技能,又可針對特定任務進行訓練。
    的頭像 發(fā)表于 03-25 09:55 ?901次閱讀

    全球首個!銀河通用自主人形機器人打網球火爆全球

    北京2026年3月23日 /美通社/ -- 近日,銀河通用機器人與真人選手的連續(xù)自主網球對打視頻刷爆全網。 這背后是銀河通用機器人發(fā)布的最新成果—— 全球首個面向網球對抗的人形
    的頭像 發(fā)表于 03-23 11:49 ?201次閱讀
    全球首個!銀河<b class='flag-5'>通用</b>全<b class='flag-5'>自主</b>人形<b class='flag-5'>機器人</b>打網球火爆全球

    再談低溫燒結銀的應用:從春晚四家機器人出鏡的幕后推手說起

    ,完成翻跟頭、脖子延伸、互動接梗,強調關節(jié)靈活+低功率+長期穩(wěn)定。 銀河通用:《我最難忘的今宵》:Galbot G1具身智能,自主決策、精細操作,依賴AI芯片+傳感器+高效互連。 2機器人動得穩(wěn)、準、快
    發(fā)表于 02-17 14:07

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監(jiān)督學習不同,監(jiān)督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴
    的頭像 發(fā)表于 01-31 09:34 ?849次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    商湯科技聯(lián)合創(chuàng)始王曉剛擔任大曉機器人董事長

    大曉機器人將于12月18日正式亮相,重磅發(fā)布多項全球領先的技術與產品陣列,并將推出首個國內開源且實現(xiàn)商業(yè)應用的“開悟”世界模型3.0,與行業(yè)伙伴一同構建自主可控、開放共贏的產業(yè)體系。商
    的頭像 發(fā)表于 12-08 11:31 ?849次閱讀

    探索RISC-V在機器人領域的潛力

    利用Gazebo仿真環(huán)境(在x86主機上運行)和MUSE Pi Pro上的ROS 2節(jié)點進行了聯(lián)合仿真。 ? 場景: 在PC的Gazebo中運行一個TurtleBot3機器人模型,MUSE Pi
    發(fā)表于 12-03 14:40

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機
    發(fā)表于 11-05 09:44 ?1174次閱讀

    RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知

    機器人· 應用領域:迎賓機器人、養(yǎng)老機器人、導覽機器人· 多攝像頭輸入:同時實現(xiàn)人臉識別(迎賓)、跌倒檢測(養(yǎng)老)、自主導航避障(導覽)等多
    發(fā)表于 10-29 16:41

    自動駕駛中常提的“強化學習”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。
    的頭像 發(fā)表于 10-23 09:00 ?919次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    機器人看點:寧德時代入股銀河通用機器人 機器人企業(yè)扎堆赴港上市

    給大家?guī)硪恍?b class='flag-5'>機器人的行業(yè)資訊: 寧德時代入股銀河通用機器人 企查查APP數據顯示北京銀河通用機器人有限公司發(fā)生工商變更,寧德時代通過全資子公司寧波梅山保稅港區(qū)問鼎投資有限公司入股北京銀河通用
    的頭像 發(fā)表于 09-29 15:27 ?3231次閱讀

    最新發(fā)布!泰科機器人發(fā)布首款自研雙足人形機器人

    泰科機器人憑借十多年的技術積淀與持續(xù)創(chuàng)新,已成功推出多款高性能人形機器人四肢的解決方案。今天,泰科機器人再次迎來重大突破——首款自主研發(fā)的雙足人形
    的頭像 發(fā)表于 09-02 14:34 ?3723次閱讀
    最新<b class='flag-5'>發(fā)布</b>!泰科<b class='flag-5'>機器人</b><b class='flag-5'>發(fā)布</b>首款自研雙足人形<b class='flag-5'>機器人</b>

    智能決策、2厘米級控制,星燦機器人發(fā)布割草機器人

    電子發(fā)燒友網報道(文/莫婷婷)傳統(tǒng)機器人泛化性差,智能程度相對較低。具身智能機器人具有高通用性,可在各類場景完成復雜任務,包括快速理解復雜環(huán)境、能夠處理任意物體、
    的頭像 發(fā)表于 08-29 11:30 ?8929次閱讀
    智能決策、2厘米級控制,星燦<b class='flag-5'>機器人</b><b class='flag-5'>發(fā)布</b>割草<b class='flag-5'>機器人</b>

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有
    的頭像 發(fā)表于 07-14 15:29 ?2671次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南

    盤點#機器人開發(fā)平臺

    圖,電子技術資料網站具身智能機器人****開發(fā)平臺——Fibot廣和通發(fā)布機器人開發(fā)平臺-電子發(fā)燒友網NVIDIA Isaac 英偉達綜合性機器人開發(fā)平臺NVIDIA Isaac 是英
    發(fā)表于 05-13 15:02
    囊谦县| 惠州市| 社旗县| 牡丹江市| 邮箱| 普格县| 乐都县| 都昌县| 东台市| 宜阳县| 汤原县| 赤城县| 广河县| 石棉县| 绥棱县| 鄂尔多斯市| 堆龙德庆县| 侯马市| 杭锦后旗| 灵丘县| 克什克腾旗| 广平县| 阜宁县| 冀州市| 龙山县| 藁城市| 红桥区| 宜兴市| 遵义市| 手游| 綦江县| 鱼台县| 射洪县| 内黄县| 潜江市| 博乐市| 栾川县| 墨玉县| 永丰县| 交口县| 澄江县|