日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)

倩倩 ? 來源:讀芯術(shù) ? 2020-02-06 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

許多文章解釋了強(qiáng)化學(xué)習(xí)(RL)的概念,但鮮有文章解釋如何切實(shí)地設(shè)計(jì)實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)。

小芯這次想分享人工智能范式轉(zhuǎn)變課程,討論設(shè)計(jì)權(quán)衡問題,并深入研究技術(shù)細(xì)節(jié)。

那么,我們開始吧!

首先,喝酒?

想象一下你身處聚會,有點(diǎn)微醺或酩酊大醉,自愿參加一個飲酒游戲,想要打動一個(或多個)頗具魅力的泛泛之交。

有人蒙住你的眼睛,給你一杯或一瓶啤酒,喊道:“倒酒!”

你會怎么做?

可能會有以下反應(yīng):該死,我應(yīng)該怎么做?怎樣能贏!要是輸了怎么辦!?

游戲規(guī)則如下:在10秒內(nèi)把啤酒灌滿,盡可能接近玻璃杯上的標(biāo)記??梢园哑【频惯M(jìn)倒出。

RL(強(qiáng)化學(xué)習(xí))解決方案面臨著類似的任務(wù),高大上且有意義,歡迎了解。

現(xiàn)實(shí)世界中的啤酒問題

環(huán)保共享單車業(yè)務(wù)存在一個大問題。一天中,每個單車停放處(杯)的共享單車(啤酒)數(shù)量過多或不足。

紐約市單車停放處的單車過剩和不足

對于騎自行車的人來說,這十分不便,并且要花費(fèi)數(shù)百萬美元來管理運(yùn)營,也不劃算。不久前,筆者在紐約大學(xué)的團(tuán)隊(duì)任務(wù)是提供人工智能解決方案,將人工干預(yù)降到最小,幫助管理自行車庫存。

目標(biāo):每天將各個單車停放處的數(shù)量保持在1至50之間(想想杯子上的標(biāo)記)。這在共享經(jīng)濟(jì)中被稱為“再平衡問題”。

限制條件:由于運(yùn)營限制,團(tuán)隊(duì)每天每小時只能移動1、3或10輛單車(可以倒入或倒出的啤酒量)。當(dāng)然,他們可以選擇什么都不做。團(tuán)隊(duì)移動的單車越多,價格越昂貴。

惰性RL(強(qiáng)化學(xué)習(xí))解決方案

來源:Pexels

團(tuán)隊(duì)決定使用RL (強(qiáng)化學(xué)習(xí)),它克服了傳統(tǒng)方法的許多局限(例如基于規(guī)則和預(yù)測)。

如果想了解RL(強(qiáng)化學(xué)習(xí))以及一些關(guān)鍵概念,喬納森·輝(JonathanHui)撰寫了一篇很棒的介紹,托馬斯·西蒙尼尼(ThomasSimonini )詳細(xì)解釋了解決方案中應(yīng)用的RL算法Q-Learning。

事實(shí)證明,人類創(chuàng)建了極具惰性的人工智能。當(dāng)單車存量超過60輛時,它通常會選擇不執(zhí)行任何操作或執(zhí)行最少操作(移動1或3輛自行車)。似乎有違常理,但這是非常明智的。

根據(jù)直覺,可能會移動盡可能多的單車以將其保持在50輛以下,尤其是在停放處停滿時。但是,RL(強(qiáng)化學(xué)習(xí))識別出移動成本(移動的單車越多,成本越高)以及在某些情況下成功的機(jī)會??紤]到所剩時間,根本不可能實(shí)現(xiàn)目標(biāo)。它知道最好的選擇是“放棄”。因此,放棄比繼續(xù)嘗試要付出更少的代價!

所以呢?當(dāng)人工智能做出非常規(guī)決策時,類似于谷歌Alpha Go研發(fā)的著名Move 37 and 78 ,它們會挑戰(zhàn)人類的偏見,幫助打破知識的魔咒,并將人類推向未知的道路。

創(chuàng)造人工智能既是一種發(fā)明,也是一種探索人類內(nèi)心活動的旅程?!狣eepMind創(chuàng)始人德米斯·哈薩比斯 (Demis Hassabis)在《經(jīng)濟(jì)學(xué)人》雜志《2020年的世界》(The World in 2020)一文中所言。

但是,請保持謹(jǐn)慎。人類價值體系無可替代,因此人類不會一落千丈或迷失自我。

哲學(xué)知識已經(jīng)足夠了,現(xiàn)在現(xiàn)實(shí)一點(diǎn)吧

RL如何管理單車停放處?

下圖顯示了在有無RL的情況下,一天當(dāng)中單車的停放量。

· 藍(lán)色線是無RL情況下的單車停放趨勢。

· 黃色線是最初RL情況下移出單車的趨勢,很昂貴。

· 綠色線是訓(xùn)練有素的RL,它僅移出足以滿足目標(biāo)的單車,更能了解成本。

作者分析

RL如何決定該做什么?

以下是經(jīng)過98,000次訓(xùn)練后RL解決方案Q表的快照。它解釋了RL如何根據(jù)停放處(垂直數(shù)據(jù))上的自行車數(shù)量來決定做什么(水平數(shù)據(jù))。RL不太可能選擇用紅色進(jìn)行操作??纯吹撞康募t色區(qū)域。

作者分析

RL能有多智能?以下圖表介紹了RL對停放處的管理情況。通過深入學(xué)習(xí),RL可以將整體成功率逐步提高到98%,令人印象深刻。

作者分析

希望大家喜歡這篇文章,并由衷地期待RL在現(xiàn)實(shí)世界中展示出的潛力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型實(shí)現(xiàn)量產(chǎn)首發(fā)

    等話題展開深度對話,正式宣布Momenta R7強(qiáng)化學(xué)習(xí)世界模型實(shí)現(xiàn)量產(chǎn)首發(fā),標(biāo)志著智能駕駛從“看見世界”到“理解世界”的全新跨越,物理AI
    的頭像 發(fā)表于 04-29 15:44 ?795次閱讀

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強(qiáng)化學(xué)習(xí)世界模型。這意味著Momenta R7率先在全球強(qiáng)化學(xué)習(xí)+
    的頭像 發(fā)表于 04-29 15:42 ?719次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強(qiáng)化學(xué)習(xí)大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強(qiáng)化學(xué)習(xí)大模型。
    的頭像 發(fā)表于 04-09 09:33 ?292次閱讀

    上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強(qiáng)化學(xué)習(xí)世界模型

    3月30日,Momenta R7強(qiáng)化學(xué)習(xí)世界模型全球首發(fā)搭載車型——上汽大眾ID. ERA 9X正式開啟預(yù)售。
    的頭像 發(fā)表于 03-31 13:48 ?465次閱讀

    Momenta R6強(qiáng)化學(xué)習(xí)大模型上車東風(fēng)日產(chǎn)NX8

    3月20日,東風(fēng)日產(chǎn)NX8技術(shù)暨預(yù)售發(fā)布會在廣州舉辦,官宣Momenta R6強(qiáng)化學(xué)習(xí)大模型正式上車東風(fēng)日產(chǎn)新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?947次閱讀

    Momenta強(qiáng)化學(xué)習(xí)大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強(qiáng)化學(xué)習(xí)大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術(shù)積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗(yàn)。
    的頭像 發(fā)表于 03-18 15:48 ?382次閱讀

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術(shù)發(fā)布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術(shù)亮點(diǎn)。會上,Momenta CEO曹旭東正式宣布:Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV
    的頭像 發(fā)表于 03-17 13:57 ?1324次閱讀

    自動駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    ,圖片源自:網(wǎng)絡(luò) 但強(qiáng)化學(xué)習(xí)本身是需要不斷試錯的,如果采用這種學(xué)習(xí)方式在真實(shí)道路不斷嘗試,一定會導(dǎo)致不可控的事故。于是就有人提出一種猜測,能不能利用已經(jīng)存在的大量行駛?cè)罩?、仿真記錄和人類駕駛數(shù)據(jù),在訓(xùn)練過程
    的頭像 發(fā)表于 02-07 09:21 ?407次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    強(qiáng)化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?910次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    (Multi-AgentReinforcementLearning,MARL),但是這樣會很快變得混亂。什么是多智能體強(qiáng)化學(xué)習(xí)MARL是多個決策者(智能體)在同一環(huán)境交互的強(qiáng)化學(xué)習(xí)。環(huán)境類型可
    的頭像 發(fā)表于 01-21 16:21 ?367次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型,帶來全場景的智能出行體驗(yàn)。
    的頭像 發(fā)表于 01-12 16:23 ?568次閱讀

    如何訓(xùn)練好自動駕駛端到端模型?

    ,確實(shí)會用到模仿學(xué)習(xí)(包括行為克隆、逆最優(yōu)控制/逆強(qiáng)化學(xué)習(xí)等)、強(qiáng)化學(xué)習(xí)(RL),以及近年來越來越受關(guān)注的離線強(qiáng)化學(xué)習(xí)(OfflineRL/BatchRL)這三類。 什么是“端到端”訓(xùn)
    的頭像 發(fā)表于 12-08 16:31 ?1659次閱讀
    如何訓(xùn)練好自動駕駛端到端模型?

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國軟件公司SAS退出中國市場

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)
    發(fā)表于 11-05 09:44 ?1189次閱讀

    自動駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過試錯來學(xué)會做決策的技術(shù)。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?972次閱讀
    自動駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?2712次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南
    三江| 荆门市| 莆田市| 库车县| 洪江市| 无为县| 万荣县| 灯塔市| 新宾| 伊宁市| 仁怀市| 新丰县| 仙游县| 万荣县| 永城市| 桂平市| 宁晋县| 胶州市| 新巴尔虎左旗| 菏泽市| 安陆市| 木兰县| 怀化市| 德惠市| 项城市| 南岸区| 鄄城县| 伊春市| 读书| 合阳县| 含山县| 泸水县| 阿尔山市| 资溪县| 时尚| 丰镇市| 沅江市| 神池县| 芦溪县| 渭南市| 海阳市|