日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

薩頓科普了強化學(xué)習(xí)、深度強化學(xué)習(xí),并談到了這項技術(shù)的潛力和發(fā)展方向

人工智能和機器人研究院 ? 2017-12-27 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

地處加拿大埃德蒙頓的阿爾伯塔大學(xué)(UAlberta)可謂是強化學(xué)習(xí)重鎮(zhèn),這項技術(shù)的締造者之一薩頓(Rich Sutton)在這里任教。

△薩頓

薩頓常被稱為“強化學(xué)習(xí)之父”,他對強化學(xué)習(xí)的重要貢獻包括時序差分學(xué)習(xí)和策略梯度方法。

如果你研究過強化學(xué)習(xí),可能對他和巴爾托(Andrew Barto)合著的一本書很熟悉:《強化學(xué)習(xí)導(dǎo)論》(Reinforcement Learning, an introduction)。這本書被引用了2.5萬多次,如今,第二版即將出版,全書草稿也已經(jīng)在網(wǎng)上公開。

薩頓科普了強化學(xué)習(xí)、深度強化學(xué)習(xí),并談到了這項技術(shù)的潛力和發(fā)展方向

△Reinforcement Learning, an introduction草稿http://incompleteideas.net/book/bookdraft2017nov5.pdf

巴爾托是薩頓的博士論文導(dǎo)師,薩頓的博士論文《強化學(xué)習(xí)的時間學(xué)分分配》(Temporal Credit Assignment in Reinforcement Learning)中,引入了一種評價器結(jié)構(gòu)和“時間信用分配”。他們把“顯而易見”的強化學(xué)習(xí)理念,變成了一個以數(shù)學(xué)為基礎(chǔ)的可行理論。

薩頓獲得了斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位(1978年)和碩士學(xué)位(1980),以及馬薩諸塞大學(xué)安姆斯特分校計算機博士學(xué)位(1984)。

從1985年到1994年,Sutton擔任GTE實驗室的首席技術(shù)員。之后,他在麻省大學(xué)安姆斯特分校做了3年的高級研究員,然后又到AT&T香農(nóng)實驗室做了5年的首席技術(shù)員。2003年以來,他一直在阿爾伯塔大學(xué)計算機系擔任教授兼iCORE主席,領(lǐng)強化學(xué)習(xí)和人工智能實驗室。

2003年以來,薩頓在阿爾伯塔大學(xué)計算機系任教授、iCORE主席,領(lǐng)導(dǎo)著強化學(xué)習(xí)和人工智能實驗室。今年6月,DeepMind在埃德蒙頓和阿爾伯塔大學(xué)聯(lián)合設(shè)立首個海外研究院,薩頓也是這個研究院的領(lǐng)導(dǎo)者之一。

最近,機器學(xué)習(xí)和數(shù)據(jù)科學(xué)社區(qū)KDnuggets董事長,數(shù)據(jù)科學(xué)會議KDD和ACM SIGKDD的聯(lián)合發(fā)起者Gregory Piatetsky專訪了薩頓。

薩頓在專訪中(再次)科普了強化學(xué)習(xí)、深度強化學(xué)習(xí),并談到了這項技術(shù)的潛力,以及接下來的發(fā)展方向:預(yù)測學(xué)習(xí)。

量子位將專訪內(nèi)容搬運如下:

△典型的強化學(xué)習(xí)過程

我在上世紀80年代遇到了Rich Sutton,我和他當時都剛開始在波士頓地區(qū)的GTE實驗室讀博士。我研究智能數(shù)據(jù)庫,他在強化學(xué)習(xí)部門,但是我們在GTE實驗室的項目還遠沒有實際應(yīng)用。我們經(jīng)常下象棋,我們倆在這方面勢均力敵,但在機器學(xué)習(xí)方面,Rich遠遠領(lǐng)先于我。

Q:強化學(xué)習(xí)的主要思想是什么?它與監(jiān)督學(xué)習(xí)有何不同?

薩頓:在與世界的正?;舆^程中,強化學(xué)習(xí)會通過試錯法利用獎勵來學(xué)習(xí)。因此,它跟自然學(xué)習(xí)過程非常相似,而與監(jiān)督學(xué)習(xí)不同。

在監(jiān)督學(xué)習(xí)中,學(xué)習(xí)只發(fā)生在一個特殊的訓(xùn)練階段,這個階段中會出現(xiàn)一個正常情況下不會出現(xiàn)的監(jiān)督或教學(xué)信號。

例如,語音識別目前通過監(jiān)督學(xué)習(xí)來完成,需要使用大量的語音數(shù)據(jù)集和正確的文本內(nèi)容。這些文本內(nèi)容就是一種監(jiān)督信號,等系統(tǒng)開始工作、輸入了新的語音時,就沒有這個監(jiān)督信號了。

AI打游戲,通常就是通過強化學(xué)習(xí)來實現(xiàn)的,需要利用游戲的結(jié)果作為獎勵。即使你玩了一個新游戲,也會看到自己是贏是輸,并且可以用強化學(xué)習(xí)算法來提高你的游戲技術(shù)。

監(jiān)督式游戲?qū)W習(xí)方法則需要借助一些“正確”的動作來實現(xiàn),這些動作可以來自人類專家。這很方便,但在正常的游戲中是不可用的,而且會導(dǎo)致學(xué)習(xí)系統(tǒng)的技能局限在人類專家的技能范疇內(nèi)。在強化學(xué)習(xí)中,你可以用較少的訓(xùn)練信息,這樣做的優(yōu)勢是信息更充足,而且不受監(jiān)督者的技能限制。

Q:你跟Andrew Barto合著的經(jīng)典著作《強化學(xué)習(xí)導(dǎo)論》的第二版很快就要出版,具體什么時候?第二版的主要修訂了哪些內(nèi)容?你能跟我們講講新章節(jié)里關(guān)于強化學(xué)習(xí)與心理學(xué)之間有趣聯(lián)系嗎(第14章)?還有跟神經(jīng)科學(xué)之間的有趣聯(lián)系(第15章)?

薩頓:第二版的完整草稿目前已經(jīng)可以在richsutton.com上看到。Andy Barto和我正在定稿:驗證所有的參考文獻,諸如此類。印刷版將于明年初發(fā)行。

從第一版發(fā)行以來的20年里,強化學(xué)習(xí)領(lǐng)域發(fā)生了很多事情。其中最重要的或許是強化學(xué)習(xí)思想對神經(jīng)科學(xué)的巨大影響,現(xiàn)在,大腦獎勵系統(tǒng)的標準理論是,它們是一種時間差異學(xué)習(xí)的實例(這是強化學(xué)習(xí)的基本學(xué)習(xí)方法之一)。

特別地,現(xiàn)在的理論認為,神經(jīng)遞質(zhì)多巴胺的主要作用是攜帶時間差異誤差,也稱為獎勵預(yù)測誤差。這是一個巨大的發(fā)展,有許多來源、影響和測試,我們只能在書中進行概括。15和14章中介紹的這項發(fā)展和其他的發(fā)展概括了它們在心理學(xué)中的重要前提。

總的來說,第二版比第一版多了三分之二內(nèi)容。函數(shù)逼近的內(nèi)容從一章擴充到五章。還有關(guān)于心理學(xué)和神經(jīng)科學(xué)的兩個新章節(jié)。在強化學(xué)習(xí)的前沿也有一個新章節(jié),有一節(jié)專門介紹它的社會影響。所有的東西都在這本書中不斷更新和擴展。例如,新的應(yīng)用程序章節(jié)涵蓋了Atari游戲和AlphaGo Zero。

Q:什么是深度強化學(xué)習(xí)?它與強化學(xué)習(xí)有何不同?

薩頓:深度強化學(xué)習(xí)是深度學(xué)習(xí)和強化學(xué)習(xí)的結(jié)合。這兩種學(xué)習(xí)方式在很大程度上是正交問題,二者結(jié)合得很好。

簡而言之,強化學(xué)習(xí)需要通過數(shù)據(jù)逼近函數(shù)的方法來部署其所有的組件——值函數(shù)、策略、世界模型、狀態(tài)更新——而深度學(xué)習(xí)是最近開發(fā)的函數(shù)逼近器中最新、最成功一個。

我們的教科書主要介紹線性函數(shù)逼近器,并給出一般情況下的方程。我們在應(yīng)用一章和一節(jié)中介紹了神經(jīng)網(wǎng)絡(luò),但要充分了解深度強化學(xué)習(xí),就必須用Goodfellow、Bengio、和Courville的《深度學(xué)習(xí)》來補充我們的書。

Q:強化學(xué)習(xí)在游戲中取得了巨大的成功,例如AlphaGo Zero。你預(yù)計強化學(xué)習(xí)還將在哪些方面有優(yōu)異表現(xiàn)?

薩頓:當然,我相信,從某種意義上講,強化學(xué)習(xí)是人工智能的未來。有人認為,智能系統(tǒng)必須能夠在不接受持續(xù)監(jiān)督的情況下自主學(xué)習(xí),而強化學(xué)習(xí)正是其中的最佳代表。一個AI必須能夠自己判斷對錯,只有這樣才能擴展到大量的知識和一般技能。

Q:Yann LeCun評論說,AlphaGo Zero的成功很難推廣到其他領(lǐng)域,因為它每天都玩數(shù)百萬局游戲,但是你不能在現(xiàn)實世界里跑得更快。強化學(xué)習(xí)在哪些方面目前還沒有成功(例如,當反饋稀疏時)?如何能夠解決?

薩頓:Yann應(yīng)該會認同這個觀點:關(guān)鍵是要從普通的無監(jiān)督數(shù)據(jù)中學(xué)習(xí)。我和Yann也都會認同這樣一個觀點:在短期內(nèi),這將通過專注于“預(yù)測學(xué)習(xí)”來實現(xiàn)。

預(yù)測學(xué)習(xí)可能很快就會成為一個流行詞。它的意思是預(yù)測將要發(fā)生的事情,然后根據(jù)實際情況進行學(xué)習(xí)。因為你從發(fā)生的事情中學(xué)習(xí),沒有一個監(jiān)督員告訴你應(yīng)該預(yù)測什么。但因為你通過等待發(fā)現(xiàn)了結(jié)果,你就有了一個監(jiān)督信號。預(yù)測學(xué)習(xí)是無監(jiān)督的監(jiān)督式學(xué)習(xí)。預(yù)測學(xué)習(xí)可能會在應(yīng)用中取得重大進展。

唯一的問題是,你希望把預(yù)測學(xué)習(xí)看成是監(jiān)督學(xué)習(xí)還是強化學(xué)習(xí)的產(chǎn)物?強化學(xué)習(xí)的學(xué)生知道強化學(xué)習(xí)有一個主要的子問題,稱為“預(yù)測問題”,如何有效地解決這個問題正是大部分算法工作的重點。事實上,第一篇討論時間差異學(xué)習(xí)的論文題目是《學(xué)會用時間差異的方法來預(yù)測》。

Q:20世紀80年代,當研究強化學(xué)習(xí)時,你認為它會取得這樣的成功嗎?

薩頓:20世紀80年代,強化學(xué)習(xí)根本沒有流行。它本質(zhì)上并不是一個科學(xué)或工程的概念。但卻是一個顯而易見的想法。對心理學(xué)家來說很明顯,對普通人來說也很明顯。所以我認為,這顯然是一件值得研究的事情,最終會得到認可。

Q:強化學(xué)習(xí)的下一個研究方向是什么?你現(xiàn)在在做什么?

薩頓:除了預(yù)測學(xué)習(xí)之外,我想說的是,當我們有用訓(xùn)練過的世界模型來做規(guī)劃的系統(tǒng)時,下一個重大進步就會到來。

我們目前擁有優(yōu)秀的規(guī)劃算法,但只有當有模型提供給它們時才行,就像所有游戲系統(tǒng)中所看到的那樣,模型是由游戲規(guī)則(和自我對局)提供的。但我們在現(xiàn)實世界中并沒有跟游戲規(guī)則類似的東西。我們需要物理定律,沒錯,但我們也需要知道很多其他的事情,從如何走路和觀察到別人如何回應(yīng)我們所做的事情。

我們在第八章的Dyna系統(tǒng)中描述了一個完整的規(guī)劃和學(xué)習(xí)系統(tǒng),但卻局限為幾種方式。第17章闡述了可能克服這種局限的方法。我將從那里入手。

Q:強化學(xué)習(xí)可能是通用人工智能(AGI)發(fā)展的核心。你的觀點是什么——在可預(yù)見的未來,研究人員會開發(fā)AGI嗎?如過會,這將會對人類產(chǎn)生巨大的好處,還是像埃隆·馬斯克(Elon Musk)警告的那樣,會對人類構(gòu)成威脅?

薩頓:我認為人工智能是試圖通過制造與人類思想類似的東西來理解人類的思想。正如費曼所說,“我無法創(chuàng)造的東西,我就不理解它”。在我看來,會發(fā)生的重大事件是我們即將第一次真正理解意識。這種認識本身將產(chǎn)生巨大的影響。

這將是我們這個時代最偉大的科學(xué)成就,其實任何時候都是如此。它也將是有史以來人文學(xué)科最偉大的成就——深刻地理解我們自己。如果這樣來看待,那就不會把它看成是一件壞事。雖然是挑戰(zhàn),但并不是壞事。我們將揭示哪些東西是真實的。那些不想讓它成為現(xiàn)實的人會把我們的工作看成是壞事,就像科學(xué)拋棄了靈魂的概念一樣,那些珍視這些想法的人認為是壞的。

毫無疑問,當我們更深入地了解大腦如何運作時,我們今天所珍視的一些觀點也會面臨同樣的挑戰(zhàn)。

Q:當你遠離電腦智能手機的時候,你喜歡做什么?你最近讀過什么書?你喜歡什么書?

薩頓:我是自然的愛好者,也喜歡哲學(xué)、經(jīng)濟學(xué)和科學(xué)的思辨思想。我最近讀了尼爾·斯蒂芬森的《Seveneves》、尤瓦爾·赫拉利的《人類簡史》,以及G.愛德華·格里芬的《美聯(lián)儲傳》。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:“強化學(xué)習(xí)之父”薩頓:預(yù)測學(xué)習(xí)馬上要火,AI將幫我們理解人類意識

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Momenta R7強化學(xué)習(xí)世界模型實現(xiàn)量產(chǎn)首發(fā)

    等話題展開深度對話,正式宣布Momenta R7強化學(xué)習(xí)世界模型實現(xiàn)量產(chǎn)首發(fā),標志著智能駕駛從“看見世界”到“理解世界”的全新跨越,物理AI正式從技術(shù)理念走向規(guī)?;慨a(chǎn)落地。
    的頭像 發(fā)表于 04-29 15:44 ?705次閱讀

    Momenta R7強化學(xué)習(xí)世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強化學(xué)習(xí)世界模型。這意味著Momenta R7率先在全球強化學(xué)習(xí)+世界模型方向上取得
    的頭像 發(fā)表于 04-29 15:42 ?650次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學(xué)習(xí)大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強化學(xué)習(xí)大模型。
    的頭像 發(fā)表于 04-09 09:33 ?253次閱讀

    上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強化學(xué)習(xí)世界模型

    3月30日,Momenta R7強化學(xué)習(xí)世界模型全球首發(fā)搭載車型——上汽大眾ID. ERA 9X正式開啟預(yù)售。
    的頭像 發(fā)表于 03-31 13:48 ?420次閱讀

    Momenta R6強化學(xué)習(xí)大模型上車東風(fēng)日產(chǎn)NX8

    3月20日,東風(fēng)日產(chǎn)NX8技術(shù)暨預(yù)售發(fā)布會在廣州舉辦,官宣Momenta R6強化學(xué)習(xí)大模型正式上車東風(fēng)日產(chǎn)新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?893次閱讀

    Momenta強化學(xué)習(xí)大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強化學(xué)習(xí)大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術(shù)積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗。
    的頭像 發(fā)表于 03-18 15:48 ?349次閱讀

    Momenta R7強化學(xué)習(xí)世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術(shù)發(fā)布會,首次揭曉ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術(shù)亮點。會上,Momenta CEO曹旭東正式宣布:Momenta R7
    的頭像 發(fā)表于 03-17 13:57 ?1258次閱讀

    自動駕駛中常提的離線強化學(xué)習(xí)是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學(xué)習(xí)時,詳細聊過強化學(xué)習(xí)的作用,由于強化學(xué)習(xí)能讓大模型通過交互學(xué)到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造更多可能。
    的頭像 發(fā)表于 02-07 09:21 ?374次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學(xué)習(xí)</b>是什么?

    強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強化學(xué)習(xí)有何不同?又有什么特點呢? 什么是
    的頭像 發(fā)表于 01-31 09:34 ?855次閱讀
    <b class='flag-5'>強化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓(xùn)練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?349次閱讀
    多智能體<b class='flag-5'>強化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強化學(xué)習(xí)大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學(xué)習(xí)大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?526次閱讀

    今日看點:智元推出真機強化學(xué)習(xí);美國軟件公司SAS退出中國市場

    智元推出真機強化學(xué)習(xí),機器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機強化學(xué)習(xí)
    發(fā)表于 11-05 09:44 ?1174次閱讀

    自動駕駛中常提的“強化學(xué)習(xí)”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強化學(xué)習(xí)是一類讓機器通過試錯來學(xué)會做決策的技術(shù)。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?930次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學(xué)習(xí)</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強化學(xué)習(xí)腳本使用指南

    Lab 是一個適用于機器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強化學(xué)習(xí)(在嘗試和錯誤中進行學(xué)習(xí)),為所有機器
    的頭像 發(fā)表于 07-14 15:29 ?2678次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學(xué)習(xí)</b>腳本使用指南

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    )和解碼(Decoding)分離的策略 ,以及冗余專家策略,在提高推理速度的同時確保系統(tǒng)的穩(wěn)定性和可靠性。 DeepSeek 架構(gòu)圖 DeepSeek-R1技術(shù)突破 01. 純強化學(xué)習(xí)訓(xùn)練
    發(fā)表于 06-09 14:38
    新绛县| 辛集市| 洛扎县| 延寿县| 石家庄市| 察雅县| 大埔县| 怀来县| 富裕县| 溆浦县| 陵川县| 遂宁市| 铅山县| 含山县| 沙湾县| 亳州市| 饶平县| 义乌市| 焦作市| 永福县| 青川县| 花垣县| 安化县| 深圳市| 商丘市| 阳谷县| 怀仁县| 玛纳斯县| 托克逊县| 盐山县| 油尖旺区| 永安市| 高唐县| 绥棱县| 龙门县| 新河县| 驻马店市| 昌吉市| 嘉善县| 灵宝市| 南江县|