日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

<sup id="qkgg0"></sup>

<tr id="qkgg0"><s id="qkgg0"></s></tr>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復(fù)

查看更多

查看更多

查看更多

VIP于到期續(xù)費

登錄后你可以

下載海量資料
學(xué)習(xí)在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

會員中心

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

薩頓科普了強化學(xué)習(xí)、深度強化學(xué)習(xí)，并談到了這項技術(shù)的潛力和發(fā)展方向

地處加拿大埃德蒙頓的阿爾伯塔大學(xué)（UAlberta）可謂是強化學(xué)習(xí)重鎮(zhèn)，這項技術(shù)的締造者之一薩頓（Rich Sutton）在這里任教。

△薩頓

薩頓常被稱為“強化學(xué)習(xí)之父”，他對強化學(xué)習(xí)的重要貢獻包括時序差分學(xué)習(xí)和策略梯度方法。

如果你研究過強化學(xué)習(xí)，可能對他和巴爾托（Andrew Barto）合著的一本書很熟悉：《強化學(xué)習(xí)導(dǎo)論》（Reinforcement Learning, an introduction）。這本書被引用了2.5萬多次，如今，第二版即將出版，全書草稿也已經(jīng)在網(wǎng)上公開。

薩頓科普了強化學(xué)習(xí)、深度強化學(xué)習(xí)，并談到了這項技術(shù)的潛力和發(fā)展方向

△Reinforcement Learning, an introduction草稿http://incompleteideas.net/book/bookdraft2017nov5.pdf

巴爾托是薩頓的博士論文導(dǎo)師，薩頓的博士論文《強化學(xué)習(xí)的時間學(xué)分分配》（Temporal Credit Assignment in Reinforcement Learning）中，引入了一種評價器結(jié)構(gòu)和“時間信用分配”。他們把“顯而易見”的強化學(xué)習(xí)理念，變成了一個以數(shù)學(xué)為基礎(chǔ)的可行理論。

薩頓獲得了斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位(1978年)和碩士學(xué)位(1980)，以及馬薩諸塞大學(xué)安姆斯特分校計算機博士學(xué)位(1984)。

從1985年到1994年，Sutton擔任GTE實驗室的首席技術(shù)員。之后，他在麻省大學(xué)安姆斯特分校做了3年的高級研究員，然后又到AT&T香農(nóng)實驗室做了5年的首席技術(shù)員。2003年以來，他一直在阿爾伯塔大學(xué)計算機系擔任教授兼iCORE主席，領(lǐng)強化學(xué)習(xí)和人工智能實驗室。

2003年以來，薩頓在阿爾伯塔大學(xué)計算機系任教授、iCORE主席，領(lǐng)導(dǎo)著強化學(xué)習(xí)和人工智能實驗室。今年6月，DeepMind在埃德蒙頓和阿爾伯塔大學(xué)聯(lián)合設(shè)立首個海外研究院，薩頓也是這個研究院的領(lǐng)導(dǎo)者之一。

最近，機器學(xué)習(xí)和數(shù)據(jù)科學(xué)社區(qū)KDnuggets董事長，數(shù)據(jù)科學(xué)會議KDD和ACM SIGKDD的聯(lián)合發(fā)起者Gregory Piatetsky專訪了薩頓。

薩頓在專訪中（再次）科普了強化學(xué)習(xí)、深度強化學(xué)習(xí)，并談到了這項技術(shù)的潛力，以及接下來的發(fā)展方向：預(yù)測學(xué)習(xí)。

量子位將專訪內(nèi)容搬運如下：

△典型的強化學(xué)習(xí)過程

我在上世紀80年代遇到了Rich Sutton，我和他當時都剛開始在波士頓地區(qū)的GTE實驗室讀博士。我研究智能數(shù)據(jù)庫，他在強化學(xué)習(xí)部門，但是我們在GTE實驗室的項目還遠沒有實際應(yīng)用。我們經(jīng)常下象棋，我們倆在這方面勢均力敵，但在機器學(xué)習(xí)方面，Rich遠遠領(lǐng)先于我。

Q：強化學(xué)習(xí)的主要思想是什么？它與監(jiān)督學(xué)習(xí)有何不同？

薩頓：在與世界的正?；舆^程中，強化學(xué)習(xí)會通過試錯法利用獎勵來學(xué)習(xí)。因此，它跟自然學(xué)習(xí)過程非常相似，而與監(jiān)督學(xué)習(xí)不同。

在監(jiān)督學(xué)習(xí)中，學(xué)習(xí)只發(fā)生在一個特殊的訓(xùn)練階段，這個階段中會出現(xiàn)一個正常情況下不會出現(xiàn)的監(jiān)督或教學(xué)信號。

例如，語音識別目前通過監(jiān)督學(xué)習(xí)來完成，需要使用大量的語音數(shù)據(jù)集和正確的文本內(nèi)容。這些文本內(nèi)容就是一種監(jiān)督信號，等系統(tǒng)開始工作、輸入了新的語音時，就沒有這個監(jiān)督信號了。

而AI打游戲，通常就是通過強化學(xué)習(xí)來實現(xiàn)的，需要利用游戲的結(jié)果作為獎勵。即使你玩了一個新游戲，也會看到自己是贏是輸，并且可以用強化學(xué)習(xí)算法來提高你的游戲技術(shù)。

監(jiān)督式游戲?qū)W習(xí)方法則需要借助一些“正確”的動作來實現(xiàn)，這些動作可以來自人類專家。這很方便，但在正常的游戲中是不可用的，而且會導(dǎo)致學(xué)習(xí)系統(tǒng)的技能局限在人類專家的技能范疇內(nèi)。在強化學(xué)習(xí)中，你可以用較少的訓(xùn)練信息，這樣做的優(yōu)勢是信息更充足，而且不受監(jiān)督者的技能限制。

Q：你跟Andrew Barto合著的經(jīng)典著作《強化學(xué)習(xí)導(dǎo)論》的第二版很快就要出版，具體什么時候？第二版的主要修訂了哪些內(nèi)容？你能跟我們講講新章節(jié)里關(guān)于強化學(xué)習(xí)與心理學(xué)之間有趣聯(lián)系嗎（第14章）？還有跟神經(jīng)科學(xué)之間的有趣聯(lián)系（第15章）？

薩頓：第二版的完整草稿目前已經(jīng)可以在richsutton.com上看到。Andy Barto和我正在定稿：驗證所有的參考文獻，諸如此類。印刷版將于明年初發(fā)行。

從第一版發(fā)行以來的20年里，強化學(xué)習(xí)領(lǐng)域發(fā)生了很多事情。其中最重要的或許是強化學(xué)習(xí)思想對神經(jīng)科學(xué)的巨大影響，現(xiàn)在，大腦獎勵系統(tǒng)的標準理論是，它們是一種時間差異學(xué)習(xí)的實例（這是強化學(xué)習(xí)的基本學(xué)習(xí)方法之一）。

特別地，現(xiàn)在的理論認為，神經(jīng)遞質(zhì)多巴胺的主要作用是攜帶時間差異誤差，也稱為獎勵預(yù)測誤差。這是一個巨大的發(fā)展，有許多來源、影響和測試，我們只能在書中進行概括。15和14章中介紹的這項發(fā)展和其他的發(fā)展概括了它們在心理學(xué)中的重要前提。

總的來說，第二版比第一版多了三分之二內(nèi)容。函數(shù)逼近的內(nèi)容從一章擴充到五章。還有關(guān)于心理學(xué)和神經(jīng)科學(xué)的兩個新章節(jié)。在強化學(xué)習(xí)的前沿也有一個新章節(jié)，有一節(jié)專門介紹它的社會影響。所有的東西都在這本書中不斷更新和擴展。例如，新的應(yīng)用程序章節(jié)涵蓋了Atari游戲和AlphaGo Zero。

Q：什么是深度強化學(xué)習(xí)？它與強化學(xué)習(xí)有何不同?

薩頓：深度強化學(xué)習(xí)是深度學(xué)習(xí)和強化學(xué)習(xí)的結(jié)合。這兩種學(xué)習(xí)方式在很大程度上是正交問題，二者結(jié)合得很好。

簡而言之，強化學(xué)習(xí)需要通過數(shù)據(jù)逼近函數(shù)的方法來部署其所有的組件——值函數(shù)、策略、世界模型、狀態(tài)更新——而深度學(xué)習(xí)是最近開發(fā)的函數(shù)逼近器中最新、最成功一個。

我們的教科書主要介紹線性函數(shù)逼近器，并給出一般情況下的方程。我們在應(yīng)用一章和一節(jié)中介紹了神經(jīng)網(wǎng)絡(luò)，但要充分了解深度強化學(xué)習(xí)，就必須用Goodfellow、Bengio、和Courville的《深度學(xué)習(xí)》來補充我們的書。

Q：強化學(xué)習(xí)在游戲中取得了巨大的成功，例如AlphaGo Zero。你預(yù)計強化學(xué)習(xí)還將在哪些方面有優(yōu)異表現(xiàn)？

薩頓：當然，我相信，從某種意義上講，強化學(xué)習(xí)是人工智能的未來。有人認為，智能系統(tǒng)必須能夠在不接受持續(xù)監(jiān)督的情況下自主學(xué)習(xí)，而強化學(xué)習(xí)正是其中的最佳代表。一個AI必須能夠自己判斷對錯，只有這樣才能擴展到大量的知識和一般技能。

Q：Yann LeCun評論說，AlphaGo Zero的成功很難推廣到其他領(lǐng)域，因為它每天都玩數(shù)百萬局游戲，但是你不能在現(xiàn)實世界里跑得更快。強化學(xué)習(xí)在哪些方面目前還沒有成功(例如，當反饋稀疏時)？如何能夠解決？

薩頓：Yann應(yīng)該會認同這個觀點：關(guān)鍵是要從普通的無監(jiān)督數(shù)據(jù)中學(xué)習(xí)。我和Yann也都會認同這樣一個觀點：在短期內(nèi)，這將通過專注于“預(yù)測學(xué)習(xí)”來實現(xiàn)。

預(yù)測學(xué)習(xí)可能很快就會成為一個流行詞。它的意思是預(yù)測將要發(fā)生的事情，然后根據(jù)實際情況進行學(xué)習(xí)。因為你從發(fā)生的事情中學(xué)習(xí)，沒有一個監(jiān)督員告訴你應(yīng)該預(yù)測什么。但因為你通過等待發(fā)現(xiàn)了結(jié)果，你就有了一個監(jiān)督信號。預(yù)測學(xué)習(xí)是無監(jiān)督的監(jiān)督式學(xué)習(xí)。預(yù)測學(xué)習(xí)可能會在應(yīng)用中取得重大進展。

唯一的問題是，你希望把預(yù)測學(xué)習(xí)看成是監(jiān)督學(xué)習(xí)還是強化學(xué)習(xí)的產(chǎn)物？強化學(xué)習(xí)的學(xué)生知道強化學(xué)習(xí)有一個主要的子問題，稱為“預(yù)測問題”，如何有效地解決這個問題正是大部分算法工作的重點。事實上，第一篇討論時間差異學(xué)習(xí)的論文題目是《學(xué)會用時間差異的方法來預(yù)測》。

Q：20世紀80年代，當研究強化學(xué)習(xí)時，你認為它會取得這樣的成功嗎?

薩頓：20世紀80年代，強化學(xué)習(xí)根本沒有流行。它本質(zhì)上并不是一個科學(xué)或工程的概念。但卻是一個顯而易見的想法。對心理學(xué)家來說很明顯，對普通人來說也很明顯。所以我認為，這顯然是一件值得研究的事情，最終會得到認可。

Q：強化學(xué)習(xí)的下一個研究方向是什么？你現(xiàn)在在做什么?

薩頓：除了預(yù)測學(xué)習(xí)之外，我想說的是，當我們有用訓(xùn)練過的世界模型來做規(guī)劃的系統(tǒng)時，下一個重大進步就會到來。

我們目前擁有優(yōu)秀的規(guī)劃算法，但只有當有模型提供給它們時才行，就像所有游戲系統(tǒng)中所看到的那樣，模型是由游戲規(guī)則（和自我對局）提供的。但我們在現(xiàn)實世界中并沒有跟游戲規(guī)則類似的東西。我們需要物理定律，沒錯，但我們也需要知道很多其他的事情，從如何走路和觀察到別人如何回應(yīng)我們所做的事情。

我們在第八章的Dyna系統(tǒng)中描述了一個完整的規(guī)劃和學(xué)習(xí)系統(tǒng)，但卻局限為幾種方式。第17章闡述了可能克服這種局限的方法。我將從那里入手。

Q：強化學(xué)習(xí)可能是通用人工智能(AGI)發(fā)展的核心。你的觀點是什么——在可預(yù)見的未來，研究人員會開發(fā)AGI嗎？如過會，這將會對人類產(chǎn)生巨大的好處，還是像埃隆·馬斯克(Elon Musk)警告的那樣，會對人類構(gòu)成威脅？

薩頓：我認為人工智能是試圖通過制造與人類思想類似的東西來理解人類的思想。正如費曼所說，“我無法創(chuàng)造的東西，我就不理解它”。在我看來，會發(fā)生的重大事件是我們即將第一次真正理解意識。這種認識本身將產(chǎn)生巨大的影響。

這將是我們這個時代最偉大的科學(xué)成就，其實任何時候都是如此。它也將是有史以來人文學(xué)科最偉大的成就——深刻地理解我們自己。如果這樣來看待，那就不會把它看成是一件壞事。雖然是挑戰(zhàn)，但并不是壞事。我們將揭示哪些東西是真實的。那些不想讓它成為現(xiàn)實的人會把我們的工作看成是壞事，就像科學(xué)拋棄了靈魂的概念一樣，那些珍視這些想法的人認為是壞的。

毫無疑問，當我們更深入地了解大腦如何運作時，我們今天所珍視的一些觀點也會面臨同樣的挑戰(zhàn)。

Q：當你遠離電腦和智能手機的時候，你喜歡做什么？你最近讀過什么書？你喜歡什么書？

薩頓：我是自然的愛好者，也喜歡哲學(xué)、經(jīng)濟學(xué)和科學(xué)的思辨思想。我最近讀了尼爾·斯蒂芬森的《Seveneves》、尤瓦爾·赫拉利的《人類簡史》，以及G.愛德華·格里芬的《美聯(lián)儲傳》。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

強化學(xué)習(xí)

強化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
274

瀏覽量
12002
深度強化學(xué)習(xí)

深度強化學(xué)習(xí)

+關(guān)注

關(guān)注
0

文章
14

瀏覽量
2503

原文標題：“強化學(xué)習(xí)之父”薩頓：預(yù)測學(xué)習(xí)馬上要火，AI將幫我們理解人類意識

文章出處：【微信號：gh_ecbcc3b6eabf，微信公眾號：人工智能和機器人研究院】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

評論

電子發(fā)燒友

My ElecFans

APP
網(wǎng)站地圖

設(shè)計技術(shù)

可編程邏輯

電源/新能源

MEMS/傳感技術(shù)

測量儀表

嵌入式技術(shù)

制造/封裝

模擬技術(shù)

RF/無線

接口/總線/驅(qū)動

處理器/DSP

EDA/IC設(shè)計

存儲技術(shù)

光電顯示

EMC/EMI設(shè)計

連接器

行業(yè)應(yīng)用

LEDs

汽車電子

音視頻及家電

通信網(wǎng)絡(luò)

醫(yī)療電子

人工智能

虛擬現(xiàn)實

可穿戴設(shè)備

機器人

安全設(shè)備/系統(tǒng)

軍用/航空電子

移動通信

工業(yè)控制

便攜設(shè)備

觸控感測

物聯(lián)網(wǎng)

智能電網(wǎng)

區(qū)塊鏈

新科技

特色內(nèi)容

專欄推薦

學(xué)院

設(shè)計資源

設(shè)計技術(shù)

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術(shù)文章

產(chǎn)品地圖

品牌地圖

社區(qū)

小組

論壇

問答

評測試用

企業(yè)服務(wù)

產(chǎn)品

資料

文章

方案

企業(yè)

供應(yīng)鏈服務(wù)

硬件開發(fā)

媒體服務(wù)

網(wǎng)站廣告

在線研討會

活動策劃

新聞發(fā)布

新品發(fā)布

小測驗

設(shè)計大賽

電子發(fā)燒友

關(guān)于我們

聯(lián)系我們

舉報投訴

社交網(wǎng)絡(luò)

微博

移動端

發(fā)燒友APP

WAP

聯(lián)系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內(nèi)容合作

張迎輝：mikezhang@elecfans.com

關(guān)注我們的微信

下載發(fā)燒友APP

機器人發(fā)燒友

版權(quán)所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區(qū)月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發(fā)燒友 （電路圖） 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證：湘B2-20260003 湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

新绛县| 辛集市| 洛扎县| 延寿县| 石家庄市| 察雅县| 大埔县| 怀来县| 富裕县| 溆浦县| 陵川县| 遂宁市| 铅山县| 含山县| 沙湾县| 亳州市| 饶平县| 义乌市| 焦作市| 永福县| 青川县| 花垣县| 安化县| 深圳市| 商丘市| 阳谷县| 怀仁县| 玛纳斯县| 托克逊县| 盐山县| 油尖旺区| 永安市| 高唐县| 绥棱县| 龙门县| 新河县| 驻马店市| 昌吉市| 嘉善县| 灵宝市| 南江县|