日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無(wú)需權(quán)重更新、微調(diào),Transformer在試錯(cuò)中自主改進(jìn)!

CVer ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-02 13:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepMind 表示,他們提出的算法蒸餾(AD)是首個(gè)通過(guò)對(duì)具有模仿?lián)p失的離線(xiàn)數(shù)據(jù)進(jìn)行順序建模以展示上下文強(qiáng)化學(xué)習(xí)的方法。同時(shí)基于觀察結(jié)果開(kāi)啟了一種可能,即任何 RL 算法都可以通過(guò)模仿學(xué)習(xí)蒸餾成足夠強(qiáng)大的序列模型如 transformer,并將這些模型轉(zhuǎn)換為上下文 RL 算法。

目前,Transformers 已經(jīng)成為序列建模的強(qiáng)大神經(jīng)網(wǎng)絡(luò)架構(gòu)。預(yù)訓(xùn)練 transformer 的一個(gè)顯著特性是它們有能力通過(guò)提示 conditioning 或上下文學(xué)習(xí)來(lái)適應(yīng)下游任務(wù)。經(jīng)過(guò)大型離線(xiàn)數(shù)據(jù)集上的預(yù)訓(xùn)練之后,大規(guī)模 transformers 已被證明可以高效地泛化到文本補(bǔ)全、語(yǔ)言理解和圖像生成方面的下游任務(wù)。

最近的工作表明,transformers 還可以通過(guò)將離線(xiàn)強(qiáng)化學(xué)習(xí)(RL)視作順序預(yù)測(cè)問(wèn)題,進(jìn)而從離線(xiàn)數(shù)據(jù)中學(xué)習(xí)策略。Chen et al. (2021)的工作表明,transformers 可以通過(guò)模仿學(xué)習(xí)從離線(xiàn) RL 數(shù)據(jù)中學(xué)習(xí)單任務(wù)策略,隨后的工作表明 transformers 可以在同領(lǐng)域和跨領(lǐng)域設(shè)置中提取多任務(wù)策略。這些工作都展示了提取通用多任務(wù)策略的范式,即首先收集大規(guī)模和多樣化的環(huán)境交互數(shù)據(jù)集,然后通過(guò)順序建模從數(shù)據(jù)中提取策略。這類(lèi)通過(guò)模仿學(xué)習(xí)從離線(xiàn) RL 數(shù)據(jù)中學(xué)習(xí)策略的方法被稱(chēng)為離線(xiàn)策略蒸餾(Offline Policy Distillation)或策略蒸餾(Policy Distillation, PD)。

PD 具有簡(jiǎn)單性和可擴(kuò)展性,但它的一大缺點(diǎn)是生成的策略不會(huì)在與環(huán)境的額外交互中逐步改進(jìn)。舉例而言,谷歌的通才智能體 Multi-Game Decision Transformers 學(xué)習(xí)了一個(gè)可以玩很多 Atari 游戲的返回條件式(return-conditioned)策略,而 DeepMind 的通才智能體 Gato 通過(guò)上下文任務(wù)推理來(lái)學(xué)習(xí)一個(gè)解決多樣化環(huán)境中任務(wù)的策略。遺憾的是,這兩個(gè)智能體都不能通過(guò)試錯(cuò)來(lái)提升上下文中的策略。因此 PD 方法學(xué)習(xí)的是策略而不是強(qiáng)化學(xué)習(xí)算法。

在近日 DeepMind 的一篇論文中,研究者假設(shè) PD 沒(méi)能通過(guò)試錯(cuò)得到改進(jìn)的原因是它訓(xùn)練用的數(shù)據(jù)無(wú)法顯示學(xué)習(xí)進(jìn)度。當(dāng)前方法要么從不含學(xué)習(xí)的數(shù)據(jù)中學(xué)習(xí)策略(例如通過(guò)蒸餾固定專(zhuān)家策略),要么從包含學(xué)習(xí)的數(shù)據(jù)中學(xué)習(xí)策略(例如 RL 智能體的重放緩沖區(qū)),但后者的上下文大?。ㄌ。o(wú)法捕獲策略改進(jìn)。

09a7e5e2-5a56-11ed-a3b6-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2210.14215.pdf

研究者的主要觀察結(jié)果是,RL 算法訓(xùn)練中學(xué)習(xí)的順序性在原則上可以將強(qiáng)化學(xué)習(xí)本身建模為一個(gè)因果序列預(yù)測(cè)問(wèn)題。具體地,如果一個(gè) transformer 的上下文足夠長(zhǎng),包含了由學(xué)習(xí)更新帶來(lái)的策略改進(jìn),那么它不僅應(yīng)該可以表示一個(gè)固定策略,而且能夠通過(guò)關(guān)注之前 episodes 的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)來(lái)表示一個(gè)策略改進(jìn)算子。這樣開(kāi)啟了一種可能性,即任何 RL 算法都可以通過(guò)模仿學(xué)習(xí)蒸餾成足夠強(qiáng)大的序列模型如 transformer,并將這些模型轉(zhuǎn)換為上下文 RL 算法。

研究者提出了算法蒸餾(Algorithm Distillation, AD),這是一種通過(guò)優(yōu)化 RL 算法學(xué)習(xí)歷史中因果序列預(yù)測(cè)損失來(lái)學(xué)習(xí)上下文策略改進(jìn)算子的方法。如下圖 1 所示,AD 由兩部分組成。首先通過(guò)保存 RL 算法在大量單獨(dú)任務(wù)上的訓(xùn)練歷史來(lái)生成大型多任務(wù)數(shù)據(jù)集,然后 transformer 模型通過(guò)將前面的學(xué)習(xí)歷史用作其上下文來(lái)對(duì)動(dòng)作進(jìn)行因果建模。由于策略在源 RL 算法的訓(xùn)練過(guò)程中持續(xù)改進(jìn),因此 AD 不得不學(xué)習(xí)改進(jìn)算子以便準(zhǔn)確地建模訓(xùn)練歷史中任何給定點(diǎn)的動(dòng)作。至關(guān)重要的一點(diǎn)是,transformer 上下文必須足夠大(即 across-episodic)才能捕獲訓(xùn)練數(shù)據(jù)的改進(jìn)。

09d0f98c-5a56-11ed-a3b6-dac502259ad0.png

研究者表示,通過(guò)使用足夠大上下文的因果 transformer 來(lái)模仿基于梯度的 RL 算法,AD 完全可以在上下文中強(qiáng)化新任務(wù)學(xué)習(xí)。研究者在很多需要探索的部分可觀察環(huán)境中評(píng)估了 AD,包括來(lái)自 DMLab 的基于像素的 Watermaze,結(jié)果表明 AD 能夠進(jìn)行上下文探索、時(shí)序信度分配和泛化。此外,AD 學(xué)習(xí)到的算法比生成 transformer 訓(xùn)練源數(shù)據(jù)的算法更加高效。

最后值得關(guān)注的是,AD 是首個(gè)通過(guò)對(duì)具有模仿?lián)p失的離線(xiàn)數(shù)據(jù)進(jìn)行順序建模以展示上下文強(qiáng)化學(xué)習(xí)的方法。

09e3bf54-5a56-11ed-a3b6-dac502259ad0.gif

方法

在生命周期內(nèi),強(qiáng)化學(xué)習(xí)智能體需要在執(zhí)行復(fù)雜的動(dòng)作方面表現(xiàn)良好。對(duì)智能體而言,不管它所處的環(huán)境、內(nèi)部結(jié)構(gòu)和執(zhí)行情況如何,都可以被視為是在過(guò)去經(jīng)驗(yàn)的基礎(chǔ)上完成的??捎萌缦滦问奖硎荆?/p>

0a0e04e4-5a56-11ed-a3b6-dac502259ad0.png

研究者同時(shí)將「長(zhǎng)期歷史條件, long history-conditioned」策略看作一種算法,得出:

0a19ed36-5a56-11ed-a3b6-dac502259ad0.png

其中?(A)表示動(dòng)作空間 A 上的概率分布空間。公式 (3) 表明,該算法可以在環(huán)境中展開(kāi),以生成觀察、獎(jiǎng)勵(lì)和動(dòng)作序列。為了簡(jiǎn)單起見(jiàn),該研究將算法用 P 表示,將環(huán)境(即任務(wù))用0a25de7a-5a56-11ed-a3b6-dac502259ad0.png的學(xué)習(xí)歷史都是由算法0a25de7a-5a56-11ed-a3b6-dac502259ad0.png表示,這樣對(duì)于任何給定任務(wù)0a3c7676-5a56-11ed-a3b6-dac502259ad0.png生成的??梢缘玫?/p>

0a42dab6-5a56-11ed-a3b6-dac502259ad0.png

研究者用大寫(xiě)拉丁字母表示隨機(jī)變量,例如 O、A、R 及其對(duì)應(yīng)的小寫(xiě)形式 o,α,r。通過(guò)將算法視為長(zhǎng)期歷史條件策略,他們假設(shè)任何生成學(xué)習(xí)歷史的算法都可以通過(guò)對(duì)動(dòng)作執(zhí)行行為克隆來(lái)轉(zhuǎn)換成神經(jīng)網(wǎng)絡(luò)。接下來(lái),該研究提出了一種方法,該方法提供了智能體在生命周期內(nèi)學(xué)習(xí)具有行為克隆的序列模型,以將長(zhǎng)期歷史映射到動(dòng)作分布。

實(shí)際執(zhí)行

在實(shí)踐中,該研究將算法蒸餾過(guò)程 ( algorithm distillation ,AD)實(shí)現(xiàn)為一個(gè)兩步過(guò)程。首先,通過(guò)在許多不同的任務(wù)上運(yùn)行單獨(dú)的基于梯度的 RL 算法來(lái)收集學(xué)習(xí)歷史數(shù)據(jù)集。接下來(lái),訓(xùn)練具有多情節(jié)上下文的序列模型來(lái)預(yù)測(cè)歷史中的動(dòng)作。具體算法如下所示:

0a4cd642-5a56-11ed-a3b6-dac502259ad0.png

實(shí)驗(yàn)

實(shí)驗(yàn)要求所使用的環(huán)境都支持許多任務(wù),而這些任務(wù)不能從觀察中輕易的進(jìn)行推斷,并且情節(jié)(episodes)足夠短,可以有效地訓(xùn)練跨情節(jié)因果 transformers。這項(xiàng)工作的主要目的是調(diào)查相對(duì)于先前工作,AD 強(qiáng)化在多大程度上是在上下文中學(xué)習(xí)的。實(shí)驗(yàn)將 AD、 ED( Expert Distillation) 、RL^2 等進(jìn)行了比較。

評(píng)估 AD、ED、 RL^2 結(jié)果如圖 3 所示。該研究發(fā)現(xiàn) AD 和 RL^2 都可以在上下文中學(xué)習(xí)從訓(xùn)練分布中采樣的任務(wù),而 ED 則不能,盡管 ED 在分布內(nèi)評(píng)估時(shí)確實(shí)比隨機(jī)猜測(cè)做得更好。

0a6819e8-5a56-11ed-a3b6-dac502259ad0.png

圍繞下圖 4,研究者回答了一系列問(wèn)題。AD 是否表現(xiàn)出上下文強(qiáng)化學(xué)習(xí)?結(jié)果表明 AD 上下文強(qiáng)化學(xué)習(xí)在所有環(huán)境中都能學(xué)習(xí),相比之下,ED 在大多數(shù)情況下都無(wú)法在上下文中探索和學(xué)習(xí)。

AD 能從基于像素的觀察中學(xué)習(xí)嗎?結(jié)果表明 AD 通過(guò)上下文 RL 最大化了情景回歸,而 ED 則不能學(xué)習(xí)。

AD 是否可以學(xué)習(xí)一種比生成源數(shù)據(jù)的算法更有效的 RL 算法?結(jié)果表明 AD 的數(shù)據(jù)效率明顯高于源算法(A3C 和 DQN)。

0a7f2692-5a56-11ed-a3b6-dac502259ad0.png

是否可以通過(guò)演示來(lái)加速 AD?為了回答這個(gè)問(wèn)題,該研究保留測(cè)試集數(shù)據(jù)中沿源算法歷史的不同點(diǎn)采樣策略,然后,使用此策略數(shù)據(jù)預(yù)先填充 AD 和 ED 的上下文,并在 Dark Room 的環(huán)境中運(yùn)行這兩種方法,將結(jié)果繪制在圖 5 中。雖然 ED 保持了輸入策略的性能,AD 在上下文中改進(jìn)每個(gè)策略,直到它接近最優(yōu)。重要的是,輸入策略越優(yōu)化,AD 改進(jìn)它的速度就越快,直到達(dá)到最優(yōu)。

0aa88f6e-5a56-11ed-a3b6-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4844

    瀏覽量

    108205
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26263
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    12440

原文標(biāo)題:DeepMind新作!無(wú)需權(quán)重更新、微調(diào),Transformer在試錯(cuò)中自主改進(jìn)!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    零基礎(chǔ)手寫(xiě)大模型資料2026

    。這種矩陣運(yùn)算模式貫穿整個(gè)模型,包括注意力計(jì)算、前饋網(wǎng)絡(luò)等核心組件。 2. 注意力機(jī)制:動(dòng)態(tài)權(quán)重分配 Transformer的核心創(chuàng)新在于自注意力(Self-Attention)機(jī)制。對(duì)于輸入序列的每個(gè)
    發(fā)表于 05-01 17:44

    AI大模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課

    自主可控大模型:企業(yè)微調(diào)實(shí)戰(zhàn)課,筑牢未來(lái) AI 底座 人工智能席卷全球商業(yè)版圖的今天,企業(yè)對(duì)大模型(LLM)的態(tài)度已經(jīng)從“新奇觀望”轉(zhuǎn)變?yōu)椤叭鎿肀А?。然而,隨著應(yīng)用層面的不斷深入,一個(gè)嚴(yán)峻
    發(fā)表于 04-16 18:48

    電子工程師視角下的SAFETY ISOLATING TRANSFORMER

    電子工程師視角下的SAFETY ISOLATING TRANSFORMER 一、產(chǎn)品概述 電子設(shè)備的設(shè)計(jì),安全始終是重中之重。今天要介紹的這款SAFETY ISOLATING
    的頭像 發(fā)表于 04-08 16:20 ?118次閱讀

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對(duì)角線(xiàn)折疊紙張。 Transformer 的應(yīng)用:計(jì)算注意力分?jǐn)?shù)
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4423次閱讀

    智能機(jī)器狗革命!V Bot發(fā)布新品:無(wú)需遙控,自主跑腿拿快遞

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)近日,維他動(dòng)力(V Bot)正式發(fā)布其首款消費(fèi)級(jí) 具身智能 產(chǎn)品無(wú)需遙控的智能機(jī)器狗大頭BoBo。該產(chǎn)品硬件配置、續(xù)航能力、安全設(shè)計(jì)上實(shí)現(xiàn)新突破,首次消費(fèi)級(jí)產(chǎn)品
    的頭像 發(fā)表于 12-28 09:57 ?6665次閱讀

    亞馬遜云科技擴(kuò)展模型選擇 Amazon Bedrock新增18款開(kāi)放權(quán)重模型

    亞馬遜云科技2025 re:Invent全球大會(huì)上宣布Amazon Bedrock中新增18款開(kāi)放權(quán)重模型,進(jìn)一步強(qiáng)化其提供廣泛全托管模型選擇的承諾。Amazon Bedrock使客戶(hù)能夠
    的頭像 發(fā)表于 12-13 13:53 ?902次閱讀

    用拼多多 API 實(shí)現(xiàn)拼多多店鋪商品搜索權(quán)重提升

    ? 電商平臺(tái)如拼多多上,商品搜索權(quán)重直接影響曝光率和銷(xiāo)量。權(quán)重高的商品更容易出現(xiàn)在搜索結(jié)果前列,吸引更多用戶(hù)點(diǎn)擊。通過(guò)拼多多 API(應(yīng)用程序接口),賣(mài)家可以自動(dòng)化優(yōu)化商品信息,提升搜索權(quán)重
    的頭像 發(fā)表于 08-19 17:23 ?1090次閱讀
    用拼多多 API 實(shí)現(xiàn)拼多多店鋪商品搜索<b class='flag-5'>權(quán)重</b>提升

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是自動(dòng)駕駛領(lǐng)域,部分廠(chǎng)商開(kāi)始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過(guò)時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算力成本、安全需求與實(shí)際落地路徑等維度來(lái)看,Transformer與深度學(xué)習(xí)并非你死我活的替代
    的頭像 發(fā)表于 08-13 09:15 ?4392次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    亞馬遜云科技現(xiàn)已上線(xiàn)OpenAI開(kāi)放權(quán)重模型

    客戶(hù)現(xiàn)可通過(guò)Amazon Bedrock和Amazon SageMaker AI使用OpenAI開(kāi)放權(quán)重模型,實(shí)現(xiàn)將先進(jìn)的開(kāi)放權(quán)重模型與全球最廣泛云服務(wù)的深度集成。 亞馬遜云科技首次上線(xiàn)OpenAI
    的頭像 發(fā)表于 08-06 19:29 ?973次閱讀

    Transformer端到端自動(dòng)駕駛架構(gòu)是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)一建?!钡姆桨?。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來(lái)自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1554次閱讀

    Android 16更新亮點(diǎn)介紹

    Android 近期整個(gè)平臺(tái)上推出了一系列更新,包括:發(fā)布 Android 16 并為開(kāi)發(fā)者和用戶(hù)提供詳細(xì)信息,推出改進(jìn)外接顯示設(shè)備上 Android 桌面體驗(yàn)的開(kāi)發(fā)者預(yù)覽版,為 Google
    的頭像 發(fā)表于 07-05 11:37 ?3960次閱讀

    Transformer架構(gòu)編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1233次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)<b class='flag-5'>中</b>編碼器的工作流程

    改進(jìn)的BP網(wǎng)絡(luò)PID控制器無(wú)刷直流電機(jī)的應(yīng)用

    具有響應(yīng)速度快、精確性高和穩(wěn)定性強(qiáng)等特點(diǎn)。純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:改進(jìn)的BP網(wǎng)絡(luò)PID控制器無(wú)刷直流電機(jī)的應(yīng)用.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉
    發(fā)表于 05-28 15:42

    改進(jìn)GPC算法永磁同步電機(jī)控制系統(tǒng)的應(yīng)用

    實(shí)際電機(jī)的相關(guān)參數(shù)一致,且動(dòng)態(tài)及穩(wěn)態(tài)性能良好。純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:改進(jìn)GPC算法永磁同步電機(jī)控制系統(tǒng)的應(yīng)用.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉
    發(fā)表于 05-28 15:41
    长治县| 四子王旗| 金溪县| 合川市| 遂昌县| 安泽县| 金湖县| 绥芬河市| 军事| 砀山县| 柘荣县| 仪征市| 宁明县| 专栏| 阿城市| 会东县| 东乡族自治县| 巴彦县| 广宁县| 米脂县| 洛浦县| 利津县| 青神县| 洪江市| 三原县| 贺兰县| 天柱县| 开平市| 长泰县| 鹿泉市| 手游| 罗平县| 公安县| 双辽市| 新巴尔虎右旗| 林口县| 武冈市| 金秀| 汝城县| 普安县| 栾城县|