日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!

jmiy_worldofai ? 來源:YXQ ? 2019-06-03 14:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來,深度強化學習(Deep reinforcement learning)方法在人工智能方面取得了矚目的成就,從 Atari 游戲、到圍棋、再到無限制撲克等領域,AI 的表現(xiàn)都大大超越了專業(yè)選手,這一進展引起了眾多認知科學家的關注。不過 Deep RL 需要大量的訓練數(shù)據(jù),人們開始質(zhì)疑深度強化學習過于依賴樣本,導致效率低下,無法與人類學習的合理模型相匹配。

但在本文中,DeepMind 研究人員將利用最近開發(fā)的技術來駁回這些質(zhì)疑聲,這些技術不僅允許深度強化學習更靈活地運行,而且還使其更高效地解決問題。

第一代 Deep RL:強大但緩慢

在過去的幾年里,人工智能研究取得了革命性的進展。神經(jīng)網(wǎng)絡和「深度學習」的復興推動了圖像識別、自然語言處理等許多領域的突破。這些發(fā)展引起了越來越多心理學家、心理語言學家和神經(jīng)學家的興趣,他們對 AI 發(fā)展是否意味著關于人類認知和腦功能的新假設展現(xiàn)出了充分的好奇心。

從這個角度來講,AI 中最具吸引力的領域就是深度強化學習。因為它將神經(jīng)網(wǎng)絡建模與強化學習充分的結合起來,形成了一套從獎懲中學習而非從準確教學中學習的方法。數(shù)幾十年來,深度強化學習更多的是理論層面的研究,直到近五年來,在電子游戲、撲克、多人游戲以及一些復雜的棋盤游戲中,表現(xiàn)出超人類的技術水平,一躍成為人工智能研究最激烈的領域之一。

圖1 深層強化學習的代表性例子

除 AI 領域外,深度強化學習似乎和心理學與神經(jīng)科學也有著緊密的聯(lián)系。其驅動學習的機制最初是受動物調(diào)節(jié)作用的啟發(fā),并且被認為和基于獎勵學習(以多巴胺為中心)的神經(jīng)機制密切相關。同時,深度強化學習利用神經(jīng)網(wǎng)絡來學習支持泛化和遷移的強大表征,這正和生物大腦的核心相契合。

而正是這些關聯(lián),使那些對人類和動物的行為與神經(jīng)科學學習感興趣的研究人員,產(chǎn)生了豐富的聯(lián)想與假設,從而開始將目光轉向了深度強化學習。這樣的結果,也對那些關于一代 Deep RL 發(fā)負面評論發(fā)出了警告。

看似深度強化學習和人類的學習方式完全不同:有人認為,這種差異在于二者的樣本效率(學習系統(tǒng)達到任何選定目標性能水平所需的數(shù)據(jù)量)。基于這一標準,一代 Deep RL 確實與人類學習者有著極大的不同。為了在 Atari 游戲或國際象棋等任務中獲得專業(yè)人士級表現(xiàn),深度強化學習系統(tǒng)需要比人類多幾個數(shù)量級的訓練數(shù)據(jù)。

這樣的評論確實適用于自2013年開始見于報道的一代 Deep RL 。然而,在那之后的短時間內(nèi),Deep RL 的研究發(fā)生了重要的創(chuàng)新,其樣本效率得到顯著提升。這些方法大大降低了深度強化學習對訓練數(shù)據(jù)量的要求,也就相當于讓深度強化學習變得快多了。這些計算技術的出現(xiàn)使 Deep RL 成為人類學習建模的候選模型,也是心理學和神經(jīng)科學相關觀點的重要啟蒙。

以當下的視角,DeepMind 研究人員在這篇綜述中探究了兩種關鍵的 Deep RL 方法來解決樣本效率問題:Episodic Deep RL和 Meta-RL 。他們檢驗這些技術如何加快 Deep RL 的效率,同時也探索了 Deep RL 對心理學和神經(jīng)科學的潛在影響。

Deep RL緩慢的原因

理解能夠加速 Deep RL 的技術突破的關鍵點就是找到 Deep RL 在實際運行中緩慢的原因,DeepMind 描述了樣本效率低下的兩個主要原因。

第一個原因是增量式的參數(shù)更新。

一代 Deep RL 方法采用梯度下降來映射從輸入環(huán)境到輸出動作之間的關聯(lián)性。正如人工智能和心理學的廣泛討論所得,在該形式下的學習過程,所做的調(diào)整必須很小,才能最大限度地泛化并避免覆蓋早期的學習成果(這種影響有時會被引用『災難性干擾』)。

第二個原因是弱歸納偏倚。

任何學習過程都必然需要在偏倚和多樣性之間作出取舍。學習過程對學習模式的初始假設越強(即學習過程的初始歸納偏倚越強),學習完成所需的數(shù)據(jù)就越少(假設初始歸納偏差與數(shù)據(jù)中的相符)。而具有弱歸納偏差的學習過程雖然能夠習得更廣泛的模式(即更佳的多樣性),但代價是降低樣本效率。

所以,強歸納偏倚可以實現(xiàn)快速學習,在選取輸入數(shù)據(jù)時僅考慮范圍窄的假設學習系統(tǒng),可以比弱歸納偏倚的系統(tǒng)更快地得到正確的假設(假設落入該狹窄的初始范圍內(nèi))。更重要的是,通用神經(jīng)網(wǎng)絡是極低偏倚的學習系統(tǒng),它們有許多參數(shù)(連接權重),并且可以用來適應各種數(shù)據(jù)。

這兩個原因共同解釋了一代 Deep RL緩慢的原因。而隨后的研究表明,這兩個原因都可以優(yōu)化從而允許Deep RL以樣本效率更高的方式進行。

Episodic deep RL:通過情景記憶進行快速學習

如果增量式的參數(shù)更新是深度強化學習緩慢的一個原因,那么減少增量更新則可以使其變快。

但單純增加學習率來控制梯度下降優(yōu)化,則會導致災難性干擾的問題。所以,最近研究表明可以利用另一種方法實現(xiàn)目標:保留過去事件的明確記錄,并直接將此記錄用作制定新決策的參考點。這個被稱為Episodic RL 的觀點與機器學習中的「非參數(shù)」方法相似,類似于心理學理論中的「基于實例」或「基于樣本」。

當遇到新情景并且必須決定采取何種行動時,系統(tǒng)會將當前情景的內(nèi)部表示與過去情景的存儲表示進行對比,根據(jù)與當前最相似的過去情況,然后選擇與最高值相關聯(lián)的動作。當內(nèi)部狀態(tài)表示由多層神經(jīng)網(wǎng)絡計算時,我們將得到的算法稱為 Episodic deep RL 。

圖2 一種情節(jié)強化學習算法的例子

Episodic deep RL 使用 Episodicmemory 來估計動作和狀態(tài)的值。該方法的成功取決于狀態(tài)表示相似性的計算。在后續(xù)研究中,Pritzel等人表明,通過使用梯度下降學習逐步形成這些狀態(tài)表示可以改善 deep RL 的性能。

與標準增量法不同,Episodic deep RL 可以及時利用之前情景事件所獲得的信息來指導行為。雖然 Episodic deep RL 學習更快速,但歸根結底,它仍然依賴于緩慢的增量學習。這些狀態(tài)表示本身是通過增量學習而得,使用了相同類型的增量參數(shù)更新,才形成了標準深度強化學習的主干網(wǎng)絡。最終,通過這種較慢的學習形式實現(xiàn)了快速的 Episodic deep RL ,這表示快速學習的基礎正源于緩慢學習?!缚焖賹W習的基礎是緩慢學習」并不是僅僅在強化學習里有效的巧合。實際上在下文中,DeepMind 進一步說明了這是在心理學和神經(jīng)科學領域也廣泛有效的基礎法則。

Meta-RL:通過學習如何學習來加速 Deep RL

如前所述,一代 Deep RL 緩慢的第二個關鍵原因是弱歸納偏倚。

正如在偏倚和多樣性的取舍概念中所形式化的,快速學習要求學習者使用一組合理大小的假設(關于它將面臨的模式結構),假設設置越窄,學習速度就越快。然而一個狹義的假設集只在它包含正確的假設的情況下,才會提高學習速率。因此,新的問題就是:學習者如何獲得應該采用的歸納偏倚?

顯而易見的答案就是:借鑒過去的經(jīng)驗,這也是人類在日常生活中會采用的方法。例如,有一個學習使用新智能手機的任務,在這種情況下,通常我們會將過去使用智能機和其他相關設備的經(jīng)驗,用來幫助我們學習。

利用過去的經(jīng)驗加速新學習的方式,在機器學習中被稱為元學習。這個想法源于心理學,它也被稱為「學習如何學習」。在第一篇使用「元學習」的論文中,Harlow 提出了一個實驗,可以巧妙地捕捉它的原理。

實驗中,猴子被提供了兩個不熟悉的物體,允許抓住其中一個,并在下面放置食物獎勵或空井。然后將物體再次放置在動物之前,可能左右顛倒,并且重復該過程總共六輪;然后換兩個新的、不熟悉的物體,又進行了六次試驗;接著是另一對物體,依此類推……

在眾多物體對中,猴子會發(fā)現(xiàn)一個簡單的規(guī)則總是存在:無論物品左右位置如何,只有一個能產(chǎn)生食物,而另一個物體不能。當呈現(xiàn)一對新的物體時,猴子能夠一次性學習,這就是一個簡單卻形象的「學習如何學習」的例子。

圖3 Harlow 的實驗

而 AI 通過利用元學習來加速深度學習,這個總體思路已經(jīng)以各種方式實現(xiàn)。其中,Wang 和 Duan 等研究者提出了一種與神經(jīng)科學和心理學尤為相關的方法。在這方法中,循環(huán)神經(jīng)網(wǎng)絡可以在一系列相互關聯(lián)的強化學習任務上進行訓練。因為網(wǎng)絡中的權重調(diào)整非常緩慢,所以它們可以得到不同任務中通用內(nèi)容,但不能快速更改以支持任何單個任務的解決方案。

在這種情況下,循環(huán)神經(jīng)網(wǎng)絡的活動動態(tài)則可以實現(xiàn)他們獨立的強化學習算法,該算法基于過去任務產(chǎn)生的知識「負責」快速解決每個新任務。實際上,一個強化學習算法產(chǎn)生另一個強化學習算法,因此稱為「元強化學習算法 meta-RL」。

圖4 元強化學習的示意圖

與 Episodic deep RL 一樣,Meta-RL 再次涉及快速和慢速學習之間的密切聯(lián)系。循環(huán)神經(jīng)網(wǎng)絡的連接在各個任務之間緩慢學習與更新,讓跨任務的一般原則能「內(nèi)置」到循環(huán)網(wǎng)絡的動態(tài)中,由此產(chǎn)生的網(wǎng)絡動態(tài)實現(xiàn)了一種新的學習算法,則可以實現(xiàn)快速解決新問題。這一方法被慢速學習賦予了有用的歸納偏倚,再一次證明,快速學習源于慢學習并且通過慢學習實現(xiàn)。

Episodic Meta-RL

值得注意的是,以上兩種技術并不相互排斥。近期的相關研究探索了一種整合 Episodic deep RL 和 Meta-RL 的方法,使它們實現(xiàn)效益互補,從而得到了 Episodic meta-RL。其中,元學習發(fā)生在循環(huán)神經(jīng)網(wǎng)絡中,而 Episodic memory 系統(tǒng)則疊加在這之上,其作用是復原該循環(huán)神經(jīng)網(wǎng)絡中的活動模式。

與 Episodic deep RL 一樣,Episodic memory 系統(tǒng)對一組過去事件進行整合,使其可根據(jù)當前情景來查詢這些事件。但是,Episodic meta-RL 不是將情景和估值直接連接起來,而是將情景與來自循環(huán)神經(jīng)網(wǎng)絡內(nèi)部或隱藏單元的存儲活動模式連接起來。這些模式很重要,因為它們通過 Meta-RL 總結得到智能體與各個任務交互中學到的東西。

在 Episodic meta-RL 中,當智能體處于類似于過去遇到的情況時,它會先恢復之前的隱藏活動,允許先前學到的信息立直接作用于當前策略。實際上,Episodic memory 允許系統(tǒng)識別先前遇到的任務,然后檢索已存儲的解決方案。

通過老虎機選擇任務和導航任務的模擬工作,Ritter 等研究者證實了 Episodic Meta-RL 和原始 Meta-RL 一樣,通過學習強大的歸納偏置,實現(xiàn)快速解決新任務。核心關鍵是,當處理之前發(fā)生過的任務時,Episodic Meta-RL 會立即檢索并復原之前已有的解決方案,省去重新檢索過程;而在首次處理新任務時,系統(tǒng)則充分利用 Meta-RL 的快速性;第二次和之后的處理中,它則受益于 Episodic control 所賦予的一次性學習功能。

對神經(jīng)科學和心理學的啟示

正如在一開始所討論到,樣本效率低下被作為質(zhì)疑深度強化學習與人類和其他動物學習的相關性的理由。從心理學和神經(jīng)科學的角度來看,Episodic deep RL 和 Meta-RL 的一個重要含義正是證實了 Deep RL 也可以實現(xiàn)快速處理,從而駁回了這一質(zhì)疑。這樣的結果證實了深度強化學習作為人類和動物學習的潛在模型是可行的。除此之外,Episodic deep RL 和 Meta-RL 的細節(jié)也引出了心理學和神經(jīng)科學中有趣的新假設。

從 Episodic deep RL 中,我們會發(fā)現(xiàn)它與經(jīng)典人類記憶模型之間的有趣聯(lián)系。它為基于實例的處理如何來促進獎勵驅動學習提供了合理解釋。有趣的是,近期關于動物和人類強化學習的研究越來越多強調(diào)了 Episodic memory 的潛在貢獻,越來越多的證據(jù)表明,狀態(tài)和行為價值的估計是基于對過去特定行動觀察的記憶檢索。Episodic deep RL 提供了一個新的思維角度,用于探究這個一般原則如何擴展到多樣的、高維的順序學習問題上;更讓人驚訝的是,它突出了表征學習和度量學習在基于 Episodic deep RL 之上,可能發(fā)揮的重要作用。這表明對于人和動物中快速片段強化學習與較慢學習過程的相互作用及緊密聯(lián)系的研究是有成效的。

再談到 Meta-RL,該算法對心理學和神經(jīng)科學也有潛在的影響。實際上,Wang 等研究者提出了元強化學習的元素到神經(jīng)網(wǎng)絡結構和功能的直接映射。具體來說,他們提出多巴胺驅動的突觸緩慢變化可用于調(diào)節(jié)前額葉回路的活動,使后者實現(xiàn)獨立的學習過程。通過一系列的計算機模擬,Wang 等研究者以 Meta-RL 方式去證明了行為和神經(jīng)生理學文獻中的各種實證研究結果。

Wang 等研究者提出,Meta-RL 可以模擬生物大腦進行學習。他們認為以前額皮層(PFC)為中心的復位神經(jīng)網(wǎng)絡實現(xiàn)了學習的內(nèi)循環(huán),并且這種內(nèi)循環(huán)算法由多巴胺驅動的突觸可塑的外環(huán)慢慢形成。

在內(nèi)循環(huán)中,前額皮層是快速學習的核心,其中的神經(jīng)元用于支持這種學習的變量。例如,Tsutsui 等研究者從覓食任務期間的靈長類動物背外側前額皮層(dlPFC)記錄,當環(huán)境變量不斷變化時,他們發(fā)現(xiàn)個體神經(jīng)元不僅編碼當前選項的值,而且還編碼先前采取的行動,先前的獎勵以及先前行動與先前獎勵的相互作用。這些是在此任務中實施有效學習政策的關鍵變量。

而在外循環(huán)中。中腦多巴胺神經(jīng)元被認為攜帶時間差異的獎賞預測誤差(RPE)信號。在這個標準理論中,多巴胺驅動對皮層 - 紋狀體突觸的增量調(diào)整,這些調(diào)整使動物更容易重復強化行為。這種無模型學習系統(tǒng)通常被視為生活在大多數(shù)不同腦區(qū)的基于模型的系統(tǒng)的補充。

同樣將 Episodic meta-RL 與心理學和神經(jīng)科學聯(lián)系起來。該算法涉及的復位機制直接受神經(jīng)科學數(shù)據(jù)的啟發(fā),表明 Episodic memory 可用于復位大腦皮層的激活模式,包括支持工作記憶的區(qū)域。Ritter 等研究者展示了如何通過強化學習的優(yōu)化配置,從而系統(tǒng)復位先前遇到的任務信息狀態(tài)。除了從神經(jīng)科學中汲取的最初靈感外,這項工作還通過為人類學習中最近報道的情節(jié)控制和基于模型的控制之間的相互作用提供簡約解釋而與生物學相關聯(lián)。在更廣泛的層面上,Ritter 等研究者報道的工作舉例說明了元學習如何在多個記憶系統(tǒng)上運行,緩慢調(diào)整他們的交互,以便他們共同快速學習。

快速和慢速 RL:更深遠的意義

在討論 Episodic RL 和 Meta-RL 時,我們強調(diào)了「慢」學習在實現(xiàn)快速、樣本有效學習方面的作用。在 Meta-RL 中,緩慢的、基于權重的學習,用于建立歸納偏倚來指導推理,從而快速去適應新任務。而在 Episodic RL 中,算法則依賴于對情景或狀態(tài)之間相似性的判斷。緩慢的學習形成了內(nèi)部表示的方式,從而建立了一系列有關于狀態(tài)之間聯(lián)系的歸納偏倚。

進一步觀察 Episodic RL ,我們可以發(fā)現(xiàn)學習架構中本身就存在歸納偏倚。Episodic RL 獨特之處則是:假設一種簡單原則,類似的狀態(tài)通常產(chǎn)生類似的動作。這種歸納偏差不是用于學習,而是連接到定義 Episodic RL 的學習系統(tǒng)結構中。在當前的 AI 中,這是「架構」或「算法偏倚」,與「學習偏倚」有明顯的區(qū)別。

目前人工智能研究主要集中在尋找有用的歸納偏倚以加速學習,通過學習、手工設計架構或算法偏倚來實現(xiàn),而最后一種方法則是當下人工智能神經(jīng)網(wǎng)絡興起的主要原因。其中,卷積神經(jīng)網(wǎng)絡提供了強有力的支持,它構建了一種與圖像識別中的平移不變性相關的特殊結構偏倚。

從高層次來看,這些發(fā)展與心理學中一些長期存在的問題相似。如你所見,歸納偏倚可能通過學習獲得的想法最初源于心理學,并且一直是心理學研究的間歇性話題。而神經(jīng)網(wǎng)絡中的元學習為學習如何學習的機制和動態(tài)提供了新的條件,尤其是在 RL 中。

在心理學方面,尤其是發(fā)展心理學,也長期以來一直在探索某些歸納偏倚「內(nèi)置」的可能性,即內(nèi)在特性。然而,結構偏差以及神經(jīng)網(wǎng)絡學習算法中的內(nèi)置偏倚的原理概念被考慮得較少,當前的深度學習和深度強化學習的方法則為其提供了一個工具,有助于進一步探索。

值得關注的是,雖然人工智能工作在通過學習獲得的歸納偏倚和手工「連接」的偏見之間產(chǎn)生了明顯的區(qū)別,但從生物學來講,可以獲得更普遍、更統(tǒng)一的觀點。具體而言,人們可以將架構和算法偏倚視為由進化驅動的不同學習過程產(chǎn)生的。這里的進化,是一種「緩慢」的學習過程,逐漸形成架構和算法偏倚,從而加快終身學習速度。

因此,元學習不僅在一個生命周期內(nèi)發(fā)揮作用,而且在進化過程也發(fā)揮作用。有趣的是,這種觀點意味著進化不會選擇真正的「通用」學習算法,而是選擇大腦在特定環(huán)境下的進化規(guī)律作為算法。在這樣的情況下,AI 的最新發(fā)展再次證明其對于神經(jīng)科學和心理學的探索具有實際意義。無論是專注于手工工程還是進化,AI 在構架和算法偏倚方面的工作為我們提供了一個新的思路——用于對進化是如何形成神經(jīng)系統(tǒng)從而支持有效學習做進一步研究。人工智能研究提出的可能性包括對神經(jīng)網(wǎng)絡連接初始模式的限制;突觸學習規(guī)則;和鼓勵出現(xiàn)解離或組合表征的因素和內(nèi)部預測模型。

從心理學,神經(jīng)科學,進化和發(fā)展研究的角度來看,這些研究也繪制出了這樣的藍圖:學習在許多時間尺度上同時運行,從幾千毫秒到幾毫秒之間,隨著較慢的時間尺度得到偏差,使其在這之上實現(xiàn)更快的學習,并且所有這些都在進化、發(fā)展并且遵循著受環(huán)境結構強烈影響的軌跡。從這看來,進化形成了嵌入歸納偏倚的架構和算法;然后這些形成終身學習,它本身就會根據(jù)經(jīng)驗發(fā)展出進一步的歸納偏倚。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1821

    文章

    50366

    瀏覽量

    267048
  • 深度學習
    +關注

    關注

    73

    文章

    5610

    瀏覽量

    124652

原文標題:DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Momenta R7強化學習世界模型實現(xiàn)量產(chǎn)首發(fā)

    等話題展開深度對話,正式宣布Momenta R7強化學習世界模型實現(xiàn)量產(chǎn)首發(fā),標志著智能駕駛從“看見世界”到“理解世界”的全新跨越,物理AI正式從技術理念走向規(guī)?;慨a(chǎn)落地。
    的頭像 發(fā)表于 04-29 15:44 ?687次閱讀

    Momenta R7強化學習世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強化學習世界模型。這意味著Momenta R7率先在全球強化學習+世界模型方向上取得量產(chǎn)突破——標志著物理AI上車。
    的頭像 發(fā)表于 04-29 15:42 ?634次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學習大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強化學習大模型。
    的頭像 發(fā)表于 04-09 09:33 ?240次閱讀

    上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強化學習世界模型

    3月30日,Momenta R7強化學習世界模型全球首發(fā)搭載車型——上汽大眾ID. ERA 9X正式開啟預售。
    的頭像 發(fā)表于 03-31 13:48 ?412次閱讀

    Momenta R6強化學習大模型上車東風日產(chǎn)NX8

    3月20日,東風日產(chǎn)NX8技術暨預售發(fā)布會在廣州舉辦,官宣Momenta R6強化學習大模型正式上車東風日產(chǎn)新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道
    的頭像 發(fā)表于 03-24 09:08 ?888次閱讀

    Momenta強化學習大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強化學習大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗。
    的頭像 發(fā)表于 03-18 15:48 ?343次閱讀

    Momenta R7強化學習世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術發(fā)布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術亮點。會上,Momenta CEO曹旭東正式宣布:Momenta R7強化學習世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV
    的頭像 發(fā)表于 03-17 13:57 ?1255次閱讀

    自動駕駛中常提的離線強化學習是什么?

    ,圖片源自:網(wǎng)絡 但強化學習本身是需要不斷試錯的,如果采用這種學習方式在真實道路中不斷嘗試,一定會導致不可控的事故。于是就有人提出一種猜測,能不能利用已經(jīng)存在的大量行駛日志、仿真記錄和人類駕駛數(shù)據(jù),在訓練過程中完全
    的頭像 發(fā)表于 02-07 09:21 ?370次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發(fā)表于 01-31 09:34 ?850次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    智能強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓練五個智能,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能
    的頭像 發(fā)表于 01-21 16:21 ?343次閱讀
    多<b class='flag-5'>智能</b><b class='flag-5'>體</b><b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?522次閱讀

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學習技術,已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機強化學習方案,機器人
    發(fā)表于 11-05 09:44 ?1174次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能在環(huán)境里行動,它能觀察到環(huán)境的一些信息,并做出一個動作,然后環(huán)境會給出一個反饋(獎勵或懲罰),智能的目標是把長期得到的獎勵累積到最大。和監(jiān)督
    的頭像 發(fā)表于 10-23 09:00 ?919次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    AI智能的技術應用與未來圖景

    深度學習與邏輯推理,實現(xiàn)復雜情境的語義解析與因果推斷;行動層依托強化學習框架驅動自主決策鏈,形成感知-決策-執(zhí)行的閉環(huán)能力。這種架構演進使智能
    的頭像 發(fā)表于 07-24 11:04 ?1136次閱讀

    NVIDIA Isaac Lab可用環(huán)境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環(huán)境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行
    的頭像 發(fā)表于 07-14 15:29 ?2671次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學習</b>腳本使用指南
    上思县| 卢龙县| 晴隆县| 会东县| 五华县| 阿瓦提县| 宁乡县| 宁夏| 龙川县| 通榆县| 东山县| 康定县| 德钦县| 丹凤县| 永善县| 绵竹市| 泌阳县| 张家口市| 温宿县| 门源| 双鸭山市| 丘北县| 镇沅| 铜山县| 灌云县| 潮安县| 莱芜市| 含山县| 诸暨市| 陵川县| 马关县| 聊城市| 西安市| 红安县| 清徐县| 江源县| 额敏县| 克什克腾旗| 星子县| 禄劝| 柞水县|