日韩大香蕉国产,日韩网站推荐,国产精品人妻在线A

神經(jīng)網(wǎng)絡訓練中“權(quán)重”有多重要不言而喻。但現(xiàn)在，可以把權(quán)重拋諸腦后了。谷歌大腦最新研究提出“權(quán)重無關(guān)神經(jīng)網(wǎng)絡”，通過不再強調(diào)權(quán)重來搜索網(wǎng)絡結(jié)構(gòu)，所搜索的網(wǎng)絡無需權(quán)重訓練即可執(zhí)行任務！

還在為 “調(diào)參煉丹” 感到痛苦嗎？是時候重視下神經(jīng)網(wǎng)絡結(jié)構(gòu)了！

前不久，新智元報道了谷歌給出首個神經(jīng)網(wǎng)絡訓練理論的證明。這一研究在訓練深度神經(jīng)網(wǎng)絡被戲謔為 “調(diào)參煉丹” 的當下，猶如一道希望的強光，射進還被排除在 “科學” 之外的深度學習領域，激動人心。

而今天，谷歌再向煉丹術(shù)發(fā)起 “攻擊”：提出一種神經(jīng)網(wǎng)絡結(jié)構(gòu)的搜索方法，該方法無需任何顯式的權(quán)值訓練即可執(zhí)行任務！

arXiv 地址：

https://arxiv.org/pdf/1906.04358.pdf

這項研究的作者之一David Ha發(fā)表 Twitter 表示：

這項研究的關(guān)鍵思想是通過不再強調(diào)權(quán)重來搜索網(wǎng)絡結(jié)構(gòu)。

在搜索過程中，網(wǎng)絡每次在 rollout 的時候會分配一個共享的權(quán)重值，并進行優(yōu)化，這就讓它能夠在很大的權(quán)重值范圍內(nèi)良好運行。

這樣做的好處就是可以繞過高昂的內(nèi)部訓練循環(huán)代價。

這項工作是由 Adam Gaier 所領導的，他在東京的谷歌大腦實習了 3 個月。特別有意思的是，這個研究想法是他在六本木喝了幾杯酒之后產(chǎn)生的。

Adam Gaier是一名AI研究員，在教學和研究方面具有廣泛的國際經(jīng)驗，在生物啟發(fā)的計算、機器人和機器學習方面有很強的背景。目前的研究主要集中在機器學習和進化計算的集成上，其目標是將人工智能應用于現(xiàn)實世界的設計和控制問題。

Adam Gaier的經(jīng)歷也頗為神奇，LinkedIn資料顯示，他本科在英國里士滿美國國際大學讀信息系統(tǒng)專業(yè)，后又在英國薩塞克斯大學和德國波恩-萊茵-錫格應用技術(shù)大學分別獲得碩士學位，攻讀自主系統(tǒng)專業(yè)。

而在2005年本科畢業(yè)到2011年再次回到學校的期間，有兩年半的時間 Adam Gaier 在北京烏巢餐廳擔任餐廳經(jīng)理、市場及 IT 總監(jiān)；然后在清華大學國際學校，計算機科學系系主任。2019年1月至今他在谷歌大腦東京部門擔任實習研究員。

接下來，新智元帶來這篇論文的詳細解讀：

無需學習權(quán)重，“一出生”就很秀的神經(jīng)網(wǎng)絡

在生物學中，早成物種(precocial species)是指那些從出生的那一刻起就具有某些能力的物種。有證據(jù)表明，蜥蜴和蛇的幼仔一出生就具備了躲避捕食者的行為，鴨子剛孵化后不久就能自己游泳和進食。相反，我們在訓練AI智能體執(zhí)行任務時，通常要選擇一個我們認為適合為任務編碼策略的神經(jīng)網(wǎng)絡架構(gòu)，并使用學習算法找到該策略的權(quán)重參數(shù)。

在這項工作中，我們受到自然界進化的早成行為的啟發(fā)，開發(fā)了具有自然就能夠執(zhí)行給定任務的架構(gòu)的神經(jīng)網(wǎng)絡，即使其權(quán)重參數(shù)是隨機采樣的。通過使用這樣的神經(jīng)網(wǎng)絡架構(gòu)，AI智能體可以在不需要學習權(quán)重參數(shù)的情況下在其環(huán)境中運行良好。

權(quán)重無關(guān)神經(jīng)網(wǎng)絡的例子：兩足步行者(左)，賽車(右)

我們通過不再強調(diào)權(quán)重(deemphasizing weights)來搜索神經(jīng)網(wǎng)絡架構(gòu)。在每次rollout，網(wǎng)絡都被分配一個單獨的共享權(quán)重值來代替訓練。在很大范圍的權(quán)重值上為預期性能進行優(yōu)化的網(wǎng)絡結(jié)構(gòu)仍然能執(zhí)行各種任務，而無需權(quán)重訓練。

數(shù)十年的神經(jīng)網(wǎng)絡研究為各種任務領域提供了具有很強歸納偏差的構(gòu)建塊。卷積網(wǎng)絡特別適合于圖像處理。例如，Ulyanov等人證明，即使是一個隨機初始化的CNN也可以用作圖像處理任務(如超分辨率和圖像修復)的手工預處理。Schmidhuber等人證明，具有學習線性輸出層的隨機初始化LSTM可以預測傳統(tǒng)RNN失效的時間序列。self-attention和capsule網(wǎng)絡的最新發(fā)展擴展了構(gòu)建模塊的工具包，用于為各種任務創(chuàng)建具有強烈歸納偏差的架構(gòu)。

被隨機初始化的CNN和LSTM的內(nèi)在能力所吸引，我們的目標是搜索與權(quán)重無關(guān)的神經(jīng)網(wǎng)絡(weight agnostic neural networks)，這種結(jié)構(gòu)具有很強的歸納偏差，已經(jīng)可以使用隨機權(quán)重執(zhí)行各種任務。

MNIST分類網(wǎng)絡演化為使用隨機權(quán)重

使用隨機權(quán)重的網(wǎng)絡架構(gòu)不僅易于訓練，而且還提供了其他優(yōu)勢。例如，我們可以為同一個網(wǎng)絡提供一個(未經(jīng)訓練的)權(quán)重集合來提高性能，而不需要顯式地訓練任何權(quán)重參數(shù)。

具有隨機初始化的傳統(tǒng)網(wǎng)絡在MNIST上的精度約為10%，但這種隨機權(quán)重的特殊網(wǎng)絡架構(gòu)在MNIST上的精度(> 80%)明顯優(yōu)于隨機初始化網(wǎng)絡。在沒有進行任何權(quán)重訓練的情況下，當我們使用一組未經(jīng)訓練的權(quán)重時，精度提高到> 90%。

為了尋找具有強歸納偏差的神經(jīng)網(wǎng)絡架構(gòu)，我們提出通過降低權(quán)重的重要性來搜索架構(gòu)。

具體實現(xiàn)方法是：

(1)為每個網(wǎng)絡連接分配一個共享權(quán)重參數(shù)；

(2)在此單一權(quán)重參數(shù)的大范圍內(nèi)評估網(wǎng)絡。

我們沒有優(yōu)化固定網(wǎng)絡的權(quán)重，而是優(yōu)化在各種權(quán)重范圍內(nèi)性能良好的網(wǎng)絡結(jié)構(gòu)。我們證明了，我們的方法能夠產(chǎn)生可以預期用隨機權(quán)重參數(shù)執(zhí)行各種連續(xù)控制任務的網(wǎng)絡。

作為概念證明，我們還將搜索方法應用于監(jiān)督學習領域，發(fā)現(xiàn)它可以找到即使沒有顯式的權(quán)重訓練也可以在MNIST上獲得比chance test準確率高得多(～92%)的網(wǎng)絡。

我們希望對這種權(quán)重無關(guān)的神經(jīng)網(wǎng)絡的demo將鼓勵進一步研究探索新的神經(jīng)網(wǎng)絡構(gòu)建塊，不僅具有有用的歸納偏差，而且還可以使用不一定限于基于梯度的方法的算法來學習。

Demo：

一個執(zhí)行CartpoleSwingup任務的權(quán)重無關(guān)神經(jīng)網(wǎng)絡。請點擊本文原文鏈接，拖動滑塊控制權(quán)重參數(shù)，觀察不同共享權(quán)重參數(shù)下的性能。你也可以在這個demo中微調(diào)所有連接的各個權(quán)重。

關(guān)鍵技術(shù)解析：權(quán)重無關(guān)神經(jīng)網(wǎng)絡搜索

創(chuàng)建編碼解決方案的網(wǎng)絡架構(gòu)是一個與神經(jīng)結(jié)構(gòu)搜索(NAS)所解決的問題完全不同的問題。NAS技術(shù)的目標是產(chǎn)生經(jīng)過訓練的架構(gòu)，其性能優(yōu)于人類設計的架構(gòu)。從沒有人聲稱這個解決方案是網(wǎng)絡結(jié)構(gòu)固有的。NAS創(chuàng)建的網(wǎng)絡“可訓練”——但沒有人認為這些網(wǎng)絡在不訓練權(quán)重的情況下就能解決任務。權(quán)重就是解決方案；所發(fā)現(xiàn)的結(jié)構(gòu)僅僅是一個更好的承載權(quán)重的基底。

要生成自己編碼解決方案的架構(gòu)，就必須將權(quán)重的重要性降到最低。與其用最優(yōu)權(quán)重來判斷網(wǎng)絡的性能，不如根據(jù)隨機分布的權(quán)重來衡量網(wǎng)絡的性能。用權(quán)重采樣代替權(quán)重訓練可以確保性能僅是網(wǎng)絡拓撲結(jié)構(gòu)的產(chǎn)品。

不幸的是，由于高維數(shù)，除了最簡單的網(wǎng)絡外，可靠第對權(quán)重空間進行采樣是不可行的。雖然維數(shù)災難(curse of dimensionality)阻礙了我們有效地采樣高維權(quán)重空間，但是通過強制所有權(quán)重共享(weight-sharing)，權(quán)重值的數(shù)量被減少到一個。系統(tǒng)地對單個權(quán)重值進行采樣是直接且高效的，這使我們能夠在少數(shù)試驗中近似網(wǎng)絡性能，然后可以使用這種近似來驅(qū)動搜索更好的架構(gòu)。

權(quán)重無關(guān)的神經(jīng)網(wǎng)絡搜索概述

在探索神經(jīng)網(wǎng)絡拓撲空間時，權(quán)值無關(guān)的神經(jīng)網(wǎng)絡搜索避免了權(quán)重訓練，方法是在每次rollout時采樣一個共享的權(quán)值。網(wǎng)絡將通過多次rollout進行評估。在每次rollout，都會為單個共享權(quán)重分配一個值，并記錄試驗期間的累計獎勵。然后根據(jù)網(wǎng)絡的性能和復雜度對網(wǎng)絡群體進行排序。然后，概率性地選擇排名最高的網(wǎng)絡，并隨機變化以形成新的群體，然后重復這個過程。

搜索權(quán)重無關(guān)神經(jīng)網(wǎng)絡(weight agnostic neural networks, WANNs)的過程可以概況如下(見上圖)：

創(chuàng)建最小神經(jīng)網(wǎng)絡拓撲的初始群體(population)。

通過多個rollout評估每個網(wǎng)絡，每個rollout分配一個不同的共享權(quán)重值。

根據(jù)網(wǎng)絡的性能和復雜度對其進行排名。

通過改變排名最高的網(wǎng)絡拓撲結(jié)構(gòu)來創(chuàng)建新的population。

然后，算法從(2)開始重復，生成復雜度逐漸增加的與權(quán)重無關(guān)的拓撲結(jié)構(gòu)，這些拓撲結(jié)構(gòu)在連續(xù)的幾代中表現(xiàn)得更好。

拓撲搜索(Topology Search)

用于神經(jīng)網(wǎng)絡拓撲搜索的運算符(operators)受到神經(jīng)進化算法NEAT的啟發(fā)。在NEAT中，拓撲和權(quán)重值同時優(yōu)化，這里我們忽略了權(quán)重值，只應用拓撲搜索運算符。

用于搜索網(wǎng)絡拓撲空間的運算符

左：一個最小的網(wǎng)絡拓撲結(jié)構(gòu)，輸入和輸出僅部分連接。

中間：網(wǎng)絡以三種方式進行改變：

(1)插入節(jié)點：通過拆分現(xiàn)有連接插入新節(jié)點。

(2)添加連接：通過連接兩個以前未連接的節(jié)點來添加一個新連接。

(3)變更激活：重新分配隱藏節(jié)點的激活函數(shù)。

右：在[2, 2]范圍內(nèi)可能的激活函數(shù)(線性、階躍、正弦、余弦、高斯、tanh、sigmoid、inverse、絕對值、ReLU)。

實驗設置與結(jié)果

對連續(xù)控制權(quán)重無關(guān)神經(jīng)網(wǎng)絡（WANN）的評估在三個連續(xù)控制任務上進行。

第一個任務：CartPoleSwingUp，這是一個典型的控制問題，在給定的推車連桿系統(tǒng)下，桿必須從靜止位置擺動到直立位置然后平衡，而推車不會越過軌道的邊界。這個問題無法用線性控制器解決。每個時間步長上的獎勵都是基于推車與軌道邊緣的距離和桿的角度決定的。

第二個任務是BipedalWalker-v2 ，目的是引導一個雙腿智能體跨越隨機生成的地形。獎勵是針對成功行進距離，以及電動機扭矩的成本確定。每條腿都由髖關(guān)節(jié)和膝關(guān)節(jié)控制，響應24個輸入。與低維的CartPoleSwingUp任務相比，BipedalWalker-v2的可能連接數(shù)更多更復雜，WANN需要選擇輸入到輸出的路線。

第三個任務CarRacing-v0是一個從像素環(huán)境中自上而下行駛的賽車問題。賽車由三個連續(xù)命令（點火，轉(zhuǎn)向，制動）控制，任務目標是在一定時限內(nèi)行駛過盡量長的隨機生成的道路。我們將任務的像素解釋元素交給經(jīng)過預訓練的變分自動編碼器（VAE），后者將像素表示壓縮為16個潛在維度，將這些信息作為網(wǎng)絡的輸入。這個任務測試了WANN學習抽象關(guān)聯(lián)的能力，而不是編碼輸入之間的顯式幾何關(guān)系。

在實驗中，我們比較了以下4種情況下100次試驗的平均表現(xiàn)：

1.隨機權(quán)重：從μ（-2,2）范圍內(nèi)抽取的單個權(quán)重。

2.隨機共享權(quán)重：從μ（- 2,2）范圍內(nèi)中抽取的單個共享權(quán)重。

3.調(diào)整共享權(quán)重：在μ（-2,2）范圍內(nèi)表現(xiàn)最好的共享權(quán)重值。

4.調(diào)整權(quán)重：使用基于人口信息的強化調(diào)整的個體權(quán)重。

連續(xù)控制任務的隨機抽樣和訓練權(quán)重的性能

我們比較了過往研究中常用的標準前饋網(wǎng)絡的最佳權(quán)重無關(guān)網(wǎng)絡架構(gòu)的平均性能（測試次數(shù)超過100次）。通過均勻分布采樣的共享權(quán)重來測量其性能，從結(jié)果中可以觀察到網(wǎng)絡拓撲的固有偏差。通過調(diào)整此共享權(quán)重參數(shù)，可以測出其最佳性能。為了便于與基線架構(gòu)進行比較，允許網(wǎng)絡獲得獨特的權(quán)重參數(shù)，并對其進行調(diào)整。

結(jié)果如上表所示，作為基線的傳統(tǒng)固定拓撲網(wǎng)絡在經(jīng)過大量調(diào)整后只產(chǎn)生有用行為，相比之下，WANN甚至可以使用隨機共享權(quán)重。雖然WANN架構(gòu)編碼強烈偏向解決方案，但并不完全獨立于權(quán)重值，當單個權(quán)重值隨機分配時，模型就會失敗。WANN通過編碼輸入和輸出之間的關(guān)系來起作用，因此，雖然權(quán)重大小并不重要，但它們的一致性，特別是符號的一致性，是非常重要的。單個共享權(quán)重的另一個好處是，調(diào)整單個參數(shù)變得非常容易，無需使用基于梯度的方法。

表現(xiàn)最佳的共享權(quán)重值會產(chǎn)生令人滿意的行為：連桿系統(tǒng)在幾次擺動之后即獲得平衡，智能體沿道路有效行進，賽車實現(xiàn)高速過彎。這些基本行為完全在網(wǎng)絡架構(gòu)內(nèi)編碼。雖然WANN能夠在未經(jīng)訓練的情況下使用，但這并不能妨礙其在訓練權(quán)重后達到類似的最佳性能。

由于網(wǎng)絡規(guī)模小到可以解釋，我們可以通過查看網(wǎng)絡圖來了解其運行機制（見上圖）。解決“桿車實驗”的WANN網(wǎng)絡開發(fā)過程就體現(xiàn)了在網(wǎng)絡架構(gòu)內(nèi)對關(guān)系的編碼方式。在早期時代的網(wǎng)絡空間中，不可避免的需要使用隨機探索的方式。

網(wǎng)絡在第32代時形成初步架構(gòu)，能夠支持比較一致的任務表現(xiàn)，在軌道某某位置的逆變器可以防止小車沖出軌道，軌道中間為0點，左邊為負，右邊為正。在小車處于負區(qū)域時對其施加正方向作用力，反之亦然，網(wǎng)絡通過編碼在軌道中間設置一個強力牽引器。最終經(jīng)調(diào)整權(quán)重，在1024代達成最佳性能。

第1024代最佳性能的CartPoleSwingUp任務WANN網(wǎng)絡示意圖

我們可以使用最佳共享權(quán)重作為起點，由共享權(quán)重參數(shù)得到偏移量，輕松訓練網(wǎng)絡的每個單獨的權(quán)重連接?？梢允褂没谌丝谛畔⒌膹娀瘜?quán)重進行微調(diào)，但原則上可以使用任何其他學習算法。

為了在訓練分布之外可視化智能體的性能，可以使用比原始設置更多更雜初始條件。

隨著搜索過程的繼續(xù)，有些控制器能夠在直立位置保持更長時間，到第128代時，這個保持時間已經(jīng)長到能夠讓桿保持平衡。雖然在可變權(quán)重條件下，這種更復雜的平衡機制在可靠性上低于擺動和居中行為，但更可靠的行為可以確保系統(tǒng)恢復，并再次嘗試直到找到新的平衡狀態(tài)。值得注意的是，由于這些網(wǎng)絡對關(guān)系進行編碼，并依賴于相互設置的系統(tǒng)之間的張力，因此網(wǎng)絡的行為與廣泛的共享權(quán)重值保持一致。

在BipedalWalker-v2和CarRacing-v0任務中，WANN網(wǎng)絡控制器在簡單性和模塊性方面的表現(xiàn)同樣出色。前者僅使用了25種可能輸入中的17種，忽略了許多LIDAR傳感器信息和膝蓋運動速度數(shù)據(jù)。 WANN架構(gòu)不僅可以在未訓練單個權(quán)重的情況下完成任務，而且僅使用了210個連接，比常用拓撲網(wǎng)絡架構(gòu)（SOTA基線方法中使用了2804個連接）低一個數(shù)量級。

BipedalWalker任務最佳性能網(wǎng)絡示意圖

權(quán)重設置-1.5

權(quán)重設置-1.0

性能最優(yōu)的網(wǎng)絡

在賽車任務實驗中，WANN架構(gòu)簡單的優(yōu)勢也很突出。只需要稀疏連接的雙層網(wǎng)絡和單個權(quán)重值，就能編碼合格的駕駛行為。雖然SOTA基線方法也給出了預訓練RNN模型的隱藏狀態(tài)，但除了VAE對其控制器的表示外，我們的控制器僅在VAE的潛在空間上運行。盡管如此，WANN還是能夠開發(fā)出一種前饋控制器，可以獲得性能相當?shù)姆謹?shù)。未來我們將探索如何從搜索中去掉前饋約束，讓WANN開發(fā)出與內(nèi)存狀態(tài)相關(guān)的循環(huán)連接。

權(quán)重設置+1.0

權(quán)重設置-1.4

性能最優(yōu)的網(wǎng)絡

WANN的應用擴展：探索圖像分類任務

在強化學習任務中取得的好成績讓我們考慮擴大WANN的應用范圍。對輸入信號之間的關(guān)系進行編碼的WANN非常適合強化學習任務。不過，分類問題遠沒有這么模糊，性能要求也要嚴格得多。與強化學習不同，分類任務中的架構(gòu)設計一直是人們關(guān)注的焦點。為了驗證概念，我們研究了WANN在MNIST數(shù)據(jù)集上的表現(xiàn)，MNIST一個圖像分類任務，多年來一直是分類任務架構(gòu)設計的關(guān)注焦點。

WANN在4種權(quán)重設定下在MNIST圖像數(shù)據(jù)集上的分類表現(xiàn)，WANN的分類精度用多個權(quán)重值作為集合進行實例化，其性能遠遠優(yōu)于隨機采樣權(quán)重

即使在高維分類任務中，WANN的表現(xiàn)也非常出色。只使用單個權(quán)重值，WANN就能夠?qū)NIST上的數(shù)字以及具有通過梯度下降訓練的數(shù)千個權(quán)重的單層神經(jīng)網(wǎng)絡進行分類，產(chǎn)生的架構(gòu)靈活性很高，仍然可以繼續(xù)進行權(quán)重，進一步提高準確性。

按權(quán)重計算的數(shù)字精度

直接對權(quán)重范圍進行全部掃描，當然可以找到在訓練集上表現(xiàn)最佳的權(quán)重值，但WANN的結(jié)構(gòu)提供了另一個有趣的方式。在每個權(quán)重值處，WANN的預測是不同的。在MNIST上，可以看出每個數(shù)字的精度是不一樣的?？梢詫⒕W(wǎng)絡的每個權(quán)重值視為不同的分類器，這樣可能使用具有多個權(quán)重值的單個WANN，作為“自包含集合”。

MNIST分類器。并非所有神經(jīng)元和連接都用于預測每個數(shù)字

將具有一系列權(quán)重值的WANN進行實例化來創(chuàng)建網(wǎng)絡集合是最簡單的方法之一。集合中的每個網(wǎng)絡給與一票，根據(jù)得票最多的類別對樣本進行分類。這種方法產(chǎn)生的預測結(jié)果遠比隨機選擇的權(quán)重值更準確，而且僅僅比最佳權(quán)重值稍差。今后在執(zhí)行預測或搜索網(wǎng)絡架構(gòu)任務時可以不斷嘗試更復雜的技術(shù)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴