人工神經網(wǎng)絡的終極目標應當是能夠完全模擬生物神經網(wǎng)絡。而隨著ANN的不斷發(fā)展,已然呈現(xiàn)出了許多性能優(yōu)秀的模型。由MIT、NYU、斯坦福等眾多著名大學研究人員組成的團隊,便提出了brain-score系統(tǒng),對當今主流的人工神經網(wǎng)絡進行評分排名。本文便帶讀者了解一下在眾多人工神經網(wǎng)絡中,最為貼近生物神網(wǎng)絡的那些ANN。
人工神經網(wǎng)絡(ANN)總是會與大腦做比較。
雖然ANN發(fā)展到現(xiàn)在也無法完全模擬生物大腦,但是技術是一直在進步的。那么問題來了:
論與生物大腦的相似性,哪家人工神經網(wǎng)絡最強?
在功能方面與大腦最相似的神經網(wǎng)絡,將包含與大腦最近似的機制。因此,MIT、NYU、斯坦福等眾多知名大學聯(lián)手開發(fā)了“大腦評分”(brain - score)。
這是一種綜合了多種神經和行為基準的測試方法,可以根據(jù)神經網(wǎng)絡與大腦核心對象識別機制的相似程度對其進行打分,并用這個方法對最先進的深層神經網(wǎng)絡進行評估。
使用該評分系統(tǒng),得到的結果如下:
DenseNet- 169, CORnet-S和ResNet-101是最像大腦的ANN
任何人工神經網(wǎng)絡都無法預測到神經和行為響應之間存在的變異性,這表明目前還沒有一個人工神經網(wǎng)絡模型能夠捕捉到所有相關的機制
擴展之前的工作,我們發(fā)現(xiàn)ANN ImageNet性能的提高導致了大腦得分的提高。然而,相關性在ImageNet表現(xiàn)為70%時減弱,這表明需要神經科學的額外指導才能在捕獲大腦機制方面取得進一步進展
比許多較小(即不那么復雜)的ANN,比表現(xiàn)最好的ImageNet模型更像大腦,這意味著簡化ANN有可能更好地理解腹側流(ventral stream)。
大腦的基準
以下是對衡量模型基準的概述。基準由一組應用于特定實驗數(shù)據(jù)的指標組成,在這里可以是神經記錄或行為測量。
神經(Neural)
神經度量的目的是確定源系統(tǒng)(例如,神經網(wǎng)絡模型)的內在表征與目標系統(tǒng)(例如靈長類動物)中的內在表征的匹配程度。 與典型的機器學習基準測試不同,這些指標提供了一種原則性的方式來優(yōu)先選擇某些模型(即使它們的輸出相同)。 我們在此概述了一個常見的度量標準——神經預測性,它是線性回歸的一種形式。
神經預測:圖像級神經一致性
神經預測性用于評估源系統(tǒng)(例如,深度ANN)中給定圖像的響應對目標系統(tǒng)中的響應(例如,視覺區(qū)域IT中的單個神經元響應)的預測程度。 作為輸入,該度量需要兩個刺激×神經元這種形式的集合,其中神經元可以是神經記錄或模型激活。
首先,使用線性變換將源神經元映射到每個目標神經元,這個映射過程是在多個刺激的訓練-測試分割上執(zhí)行的。
在每次運行中,利用訓練圖像使權重適應于從源神經元映射到目標神經元,然后利用這些權重預測出的響應得到held-out圖像。
為了獲得每個神經元的神經預測性評分,通過計算Pearson相關系數(shù),將預測的響應與測量的神經元響應進行比較。
計算所有單個神經類神經預測值的中位數(shù)(例如,在目標大腦區(qū)域測量的所有目標位置),以獲得該訓練-測試分割的預測得分(因為響應通常非正常地分布,所以使用中值)。所有訓練-測試分割的平均值即目標大腦區(qū)域的最終神經預測得分。
神經記錄
目前這個版本的大腦評分中包含的兩個神經基準,其使用的神經數(shù)據(jù)集包括對88個V4神經元和168個IT神經元的2,560個自然刺激神經響應(如圖1):

圖1 大腦評分概述使用兩類指標來比較神經網(wǎng)絡:神經指標將內部活動與macaque腹側流區(qū)域進行比較,行為指標比較輸出的相似性。對于小的、隨機組合的模型(灰點),大腦得分與ImageNet的性能相關,但是對于當前最先進的模型(綠點)來說,其性能在70%的前1級變得很弱。
該圖像集由2560張灰度圖像組成,分為八個對象類別(動物、船只、汽車、椅子、人臉、水果、平面、桌子)。每個類別包含8個獨特的對象(例如,“face”類別有8張獨特的臉)。圖像集是通過在自然主義背景上粘貼一個3D對象模型生成的。在每個圖像中,隨機選擇對象的位置,姿勢和大小,以便為靈長類動物和機器創(chuàng)建具有挑戰(zhàn)性的物體識別任務。 每個圖像都使用了圓形掩模。
行為
行為基準的目的是在任何給定任務中計算源(例如,ANN模型)和目標(例如,人類或猴子)的行為響應之間的相似性。對于核心對象識別任務,靈長類動物(包括人類和猴子)表現(xiàn)出與ground-truth標簽不同的行為模式。因此,這里的主要基準是一個行為響應模式度量,而不是一個全面的準確性度量。ANN能夠生成和預測靈長類動物的成功和失敗模式,因此可以獲得更高的分數(shù)。這樣做的一個結果是,達到100%準確率的ANN不會達到完美的行為相似性評分。
I2n:標準化的圖像級行為一致性
總量為i 的圖像數(shù)據(jù)源(模型特征)首先使用可用的行為數(shù)據(jù)轉換為目標類別c和圖像ib的一個矩陣ib×c。
靈長類動物的行為數(shù)據(jù)
當前一輪基準測試中使用的行為數(shù)據(jù)是從Rajalingham等人與2015和2018年的研究論文中獲得的。這里我們只關注人類行為數(shù)據(jù),但是人類和非人類靈長類動物行為模式非常相似。
此數(shù)據(jù)收集中使用的圖像集與V4的圖像生成方式類似,并且使用了24個對象類別。數(shù)據(jù)集總共包含2,400個圖像(每個對象100個)。在這個基準測試中,我們使用了240張(每個物體10張)獲得最多試驗的圖像。1472名人類觀察者對亞馬遜土耳其機器人提供的圖像進行了簡短的響應。在每次試驗中,一幅圖像呈現(xiàn)100毫秒,然后是有兩個響應選擇,一個對應于圖像中出現(xiàn)的目標對象,另一個是其余23個對象。參與者通過選擇圖像中呈現(xiàn)的對象來響應。因此,對于每一個target-distractor對兒,從多個參與者中共獲得了超過三十萬的響應。
大腦得分
為了評估一個模型整體表現(xiàn)的好壞,我們將神經V4預測得分、神經IT預測得分和行為I2n預測得分做一個組合計算來得到大腦評分。這里給出的腦分數(shù)是這三個分數(shù)的平均值。這種方法不能通過不同的分數(shù)尺度進行標準化,因此它可能會懲罰低方差的分數(shù),但它也不會對分數(shù)的顯著差異做出任何假設,這些差異會出現(xiàn)在排名中。
實驗結果
該團隊檢查了大量在ImageNet上訓練的深層神經網(wǎng)絡,并將它們的內在表征與V4、IT和人類行為測量中的非人類視覺皮層區(qū)域的神經記錄進行了比較。
最先進的排名

表1 總結了每個模型在大腦基準測試范圍內的得分
相對于ImageNet性能的大腦得分如圖1所示。在目前的基準測試中,最強的模型是DenseNet-169,其大腦得分為549,緊隨其后的是CORnet-S和ResNet-101,其大腦得分分別為544和542。 目前來自機器學習社區(qū)的ImageNet上的頂級模型都來自DenseNet和ResNet系列模型。 DenseNet-169和ResNet-101也是IT神經預測和行為預測性得分最高的模型之一,IT分數(shù)為0.604(DenseNet-169,圖層conv5_block16_concat)和行為得分為ResNet-101。
個人神經和行為基準的得分
以往的研究發(fā)現(xiàn),分類性能較高的模型更容易預測神經數(shù)據(jù)。 在這里,我們通過證明這種性能驅動的方法在廣泛的ImageNet性能體系中在多個深度神經網(wǎng)絡上進行評估時,廣泛意義上擴展了這項工作,但是在達到人類性能水平時未能產生與大腦完全匹配的網(wǎng)絡( 見圖1)。
在個人得分上,ImageNet的表現(xiàn)與大腦得分的相關性有很大的差異(圖2)。例如,V4單站點響應最好不僅是由VGG-19(ImageNet top-1性能71.10%)預測出來的,而且還有Xception(79.00%top-1)。 同樣,IT單站點響應最好是由DenseNet-169(.606; 75.90%top-1)預測出來的,但即使是BaseNets(.592; 47.64%top-1)和MobileNets(.590; 69.80%top-1)也是非常接近相同的IT神經預測評分。
圖2 所有模型對神經和行為基準的預測性
相比之下,ImageNet性能和行為預測性之間的相關性依然強勁,AlexNet(57.50%排名前1)或BaseNets的表現(xiàn)遠遠低于最佳模型。然而,行為得分上表現(xiàn)最好的模型并不是ImageNet上最先進的模型:ResNet-101在行為得分(.389)上排名最高,但是ImageNet排名前1的表現(xiàn)為77.37%。 PNASNet實現(xiàn)了更高的ImageNet性能(82.90%排名前1),但行為得分顯著降低(.351)。
事實上,ImageNet前1名表現(xiàn)與行為評分之間的相關性似乎正在削弱,模型在ImageNet上表現(xiàn)良好,與行為得分幾乎沒有關聯(lián),這表明通過繼續(xù)努力推動ImageNet,可能無法實現(xiàn)與行為數(shù)據(jù)更好的一致性。
我們使用神經預測性評估區(qū)域V4和IT以及使用I2n的行為記錄。 目前最好的型號是:V4上的VGG-19,IT上的DenseNet-169和行為上的ResNet-101。 值得注意的是,DenseNet-169,CORnet-S和ResNet-101是所有三個基準測試的強大模型。 V4為0.892,IT為0.817,行為為.497。
通過定期更新大腦數(shù)據(jù)的大腦評分來評估和跟蹤模型基準的對應關系可以讓這個系統(tǒng)更加完善。因此,該團隊發(fā)布了Brain-Score.org,一個承載神經和行為基準的平臺,在這個平臺上,可以提交用于視覺處理的ANN,以接收大腦評分及其相對于其他模型的排名,新的實驗數(shù)據(jù)可以自然地納入其中。
-
神經網(wǎng)絡
+關注
關注
42文章
4844瀏覽量
108286 -
數(shù)據(jù)集
+關注
關注
4文章
1240瀏覽量
26279
原文標題:【深度學習模型哪個最像人腦?】MIT等人工神經網(wǎng)絡評分系統(tǒng),DenseNet實力奪冠!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
為什么 VisionFive V1 板上的 JH7100 中并存 NVDLA 引擎和神經網(wǎng)絡引擎?
神經網(wǎng)絡的初步認識
NMSIS神經網(wǎng)絡庫使用介紹
在Ubuntu20.04系統(tǒng)中訓練神經網(wǎng)絡模型的一些經驗
CICC2033神經網(wǎng)絡部署相關操作
人工智能工程師高頻面試題匯總:循環(huán)神經網(wǎng)絡篇(題目+答案)
液態(tài)神經網(wǎng)絡(LNN):時間連續(xù)性與動態(tài)適應性的神經網(wǎng)絡
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經形態(tài)計算、類腦芯片
神經網(wǎng)絡的并行計算與加速技術
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現(xiàn)AI
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件
無刷電機小波神經網(wǎng)絡轉子位置檢測方法的研究
神經網(wǎng)絡專家系統(tǒng)在電機故障診斷中的應用
神經網(wǎng)絡RAS在異步電機轉速估計中的仿真研究
基于FPGA搭建神經網(wǎng)絡的步驟解析
論與生物大腦的相似性,哪家人工神經網(wǎng)絡最強?
評論