日产国产亚洲影视,99精品国产观看久久,欧美亚洲日韩色图片

去年誕生的推理芯片公司數(shù)量之多，足以讓您頭暈?zāi)垦?。由于業(yè)內(nèi)有眾多芯片，也不缺少質(zhì)量不錯的測試基準，所以常常會遺忘極其重要的部分：內(nèi)存子系統(tǒng)。事實上，如果沒有很好的內(nèi)存子系統(tǒng)，那就不可能有優(yōu)質(zhì)的推理芯片。因此，如果一家推理芯片公司只談?wù)揟OPS，卻很少討論SRAM、DRAM和內(nèi)存子系統(tǒng)，那這家公司可能并沒有一個很好的解決方案。

一切皆與數(shù)據(jù)吞吐量相關(guān)

優(yōu)質(zhì)推理芯片結(jié)構(gòu)合理，可以非?？焖俚匾苿訑?shù)據(jù)，意味著芯片處理數(shù)據(jù)、將數(shù)據(jù)導入和導出內(nèi)存的速度非常之快。如果您看一下使用ResNet-50和YOLOv3的模型，將會發(fā)現(xiàn)它們不僅在計算方面，而且在各自如何使用內(nèi)存的方式上都有顯著差異。

對于使用ResNet-50的每張圖像，需要20億個乘積累加（MAC），但是對于YOLOv3，則需要超過2000億個MAC，增加了100倍。部分原因在于YOLOv3權(quán)重更大（6200萬的權(quán)重，而ResNet-50約為2300萬）。然而，最大的區(qū)別還在于典型基準的圖像大小。ResNet-50使用224×224像素，實際上無人使用該尺寸，而YOLOv3使用200萬像素。因此，YOLOv3的計算負載要大得多。

通過上述示例，您可以看到我們有兩種不同的工作負載，其中一種的工作量是另一種的100倍。問題顯而易見：這樣是否意味著YOLOv3運行速度要慢100倍呢？要解答該問題，唯一方法是通過查看內(nèi)存子系統(tǒng)，因為這告訴您特定的實際吞吐量。

內(nèi)存子系統(tǒng)

對于推理芯片，我們不僅僅是開發(fā)一顆芯片，而是創(chuàng)造一個系統(tǒng)。芯片的MAC相當于引擎，但是如果沒有正確的燃料傳輸系統(tǒng)（內(nèi)存和互聯(lián)），引擎就會熄火。

了解一下推理芯片的運行過程，您會發(fā)現(xiàn)要先有數(shù)據(jù)導入，之后須以一定的速度（比如每秒30幀）提供新的圖像。圖像導入芯片，然后就會輸出某種結(jié)果。圖像大小各異，但大多數(shù)應(yīng)用要處理百萬像素級的圖像才能達到足夠的精度。

在芯片內(nèi)部，使用神經(jīng)網(wǎng)絡(luò)模型處理圖像，這需要代碼和權(quán)重，在每一層的末端還有中間激活函數(shù)。所有這些都需要存儲在某個地方，然后讀寫到推理芯片的計算單元中。

應(yīng)用

AI推理的應(yīng)用非常多，自動駕駛等邊緣應(yīng)用代表著最大的機遇之一。未來，每輛車都將配有多個推理引擎，可以實時檢測到行人、公共汽車和小轎車從而避開他們。這使得處理大尺寸圖像（比如在YOLOv3中）非常重要。設(shè)想一下用肉眼看圖像的情況，也是如此。如果有人給您看了一張小圖片，您就會錯過很多細節(jié)，甚至還可能曲解圖片。在自動駕駛汽車和監(jiān)控攝像頭中，小細節(jié)才是關(guān)鍵。

邊緣和云端的區(qū)別在于，在邊緣您需要發(fā)送即時響應(yīng)，而在云端通常有大量數(shù)據(jù)，且需要有足夠時間處理。舉個例子，如果您在車里，便需要知道行人在哪里，這樣才能有效避開他們。但是，數(shù)據(jù)中心的情況則不同，數(shù)據(jù)中心中有一些應(yīng)用（如為圖像貼標簽）可以在夜間進行大批量處理。這在邊緣應(yīng)用場景中是行不通的，因為這時所有操作都必須快速處理。且延遲很短，這就意味著處理批次= 1。

因此，本質(zhì)上我們是重新設(shè)計芯片，以便在短時間（低延遲）內(nèi)交付結(jié)果，及時進行正確的響應(yīng)。我們需要立即處理數(shù)據(jù)并立即返回結(jié)果，這意味著內(nèi)存是其中絕對關(guān)鍵的一部分。

若使用ResNet-50，您會發(fā)現(xiàn)有許多芯片的性能在處理批次= 10或100時非常高，但當處理批次= 1時性能就下降很多，某些芯片的性能下降幅度高達75%。這意味著，無論他們從高批次處理率的MAC獲得的利用率有多高，當批處理率為1時其利用率只有四分之一。因此，在處理批次=1時（這在邊緣應(yīng)用中很關(guān)鍵），一些芯片的MAC計算能力利用率還不到25%。

架構(gòu)變化

過去，處理器的內(nèi)存架構(gòu)（如今仍在數(shù)據(jù)中心中進行大量推理）采用DRAM和多層緩存，所有這些都被饋入處理器。內(nèi)存是集中式單一存儲器。而推理芯片的內(nèi)存是分布式的。一種加快數(shù)據(jù)處理速度的方法是把MAC分成塊，然后用本地化SRAM來分配這些塊。這是Flex Logix和Intel等公司所采用的一種方法，將在未來占據(jù)主導地位。這樣做的理由是，讓內(nèi)存更接近MAC會縮短延遲時間，從而提高MAC分布式并行處理能力。

邊緣應(yīng)用的另一關(guān)鍵要求是要滿足成本和功耗預(yù)算。用于訓練的芯片可以占用整片晶圓大小，而針對汽車和監(jiān)控攝像頭等應(yīng)用的芯片有相關(guān)的成本預(yù)算和功耗限制。通常，在滿足這些預(yù)算的情況下，可用的SRAM數(shù)量不足以在芯片上存儲所有的權(quán)重、代碼和中間激活函數(shù)。這些芯片需要不斷地處理大量的數(shù)據(jù)，而大多數(shù)邊緣應(yīng)用總是處于工作狀態(tài)。因為所有芯片都會發(fā)熱，所以其處理量與散熱量呈正相關(guān)。若能從同等數(shù)量的芯片和功耗預(yù)算中獲得更多的吞吐量，這種芯片架構(gòu)將會是贏家，因為它們能夠花較少的功耗和成本交付更多的結(jié)處理結(jié)果。

優(yōu)化功耗和成本

有些捷徑可以讓公司折中檢測目標的精準度。然而，這并非客戶想要的方式?？蛻粝Ｍ\行的模型可以獲得高精度的對象檢測和識別，還要在一定的功耗限制范圍內(nèi)。要做到這一點，關(guān)鍵在于內(nèi)存子系統(tǒng)。

如果使用ResNet-50或YOLOv3，需要存儲權(quán)重。YOLOv3中的權(quán)重約為23MB，而ResNet-50的權(quán)重約為62MB。僅是將這些權(quán)重存儲在芯片上就需要接近100平方毫米的芯片面積，這對大多數(shù)應(yīng)用來說都不可行。這意味著大容量內(nèi)存需要在芯片之外，也就是使用DRAM。

有一點需要說明，我們經(jīng)常被問到DRAM的類型是否重要，答案是非常重要。高帶寬內(nèi)存（HBM）極其昂貴，對于成本預(yù)算嚴格的邊緣應(yīng)用不太適用。LPDDR4是一種更好的內(nèi)存，因為它具有更寬的總線配置，可以從單個DRAM中獲得更多的帶寬。DRAM對熱非常敏感，對于在室外工作的汽車和監(jiān)控攝像機來說，可能是個問題。因此，考慮到成本和散熱問題，最好盡量少用DRAM。

如何設(shè)計出最佳的推理芯片

設(shè)計者要考慮客戶將進行何種類型的處理、它們的負載和應(yīng)用會是什么、以及它們會在哪里使用，方能設(shè)計出最佳的推理芯片。歸根結(jié)底，客戶想要最高的吞吐量——這意味著他們需要高的MAC利用率。獲得高MAC利用率的方法就是為MAC提供高帶寬，但希望用最少的SRAM和最少的DRAM來實現(xiàn)。

芯片設(shè)計者需要知道客戶會在哪些應(yīng)用場景下使用，并采用相應(yīng)的模型，而且要密切關(guān)注其權(quán)重、代碼大小和激活函數(shù)。現(xiàn)在有一些建模工具可以讓芯片設(shè)計者調(diào)整MAC、SRAM和DRAM的數(shù)量，能夠做出一系列折衷取舍，以便決定如何交付最低價的芯片和最高的吞吐量。

芯片設(shè)計者還能用很多方法來組織MAC，讓其以更高的頻率運行。例如，可以將MAC優(yōu)化為8位的乘積和累加，比16位的乘法和累加運行得更快。在這種情況下，惟一的折衷是精度稍低一些，但是可以在成本和功耗較低的前提下提供更大的吞吐量。

那么，ResNet-50和YOLOv3在內(nèi)存使用方面有什么不同呢？雖然權(quán)重有2倍的差異，但最大的區(qū)別在于激活函數(shù)。ResNet-50的每一層都會產(chǎn)生激活函數(shù)，其最大激活函數(shù)大小為1MB，有些層甚至更小一些。對于YOLOv3，最大層的最大激活函數(shù)大小是64MB，這64MB必須存儲起來以便進入下一層。如果注意一下片上或DRAM容量需求，您會發(fā)現(xiàn)YOLOv3的激活函數(shù)實際上比權(quán)重需要更多存儲容量，這與ResNet-50大不相同。事實上，客戶需要謹慎的是，一些公司設(shè)計芯片時會在片上儲存ResNet-50權(quán)重，他們知道其激活函數(shù)很小，能讓其性能“看起來”更好。然而，在實際應(yīng)用中，這種芯片的性能會下降得特別厲害。

SRAM和DRAM的折衷

DRAM芯片不便宜，但更貴的是與DRAM芯片的連接。芯片設(shè)計公司往往注重裸片尺寸，但芯片封裝尺寸也是決定成本的一個重要因素，有時可能比裸片更貴。每增加一個DRAM，至少增加100個球。如今一些芯片有8個DRAM連接，這就需要對1000個球進行封裝，導致芯片非常昂貴。雖然公司意識到不能在芯片上配置所有的SRAM，但他們也知道不能通過過多的DRAM來解開成本難題。他們真正需要的是用盡可能少的DRAM和盡可能少的SRAM。要想如此，芯片設(shè)計者需要研究激活函數(shù)。了解一下64MB的激活函數(shù)，就會發(fā)現(xiàn)其實只有一個。大多數(shù)激活函數(shù)還是較小的，所以如果將8MB的SRAM放在芯片上，大多數(shù)中間激活函數(shù)將可以存儲在芯片上，只需要用DRAM來處理最大的激活函數(shù)。

這是推理芯片的最佳方案，也是芯片設(shè)計者在設(shè)計中應(yīng)該努力追求的目標。如果您是客戶，您要問一下有關(guān)芯片內(nèi)存子系統(tǒng)的問題，因為這是決定它在實際應(yīng)用中性能表現(xiàn)的重要因素。
責任編輯：tzh

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54569

瀏覽量
470458
攝像頭

攝像頭

+關(guān)注

關(guān)注
61

文章
5126

瀏覽量
103598
AI

AI

+關(guān)注

關(guān)注
91

文章
41754

瀏覽量
302945

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

如何設(shè)計出最佳的AI推理芯片？

評論

搜索歷史

如何設(shè)計出最佳的AI推理芯片？

評論

如何設(shè)計出最佳的AI推理芯片？