日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

推理基準(zhǔn)測(cè)試的四個(gè)階段

星星科技指導(dǎo)員 ? 來(lái)源:Geoff Tate ? 作者:Geoff Tate ? 2022-11-29 12:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在過(guò)去的十年中,神經(jīng)網(wǎng)絡(luò)已經(jīng)從有趣的研究發(fā)展到廣泛用于語(yǔ)言翻譯、關(guān)鍵詞識(shí)別和對(duì)象識(shí)別。

長(zhǎng)期以來(lái),神經(jīng)網(wǎng)絡(luò)僅限于具有運(yùn)行神經(jīng)網(wǎng)絡(luò)所需的計(jì)算資源的數(shù)據(jù)中心,最初是在微處理器上,然后越來(lái)越多地在GPU上,這些GPU具有運(yùn)行神經(jīng)網(wǎng)絡(luò)所需的更多MAC。

英偉達(dá)最近宣布,其推理產(chǎn)品的銷量首次超過(guò)了其培訓(xùn)產(chǎn)品的銷量。

隨著推理轉(zhuǎn)移到功耗和成本預(yù)算受限的邊緣(數(shù)據(jù)中心以外的任何地方),客戶正在尋找能夠以他們所能承受的價(jià)格和功耗提供所需吞吐量的推理加速器。

本博客討論了如何對(duì)推理加速器進(jìn)行基準(zhǔn)測(cè)試,以找到最適合您的神經(jīng)網(wǎng)絡(luò)的推理加速器;以及客戶在學(xué)習(xí)曲線上通常如何發(fā)展他們對(duì)基準(zhǔn)測(cè)試的思考。神經(jīng)網(wǎng)絡(luò)推理令人興奮但很復(fù)雜,因此最初非常令人困惑。當(dāng)客戶解決問(wèn)題時(shí),指示燈會(huì)逐步亮起。

首先,讓我們回顧一下推理加速器的常見(jiàn)元素及其運(yùn)行的神經(jīng)網(wǎng)絡(luò)。

所有推理加速器的通用元素

所有推理加速器都具有以下共同點(diǎn):

MAC(很多)

片上靜態(tài)存儲(chǔ)器

片外內(nèi)存內(nèi)存

控制邏輯

所有單元之間的片上互連

元素的數(shù)量和組織在推理加速器之間差異很大;組織 MAC 的方法;MAC 與 SRAM/DRAM 的比率;數(shù)據(jù)如何在它們之間流動(dòng)對(duì)于確定加速器的實(shí)際加速程度至關(guān)重要。

所有神經(jīng)網(wǎng)絡(luò)模型的通用元素

所有神經(jīng)網(wǎng)絡(luò)都包含以下元素:

數(shù)值選擇:32 位浮點(diǎn)數(shù)(模型訓(xùn)練時(shí)使用的),

16 位浮點(diǎn)、16 位整數(shù)或 8 位整數(shù)

輸入數(shù)據(jù):圖像、音頻、文本等

從幾十層到幾百層,每個(gè)層處理前一層的激活,并將輸出激活傳遞到下一層

模型每一層的權(quán)重

TOPS - 推理基準(zhǔn)測(cè)試的第一階段

剛接觸神經(jīng)網(wǎng)絡(luò)性能評(píng)估的客戶幾乎總是從問(wèn)“您的芯片/模塊/板有多少 TOPS 開(kāi)始?因?yàn)樗麄兗僭O(shè) TOPS 和吞吐量相關(guān) - 但他們沒(méi)有。

TOPS 是每秒萬(wàn)億次操作的首字母縮寫,可用 MAC 的數(shù)量(以千為單位)乘以 MAC 運(yùn)行的頻率,以千兆赫茲為單位,乘以 2(一個(gè) MAC = 兩個(gè)操作)。因此,簡(jiǎn)單來(lái)說(shuō),1GHz 的 1K MAC = 2 TOPS。

更多的 MAC 意味著更多的 TOPS。

重要的是內(nèi)存組織和互連是否可以保持MAC“饋送”,以便它們得到高度利用,從而在模型上產(chǎn)生高吞吐量。

ResNet-50 - 推理基準(zhǔn)測(cè)試的第二階段

一旦客戶意識(shí)到重要的指標(biāo)是吞吐量,他們通常會(huì)繼續(xù)問(wèn):“對(duì)于 ResNet-50,您的芯片/模塊/電路板的吞吐量(以推理/秒為單位)是多少?

MLPerf最近發(fā)布了眾多制造商提交的ResNet-50基準(zhǔn)測(cè)試。

ResNet-50 是一種流行的 CNN(卷積神經(jīng)網(wǎng)絡(luò)),用于對(duì)圖像進(jìn)行分類,多年來(lái)一直廣泛用于基準(zhǔn)測(cè)試。

問(wèn)題是,沒(méi)有客戶真正使用ResNet-50。

客戶詢問(wèn) ResNet-50 是因?yàn)樗麄冋J(rèn)為其型號(hào)上的芯片/模塊/電路板的吞吐量與 ResNet-50 吞吐量相關(guān)。

這個(gè)假設(shè)的兩個(gè)主要缺陷是:

ResNet-50 使用 224x224 圖像,但大多數(shù)客戶希望處理大 16+ 倍的百萬(wàn)像素圖像。對(duì)于 224x224 圖像,ResNet-50 可能在芯片/模塊/板上運(yùn)行良好,但對(duì)于百萬(wàn)像素圖像可能不行,因?yàn)檩^大的圖像會(huì)比較小的圖像對(duì)內(nèi)存子系統(tǒng)施加更大的壓力。對(duì)于 200 萬(wàn)像素圖像,中間激活可以是 64Mb,而對(duì)于 224x224 圖像,中間激活最多為幾兆字節(jié)。

批量大?。褐圃焐滔M麨榛鶞?zhǔn)測(cè)試引用他們所能引用的最大數(shù)字,因此他們的 ResNet-50 基準(zhǔn)測(cè)試編號(hào)通常針對(duì)他們可以運(yùn)行的最大批量大小。但對(duì)于邊緣應(yīng)用程序,幾乎所有應(yīng)用程序都需要批量大小 = 1 才能將延遲降至最低。考慮一輛車:如果您正在尋找行人等物體,則需要盡快意識(shí)到它們。因此,大批量大小可能會(huì)最大化吞吐量,但在邊緣需要的是最小延遲,即批量大小為 1。

ResNet-50 對(duì)于現(xiàn)實(shí)世界的模型來(lái)說(shuō)不是一個(gè)糟糕的基準(zhǔn),如果它在批量大小 = 1 的百萬(wàn)像素圖像上運(yùn)行。但它不是通常使用的良好基準(zhǔn)。

真實(shí)世界模型和圖像 - 推理基準(zhǔn)測(cè)試的第三階段

客戶在學(xué)習(xí)曲線中達(dá)到的下一個(gè)階段是,他們應(yīng)該找到一個(gè)與他們相似的開(kāi)源神經(jīng)網(wǎng)絡(luò)模型:相似類型的模型(CNN或RNN或LSTM),相似的圖像大?。ɑ蚱渌斎腩愋停嗨频膶訑?shù)和類似的操作。

例如,對(duì) CNN 感興趣的客戶最常問(wèn):“對(duì)于 200 萬(wàn)像素(或 1 或 4)的 YOLOv2(或 YOLOv3),您的每秒幀數(shù)是多少?

真正有趣的是,盡管大多數(shù)客戶都想知道YOLOv2 / v3,但幾乎沒(méi)有制造商為其提供基準(zhǔn)測(cè)試(一個(gè)例外是Nvidia Xavier,它將YOLOv3基準(zhǔn)為608x608或1/3百萬(wàn)像素)。

YOLOv3 是一個(gè)非常緊張的基準(zhǔn)測(cè)試,是對(duì)推理加速器魯棒性的一個(gè)很好的測(cè)試:6200 萬(wàn)個(gè)權(quán)重;100+層;以及 》3000 億 MAC 來(lái)處理單個(gè) 200 萬(wàn)像素的圖像。對(duì)該模型進(jìn)行基準(zhǔn)測(cè)試可顯示加速器是否可以同時(shí)獲得高 MAC 利用率、管理存儲(chǔ)讀/寫而不會(huì)使 MAC 停止,以及互連是否可以在不停止計(jì)算的情況下有效地在內(nèi)存和 MAC 之間移動(dòng)數(shù)據(jù)。

當(dāng)然,重要的不僅僅是吞吐量,還有實(shí)現(xiàn)吞吐量的成本和功率。

售價(jià) 2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能遠(yuǎn)遠(yuǎn)超出您的預(yù)算。

客戶考慮的另一件事是他們計(jì)劃運(yùn)行的模型類型的吞吐量效率、吞吐量/$和吞吐量/瓦特

第 4 階段:對(duì)吞吐量、功耗和成本的實(shí)際模型進(jìn)行基準(zhǔn)測(cè)試

客戶對(duì)基準(zhǔn)推理的學(xué)習(xí)曲線的最后階段是使用訓(xùn)練硬件/軟件(通常來(lái)自 Nvidia 或數(shù)據(jù)中心)開(kāi)發(fā)自己的模型,然后在可能的目標(biāo)推理加速器上對(duì)該模型進(jìn)行基準(zhǔn)測(cè)試。

通過(guò)這種方式,客戶可以真正分辨出哪個(gè)加速器將為他們提供最佳的吞吐效率。

終點(diǎn)似乎很明顯,但一切都是事后諸葛亮。神經(jīng)網(wǎng)絡(luò)推理非常復(fù)雜,所有客戶都要經(jīng)歷學(xué)習(xí)曲線才能得出正確的結(jié)論。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5298

    瀏覽量

    136141
  • 微處理器
    +關(guān)注

    關(guān)注

    11

    文章

    2440

    瀏覽量

    86217
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    USB RFID讀寫器的四個(gè)常見(jiàn)應(yīng)用

    任何需要小型、低成本讀卡器的應(yīng)用,都值得考慮USB RFID讀寫器。USB讀寫器具備大部分大型同類的基本功能,只是功率稍低一些。如果你有一款非常適合RFID的應(yīng)用,但又想控制預(yù)算,可以看看斯科的USB桌面讀寫器。為了讓你了解USB讀寫器的功能,我在下面列出了四個(gè)常見(jiàn)應(yīng)用。
    的頭像 發(fā)表于 04-13 14:51 ?688次閱讀

    PCBA生產(chǎn)過(guò)程的四個(gè)主要環(huán)節(jié)?

    PCBA生產(chǎn)過(guò)程的四個(gè)主要環(huán)節(jié) PCBA(Printed Circuit Board Assembly)生產(chǎn)過(guò)程是將電子元器件組裝到印刷電路板(PCB)上,形成完整電子產(chǎn)品的過(guò)程。雖然直接參考資料
    的頭像 發(fā)表于 03-05 11:13 ?470次閱讀

    探索LM614:運(yùn)算放大器與可調(diào)基準(zhǔn)電壓源的卓越性能

    ——LM614,它將四個(gè)運(yùn)算放大器和一個(gè)可編程電壓基準(zhǔn)集成在一個(gè)16引腳的封裝中,為各類應(yīng)用提供了高效、穩(wěn)定的解決方案。 文件下載: lm614-mil.pdf 卓越特性,滿足多樣需求
    的頭像 發(fā)表于 02-05 15:25 ?282次閱讀

    商湯科技正式開(kāi)源多模態(tài)自主推理模型SenseNova-MARS

    今日,商湯正式開(kāi)源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試中以 69.74 分超越Gemini-3-Pro(69.0
    的頭像 發(fā)表于 01-30 10:13 ?827次閱讀
    商湯科技正式開(kāi)源多模態(tài)自主<b class='flag-5'>推理</b>模型SenseNova-MARS

    商湯開(kāi)源SenseNova-MARS:突破多模態(tài)搜索推理天花板

    今日,商湯正式開(kāi)源多模態(tài)自主推理模型 SenseNova-MARS(8B/32B 雙版本),其在多模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試中以 69.74 分超越Gemini-3-Pro(69.0
    的頭像 發(fā)表于 01-29 23:53 ?283次閱讀
    商湯開(kāi)源SenseNova-MARS:突破多模態(tài)搜索<b class='flag-5'>推理</b>天花板

    固態(tài)斷路器采用SiC JFET的四個(gè)理由

    性能。我們已介紹過(guò)浪涌電流、應(yīng)對(duì)不斷攀升的電力需求、為什么要使用固態(tài)斷路器。本文為系列教程的第二部分,將介紹SSCB 采用 SiC JFET 的四個(gè)理由。
    的頭像 發(fā)表于 01-16 15:45 ?1.6w次閱讀
    固態(tài)斷路器采用SiC JFET的<b class='flag-5'>四個(gè)</b>理由

    合科泰MOSFET選型的四個(gè)核心步驟

    面對(duì)數(shù)據(jù)手冊(cè)中繁雜的參數(shù),如何快速鎖定適合應(yīng)用的 MOSFET?遵循以下四個(gè)核心步驟,您能系統(tǒng)化地完成選型,避免因關(guān)鍵參數(shù)遺漏導(dǎo)致的設(shè)計(jì)風(fēng)險(xiǎn)。
    的頭像 發(fā)表于 12-19 10:33 ?963次閱讀

    迅為RK3568開(kāi)發(fā)板模型推理測(cè)試實(shí)戰(zhàn)LPRNet?車牌識(shí)別

    迅為RK3568開(kāi)發(fā)板模型推理測(cè)試實(shí)戰(zhàn)LPRNet 車牌識(shí)別
    的頭像 發(fā)表于 08-25 14:55 ?1624次閱讀
    迅為RK3568開(kāi)發(fā)板模型<b class='flag-5'>推理</b><b class='flag-5'>測(cè)試</b>實(shí)戰(zhàn)LPRNet?車牌識(shí)別

    基于米爾瑞芯微RK3576開(kāi)發(fā)板部署運(yùn)行TinyMaix:超輕量級(jí)推理框架

    四個(gè)A76大核改成了A72 GPU也由原來(lái)的G610 MC4減為了G52MC3 NPU功能保持變不變,均為6Tops 視頻編解碼也略有縮減 其余各接口也砍掉了一部分 主打極致性價(jià)比方案說(shuō)回正題,要運(yùn)行
    發(fā)表于 07-25 16:35

    Aux-Think打破視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的常規(guī)推理范式

    :無(wú)論是行動(dòng)前推理(Pre-Think),還是行動(dòng)后推理(Post-Think),一旦在測(cè)試階段顯式生成推理鏈,反而更容易讓機(jī)器人迷失方向。
    的頭像 發(fā)表于 07-08 10:00 ?772次閱讀
    Aux-Think打破視覺(jué)語(yǔ)言導(dǎo)航任務(wù)的常規(guī)<b class='flag-5'>推理</b>范式

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)大模型在各個(gè)領(lǐng)域得到了廣泛應(yīng)用。然而,大模型的推理過(guò)程對(duì)顯存和計(jì)算資源的需求較高,給實(shí)際應(yīng)用帶來(lái)了挑戰(zhàn)。為了解決這一問(wèn)題,本文將探討大模型推理顯存和計(jì)算量的估計(jì)
    發(fā)表于 07-03 19:43

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開(kāi)關(guān)端口 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開(kāi)關(guān)端口相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有
    發(fā)表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個(gè)</b>線性 TRx 開(kāi)關(guān)端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開(kāi)關(guān)端口 skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個(gè)線性 TRx 開(kāi)關(guān)端口相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有
    發(fā)表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個(gè)</b>線性 TRx 開(kāi)關(guān)端口 skyworksinc

    用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個(gè)線性 TRx 開(kāi)關(guān)端口和雙頻 TD-SCDMA skyworksinc

    電子發(fā)燒友網(wǎng)為你提供()用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個(gè)線性 TRx 開(kāi)關(guān)端口和雙頻 TD-SCDMA相關(guān)產(chǎn)品參數(shù)、數(shù)據(jù)手冊(cè),更有用于頻 GSM
    發(fā)表于 05-28 18:31
    用于<b class='flag-5'>四</b>頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有<b class='flag-5'>四個(gè)</b>線性 TRx 開(kāi)關(guān)端口和雙頻 TD-SCDMA skyworksinc

    ADAU1787四個(gè)ADC、兩個(gè)DAC、帶音頻DSP的低功耗編解碼器技術(shù)手冊(cè)

    ADAU1787 是一款具有四個(gè)輸入和兩個(gè)輸出的編解碼器,其中整合了兩個(gè)數(shù)字信號(hào)處理器 (DSP)。從模擬輸入到 DSP 內(nèi)核再到模擬輸出的路徑已針對(duì)低延遲進(jìn)行優(yōu)化,適用于噪聲消除耳機(jī)。通過(guò)加入少量無(wú)源組件,ADAU1787 提供了完整的耳機(jī)解決方案。
    的頭像 發(fā)表于 05-12 14:57 ?1806次閱讀
    ADAU1787<b class='flag-5'>四個(gè)</b>ADC、兩<b class='flag-5'>個(gè)</b>DAC、帶音頻DSP的低功耗編解碼器技術(shù)手冊(cè)
    锦州市| 济宁市| 仙游县| 绩溪县| 临沧市| 永靖县| 旬邑县| 泸西县| 额济纳旗| 清远市| 广德县| 宝山区| 芷江| 南雄市| 平遥县| 格尔木市| 衡阳市| 泰来县| 黔江区| 北宁市| 陆良县| 客服| 宁津县| 元江| 铜山县| 绩溪县| 祁阳县| 东兰县| 海盐县| 招远市| 年辖:市辖区| 汉源县| 红原县| 通山县| 呼伦贝尔市| 聂拉木县| 奇台县| 华安县| 宾川县| 台北市| 个旧市|