日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FPGA與GPU架構(gòu)的背景

FPGA之家 ? 來源:FPGA之家 ? 作者:FPGA之家 ? 2022-06-13 09:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能AI)模型的規(guī)模和復(fù)雜度以每年大約 10 倍的速度不斷增加,AI 解決方案提供商面臨著巨大的壓力,他們必須縮短產(chǎn)品上市時間,提高性能,快速適應(yīng)不斷變化的形勢。模型復(fù)雜性日益增加,AI 優(yōu)化的硬件隨之出現(xiàn)。

例如,近年來,圖形處理單元(GPU)集成了 AI 優(yōu)化的算法單元,以提高 AI 計算吞吐量。然而,隨著 AI 算法和工作負(fù)載的演變與發(fā)展,它們會展現(xiàn)出一些屬性,讓我們難以充分利用可用的 AI 計算吞吐量,除非硬件提供廣泛的靈活性來適應(yīng)這種算法變化。近期的論文表明,許多 AI 工作負(fù)載都難以實現(xiàn) GPU 供應(yīng)商報告的全部計算能力。即使對于高度并行的計算,如一般矩陣乘法(GEMM),GPU 也只能在一定規(guī)模的矩陣下實現(xiàn)高利用率。因此,盡管 GPU 在理論上提供較高的 AI 計算吞吐量(通常稱為“峰值吞吐量”),但在運行 AI 應(yīng)用時,實際性能可能低得多。

FPGA 可提供一種不同的 AI 優(yōu)化的硬件方法。與 GPU 不同,F(xiàn)PGA 提供獨特的精細(xì)化空間可重構(gòu)性。這意味著我們可以配置 FPGA 資源,以極為準(zhǔn)確的順序執(zhí)行精確的數(shù)學(xué)函數(shù),從而實施所需的操作。每個函數(shù)的輸出都可以直接路由到需要它的函數(shù)的輸入之中。這種方法支持更加靈活地適應(yīng)特定的 AI 算法和應(yīng)用特性,從而提高可用 FPGA 計算能力的利用率。此外,雖然 FPGA 需要硬件專業(yè)知識才能編程(通過硬件描述語言),但專門設(shè)計的軟核處理單元(也就是重疊結(jié)構(gòu)),允許 FPGA 以類似處理器的方式編程。FPGA 編程完全通過軟件工具鏈來完成,簡化了任何特定于 FPGA 的硬件復(fù)雜性。

FPGA與GPU架構(gòu)的背景

2020 年,英特爾 宣布推出首款 AI 優(yōu)化的 FPGA — 英特爾 Stratix 10 NX FPGA 器件。英特爾 Stratix 10 NX FPGA 包括 AI 張量塊,支持 FPGA 實現(xiàn)高達(dá) 143 INT8 和 286 INT4 峰值 AI 計算 TOPS 或 143 塊浮點 16(BFP16)和 286 塊浮點 12(BFP12)TFLOPS。最近的論文表明,塊浮點精度可為許多 AI 工作負(fù)載提供更高的精度和更低的消耗。NVIDIA GPU 同樣也提供張量核。但從架構(gòu)的角度來看,GPU 張量核和 FPGA AI 張量塊有很大的不同,如下圖所示。

909881c0-eaac-11ec-ba43-dac502259ad0.png

GPU 和 FPGA 都有張量核心。FPGA 有可以在數(shù)據(jù)流內(nèi)外編織的軟邏輯

90ce859a-eaac-11ec-ba43-dac502259ad0.png

(左)GPU 數(shù)據(jù)從張量核心處理的內(nèi)存系統(tǒng)中讀取,寫回內(nèi)存系統(tǒng)。(右)FPGA 數(shù)據(jù)可以從內(nèi)存中讀取,但數(shù)據(jù)流可以并行安排到一個或多個張量核心。任意數(shù)量的張量核心都能以最小的傳輸開銷使用輸出。數(shù)據(jù)可以被寫回內(nèi)存或路由到其他任何地方

英特爾研究人員開發(fā)了一種名為神經(jīng)處理單元(NPU)的 AI 軟處理器。這種 AI 軟處理器適用于低延遲、低批量推理。它將所有模型權(quán)重保持在一個或多個連接的 FPGA 上以降低延遲,從而確保模型持久性。

910acc80-eaac-11ec-ba43-dac502259ad0.png

NPU 重疊架構(gòu)和用于編程 NPU 軟核處理器的前端工具鏈高級概述

FPGA與GPU性能比較

本次研究的重點是計算性能。下圖比較了英特爾 Stratix 10 NX FPGA 上的 NPU 與 NVIDIA T4 和 V100 GPU 運行各種深度學(xué)習(xí)工作負(fù)載的性能,包括多層感知器(MLP)、一般矩陣向量乘法(GEMV)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長期短期記憶(LSTM)和門控循環(huán)單元(GRU)。GEMV 和 MLP 由矩陣大小來指定,RNN、LSTM 和 GRU 則通過大小和時間步長來指定。例如,LSTM-1024-16 工作負(fù)載表示包含 1024x1024 矩陣和 16 個時間步長的 LSTM。

91486914-eaac-11ec-ba43-dac502259ad0.png

NVIDIA V100 和 NVIDIA T4 與英特爾 Stratix 10 NX FPGA 上的 NPU 在不同批處理規(guī)模下的性能。虛線顯示 NPU 在批次大小可被 6 整除情況下的性能

從這些結(jié)果可以充分地看出,英特爾 Stratix 10 NX FPGA 不僅可以在低批次實時推理時實現(xiàn)比 GPU 高一個數(shù)量級的性能,還可以有效地進行高批次實時推理。

由于架構(gòu)上的差異和靈活編程模型,英特爾 Stratix 10 NX FPGA 還可實現(xiàn)更出色的端到端性能。不會產(chǎn)生與 GPU 相同的開銷。

91848282-eaac-11ec-ba43-dac502259ad0.png

短序列和長序列時 RNN 工作負(fù)載的系統(tǒng)級執(zhí)行時間(越低越好)

結(jié)論

英特爾 Stratix 10 NX FPGA 采用高度靈活的架構(gòu),所實現(xiàn)的平均性能比 NVIDIA T4 GPU 和 NVIDIA V100 GPU 分別高 24 倍和 12 倍。

由于其較高的計算密度,英特爾 Stratix 10 NX FPGA 可為以實際可達(dá)到性能為重要指標(biāo)的高性能、延遲敏感型 AI 系統(tǒng)提供至關(guān)重要的功能。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1664

    文章

    22509

    瀏覽量

    639528
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10326

    瀏覽量

    181130
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4810

    瀏覽量

    98610

原文標(biāo)題:實際性能超過GPU,英特爾?Stratix?10 NX FPGA如何助您在AI加速領(lǐng)域贏得先機?

文章出處:【微信號:zhuyandz,微信公眾號:FPGA之家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    內(nèi)存要取代GPU?HBM之父警告:以英偉達(dá)GPU為核心的架構(gòu)要被顛覆

    主板和CPU成為了主角。 ? 而最近“HBM之父”金正浩教授也語出驚人,提出未來內(nèi)存將成為主角:“GPU和CPU將會被集成到內(nèi)存(HBM和HBF)里,淪為內(nèi)存中的一個組件”。 ? 倒反天罡,在內(nèi)存里裝GPU? ? 目前AI計算的架構(gòu)
    的頭像 發(fā)表于 04-03 09:54 ?7234次閱讀
    內(nèi)存要取代<b class='flag-5'>GPU</b>?HBM之父警告:以英偉達(dá)<b class='flag-5'>GPU</b>為核心的<b class='flag-5'>架構(gòu)</b>要被顛覆

    登臨科技GPU+架構(gòu)助力鐵路檢測智能化升級

    科技股份有限公司自主研發(fā)的 GPU+架構(gòu) ,憑借其 卓越能效比、高度生態(tài)兼容、強大算力與大內(nèi)存支持、全棧國產(chǎn)化與自主可控 四大核心優(yōu)勢,為鐵路檢測領(lǐng)域提供了可規(guī)?;涞氐乃懔鉀Q方案。
    的頭像 發(fā)表于 04-29 15:53 ?644次閱讀

    基于openEuler平臺的CPU、GPUFPGA異構(gòu)加速實戰(zhàn)

    隨著 AI、視頻處理、加密和高性能計算需求的增長,單一 CPU 已無法滿足低延遲、高吞吐量的計算需求。openEuler 作為面向企業(yè)和云端的開源操作系統(tǒng),在 多樣算力支持 方面表現(xiàn)出色,能夠高效調(diào)度 CPU、GPU、FPGA 及 AI 加速器,實現(xiàn)異構(gòu)計算協(xié)同。
    的頭像 發(fā)表于 04-08 11:02 ?901次閱讀
    基于openEuler平臺的CPU、<b class='flag-5'>GPU</b>與<b class='flag-5'>FPGA</b>異構(gòu)加速實戰(zhàn)

    FPGA+GPU異構(gòu)混合部署方案設(shè)計

    為滿足對 “納秒級實時響應(yīng)” 與 “復(fù)雜數(shù)據(jù)深度運算” 的雙重需求,“FPGA+GPU”異構(gòu)混合部署方案通過硬件功能精準(zhǔn)拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實時交易鏈路,GPU承接高復(fù)雜度數(shù)據(jù)處理任務(wù),
    的頭像 發(fā)表于 01-13 15:20 ?505次閱讀

    摩爾線程公布全功能GPU架構(gòu)路線圖:以“花港”新架構(gòu)與萬卡訓(xùn)練集群,開啟自主算力新時代

    MUSA統(tǒng)一架構(gòu)為核心的全棧技術(shù)成果,全面展現(xiàn)公司在高端全功能GPU領(lǐng)域的關(guān)鍵突破與前瞻布局。 本次發(fā)布的核心成果包括: 1、新架構(gòu)“花港”亮相:全功能GPU
    發(fā)表于 12-20 12:51 ?1169次閱讀
    摩爾線程公布全功能<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>路線圖:以“花港”新<b class='flag-5'>架構(gòu)</b>與萬卡訓(xùn)練集群,開啟自主算力新時代

    AMD UltraScale架構(gòu):高性能FPGA與SoC的技術(shù)剖析

    AMD UltraScale架構(gòu):高性能FPGA與SoC的技術(shù)剖析 在當(dāng)今的電子設(shè)計領(lǐng)域,高性能FPGA和MPSoC/RFSoC的需求日益增長。AMD的UltraScale架構(gòu)憑借其創(chuàng)
    的頭像 發(fā)表于 12-15 14:35 ?775次閱讀

    FPGA+DSP/ARM架構(gòu)開發(fā)與應(yīng)用

    自中高端FPGA技術(shù)成熟以來,FPGA+DSP/ARM架構(gòu)的硬件設(shè)計在眾多工業(yè)領(lǐng)域得到廣泛應(yīng)用。例如無線通信、圖像處理、工業(yè)控制、儀器測量等。
    的頭像 發(fā)表于 10-15 10:39 ?4562次閱讀
    <b class='flag-5'>FPGA</b>+DSP/ARM<b class='flag-5'>架構(gòu)</b>開發(fā)與應(yīng)用

    如何看懂GPU架構(gòu)?一分鐘帶你了解GPU參數(shù)指標(biāo)

    GPU架構(gòu)參數(shù)如CUDA核心數(shù)、顯存帶寬、TensorTFLOPS、互聯(lián)方式等,并非“冰冷的數(shù)字”,而是直接關(guān)系設(shè)備能否滿足需求、如何發(fā)揮最大價值、是否避免資源浪費等問題的核心要素。本篇文章將全面
    的頭像 發(fā)表于 10-09 09:28 ?1592次閱讀
    如何看懂<b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>?一分鐘帶你了解<b class='flag-5'>GPU</b>參數(shù)指標(biāo)

    適應(yīng)邊緣AI全新時代的GPU架構(gòu)

    電子發(fā)燒友網(wǎng)站提供《適應(yīng)邊緣AI全新時代的GPU架構(gòu).pdf》資料免費下載
    發(fā)表于 09-15 16:42 ?47次下載

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】+NVlink技術(shù)從應(yīng)用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」書中的芯片知識是比較接近當(dāng)前的頂尖芯片水平的,同時包含了芯片架構(gòu)的基礎(chǔ)知識,但該部分知識比較晦澀難懂,或許是由于我一直從事的事芯片
    發(fā)表于 06-18 19:31

    GPU架構(gòu)深度解析

    GPU架構(gòu)深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現(xiàn)代計算機中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強大的并行計算引擎,廣泛應(yīng)用于人工智能、科學(xué)計算
    的頭像 發(fā)表于 05-30 10:36 ?2043次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>架構(gòu)</b>深度解析

    ARM Mali GPU 深度解讀

    ARM Mali GPU 深度解讀 ARM Mali 是 Arm 公司面向移動設(shè)備、嵌入式系統(tǒng)和基礎(chǔ)設(shè)施市場設(shè)計的圖形處理器(GPU)IP 核,憑借其異構(gòu)計算架構(gòu)、能效優(yōu)化和生態(tài)協(xié)同,成為全球移動
    的頭像 發(fā)表于 05-29 10:12 ?4994次閱讀

    又一顆國產(chǎn)GPU芯片成功點亮!6nm制程,自研TrueGPU架構(gòu)

    電子發(fā)燒友網(wǎng)綜合報道 近日消息,礪算科技宣布其首顆自研架構(gòu)全自主知識產(chǎn)權(quán)GPU芯片在封裝回片后已成功點亮,結(jié)果符合預(yù)期。 ? 礪算科技成立于2021年,是一家致力于研發(fā)高性能GPU的公司。礪算科技首
    發(fā)表于 05-29 00:48 ?2819次閱讀

    能效提升3倍!異構(gòu)計算架構(gòu)讓AI跑得更快更省電

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)異構(gòu)計算架構(gòu)通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務(wù)的特點進行分工協(xié)作,從而在性能、能效和靈活性之間實現(xiàn)最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?4300次閱讀

    iTOP-3588S開發(fā)板四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    ,8GB內(nèi)存,32GBEMMC。 四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。 內(nèi)置NPU RK3588S內(nèi)置NPU,支持INT4/INT8/INT16/FP16混合運算
    發(fā)表于 05-15 10:36
    武定县| 古浪县| 延川县| 迁西县| 定安县| 勃利县| 黄平县| 凉山| 宜丰县| 崇礼县| 洱源县| 鄂尔多斯市| 平山县| 阳谷县| 崇明县| 南涧| 湖口县| 西乌| 纳雍县| 北川| 崇礼县| 无棣县| 宜城市| 宣威市| 灯塔市| 邵东县| 师宗县| 巴青县| 通辽市| 乌拉特中旗| 旬阳县| 遵义市| 吴川市| 东乡县| 广灵县| 镇平县| 敖汉旗| 武城县| 紫阳县| 抚顺市| 南靖县|