日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無縫替代GPU,讓FPGA來加速你的AI推理

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-10-30 12:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,基于深度學習(DL)的人工智能AI)應用越來越廣泛,不論是在與個人消費者相關的智能家居、智能駕駛等領域,還是在視頻監(jiān)控、智慧城市等公共管理領域,我們都能看到其身影。

眾所周知,實施一個完整的 AI 應用需要經歷訓練和推理兩個過程。所謂“訓練”,就是我們要將大量的數(shù)據(jù)代入到神經網絡模型中運算并反復迭代,“教會”算法模型如何正確的工作,訓練出一個 DL 模型。而接下來,我們就可以利用訓練出來的模型來在線響應用戶的需求,根據(jù)輸入的新數(shù)據(jù)做出正確而及時的決策判斷,這個過程就是“推理”。

通常來講,一個 AI 應用中“訓練”只需要做一次——有時這個工作會交給第三方專業(yè)的且有充沛算力資源的團隊去做,而應用開發(fā)工程師要做的則是將訓練好的模型部署到特定的硬件平臺上,滿足目標應用場景中推理過程的需要。由于推理過程會直接聯(lián)系最終用戶,推理的準確性和速度也會直接影響到用戶體驗的好壞,因此如何有效地為 AI 推理做加速,也就成了當下開發(fā)者普遍關心的一個熱門的話題。


AI 推理加速,FPGA 勝出!

從硬件架構來看,可以支持 AI 推理加速的有四個可選方案,它們分別是:CPU、GPU、FPGA 和 ASIC,如果對這幾類器件的特性進行比較,會發(fā)現(xiàn)按照從左到右的順序,器件的靈活性 / 適應性是遞減的,而處理能力和性能功耗比則是遞增的。

CPU 是基于馮?諾依曼架構,雖然其很靈活,但由于存儲器訪問往往要耗費幾個時鐘周期才能執(zhí)行一個簡單的任務,延遲會很長,應對神經網絡(NN)這種計算密集型的任務,功耗也會比較大,顯然最不適合做 AI 推理。

GPU 具有強大的數(shù)據(jù)并行處理能力,在做海量數(shù)據(jù)訓練方面優(yōu)勢明顯,而推理計算通常一次只對一個輸入項進行處理的應用,GPU 并行計算的優(yōu)勢發(fā)揮不出來,再加上其功耗相對較大,所以在 AI 推理方面也不是最優(yōu)選擇。

從高性能和低功耗的角度來看,定制的 ASIC 似乎是一種理想的解決方案,但其開發(fā)周期長、費用高,對于總是處于快速演進和迭代中的 DL 和 NN 算法來說,靈活性嚴重受限,風險太大,在 AI 推理中人們通常不會考慮它。

所以我們的名單上只剩下 FPGA 了。這些年來大家對于 FPGA 快速、靈活和高效的優(yōu)點認識越來越深入,硬件可編程的特性使其能夠針對 DL 和 NN 處理的需要做針對性的優(yōu)化,提供充足的算力,而同時又保持了足夠的靈活性。今天基于 FPGA 的異構計算平臺,除了可編程邏輯,還會集成多個 Arm 處理器內核、DSP、片上存儲器等資源,DL 所需的處理能力可以很好地映射到這些 FPGA 資源上,而且所有這些資源都可以并行工作 ,即每個時鐘周期可觸發(fā)多達數(shù)百萬個同時的操作,這對于 AI 推理是再合適不過了。

與 CPU 和 GPU 相比,F(xiàn)PGA 在 AI 推理應用方面的優(yōu)勢還表現(xiàn)在:

不受數(shù)據(jù)類型的限制,比如它可以處理非標準的低精度數(shù)據(jù),從而提高數(shù)據(jù)處理的吞吐量。


功耗更低,針對相同的 NN 計算,F(xiàn)PGA 與 CPU/GPU 相比平均功耗低 5~10 倍。


可通過重新編程以適應不同任務的需要,這種靈活性對于適應持續(xù)發(fā)展中的 DL 和 NN 算法尤為關鍵。


應用范圍廣,從云端到邊緣端的 AI 推理工作,都可勝任。

總之一句話,在 AI 推理計算的競爭中,F(xiàn)PGA 的勝出沒有懸念。


GPU 無縫對接,F(xiàn)PGA 即插即用

不過,雖然 FPGA 看上去“真香”,但是很多 AI 應用的開發(fā)者還是對其“敬而遠之”,究其原因最重要的一點就是——FPGA 上手使用太難了!

難點主要體現(xiàn)在兩個方面:

首先,對 FPGA 進行編程需要特定的技能和知識,要熟悉專門的硬件編程語言,還要熟練使用 FPGA 的特定工具,才能通過綜合、布局和布線等復雜的步驟來編譯設計。這對于很多嵌入式工程師來說,完全是一套他們所不熟悉的“語言”。


再有,因為很多 DL 模型是在 GPU 等計算架構上訓練出來的,這些訓練好的模型移植、部署到 FPGA 上時,很可能會遇到需要重新訓練和調整參數(shù)等問題,這要求開發(fā)者有專門的 AI 相關的知識和技能。

如何能夠降低大家在 AI 推理中使用 FPGA 的門檻?在這方面,Mipsology 公司給我們帶來了一個“驚喜”——該公司開發(fā)了一種基于 FPGA 的深度學習推理引擎 Zebra,可以讓開發(fā)者在“零努力(Zero Effort)”的情況下,對 GPU 訓練的模型代碼進行轉換,使其能夠在 FPGA 上運行,而無需改寫任何代碼或者進行重新訓練。

這也就意味著,調整 NN 參數(shù)甚至改變神經網絡并不需要強制重新編譯 FPGA,而這些重新編譯工作可能需要花費數(shù)小時、數(shù)天,甚至更長時間。可以說,Zebra 讓 FPGA 對于開發(fā)者成了“透明”的,他們可以在 NN 模型訓練好之后,無縫地從 CPU 或 GPU 切換到 FPGA 進行推理,而無需花費更多的時間!

目前,Zebra 可以支持 Caffe、Caffe2、MXNet 和 TensorFlow 等主流 NN 框架。在硬件方面,Zebra 已經可以完美地支持 Xilinx 的系列加速卡,如 Alveo U200、Alveo U250 和 Alveo U50 等。對于開發(fā)者來說,“一旦將 FPGA 板插入 PC,只需一個 Linux 命令”,F(xiàn)PGA 就能夠代替 CPU 或 GPU 立即進行無縫的推斷,可以在更低的功耗下將計算速度提高一個數(shù)量級。對用戶來說,這無疑是一種即插即用的體驗。

強強聯(lián)手,全生態(tài)支持

更好的消息是:為了能夠加速更多 AI 應用的落地,安富利亞洲和 Mipsology 達成了合作協(xié)議,將向其亞太區(qū)客戶推廣和銷售 Mipsology 這一獨特的 FPGA 深度學習推理加速軟件 —— Zebra。

這對于合作的雙方無疑是一個雙贏的局面:對于 Mipsology 來說,可以讓 Zebra 這個創(chuàng)新的工具以更快的速度覆蓋和惠及更多的開發(fā)者;對安富利來說,此舉也進一步擴展了自身強大的物聯(lián)網生態(tài)系統(tǒng),為客戶帶來更大的價值,為希望部署 DL 的客戶提供一整套全面的服務,包括硬件、軟件、系統(tǒng)集成、應用開發(fā)、設計鏈和專業(yè)技術。

安富利推理加速成功應用案例:智能網絡監(jiān)控平臺 AI Bluebox

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5296

    瀏覽量

    136118
  • AI
    AI
    +關注

    關注

    91

    文章

    41479

    瀏覽量

    302795
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AMD正式推出Instinct MI350P PCIe GPU加速

    AMD于2026年5月8日正式推出Instinct MI350P PCIe GPU加速卡,作為四年首款面向企業(yè)級市場的PCIe接口Instinct系列產品,其以“精簡架構+極致能效”為核心,專為
    的頭像 發(fā)表于 05-08 11:25 ?299次閱讀

    國產FPGA的“黃金窗口”:紫光同創(chuàng)如何卡位AI算力新戰(zhàn)場?

    題的2026新紫光集團創(chuàng)新峰會,于5月7日在北京盛大啟航。在本次大會上,紫光同創(chuàng)帶來題為《FPGA賦能大模型推理》的專題報告,深入剖析FPGA產業(yè)發(fā)展、國產替代進程,以及在
    的頭像 發(fā)表于 05-08 10:53 ?147次閱讀
    國產<b class='flag-5'>FPGA</b>的“黃金窗口”:紫光同創(chuàng)如何卡位<b class='flag-5'>AI</b>算力新戰(zhàn)場?

    黑馬-Java+AI新版V16零基礎就業(yè)班百度云網盤下載+Java+AI全棧開發(fā)工程師

    傳統(tǒng)開發(fā)升級,Java+AI 融合開發(fā)精講——構建下一代企業(yè)級智能應用的技術棧重塑 在人工智能加速滲透至各行各業(yè)的當下,Java 開發(fā)者正面臨一個關鍵轉折點:要么被動旁觀 AI 能力的邊緣化集成
    發(fā)表于 05-01 11:29

    基于openEuler平臺的CPU、GPUFPGA異構加速實戰(zhàn)

    隨著 AI、視頻處理、加密和高性能計算需求的增長,單一 CPU 已無法滿足低延遲、高吞吐量的計算需求。openEuler 作為面向企業(yè)和云端的開源操作系統(tǒng),在 多樣算力支持 方面表現(xiàn)出色,能夠高效調度 CPU、GPU、FPGA
    的頭像 發(fā)表于 04-08 11:02 ?1033次閱讀
    基于openEuler平臺的CPU、<b class='flag-5'>GPU</b>與<b class='flag-5'>FPGA</b>異構<b class='flag-5'>加速</b>實戰(zhàn)

    從英偉達電話會看Agentic AI推理FPGA價值

    2026年2月,英偉達發(fā)布2026財年Q4財報:營收681億美元,同比增長73%,數(shù)據(jù)中心業(yè)務增長75%——預期中的超預期。更值得關注的,是電話會中反復出現(xiàn)的幾個關鍵詞:Agentic AI推理
    的頭像 發(fā)表于 03-04 17:07 ?1333次閱讀
    從英偉達電話會看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與<b class='flag-5'>FPGA</b>價值

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    領域占據(jù)主導,其GPU憑借強大的海量數(shù)據(jù)處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進,重點正從大規(guī)模訓練轉向對已訓練模型的推理和推斷,
    的頭像 發(fā)表于 02-03 17:15 ?3325次閱讀

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對 TensorFlow Lite 模型可實現(xiàn)最高約 15× 推理
    發(fā)表于 01-31 23:16

    端側推理FPGA正崛起為“非GPU”陣營的中堅力量

    隨著AI應用的迅猛發(fā)展,端側推理正受到前所未有的關注。與數(shù)據(jù)中心對極致吞吐的追求不同,端側推理更聚焦于低延遲、低功耗與高可靠性,其應用場景呈現(xiàn)出高度分散、類型多樣的特征。從工業(yè)現(xiàn)場到車載系統(tǒng),再到
    的頭像 發(fā)表于 01-23 17:17 ?3936次閱讀
    端側<b class='flag-5'>推理</b>:<b class='flag-5'>FPGA</b>正崛起為“非<b class='flag-5'>GPU</b>”陣營的中堅力量

    AI推理需求爆發(fā)!高通首秀重磅產品,國產GPU的自主牌怎么打?

    推出,直接推動AI推理市場的上揚,未來3-5年都是AI推理領域的規(guī)模應用階段。不管是行業(yè)應用,還是算力相關的芯片,都將大規(guī)模的圍繞AI
    的頭像 發(fā)表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發(fā)!高通首秀重磅產品,國產<b class='flag-5'>GPU</b>的自主牌怎么打?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學習AI芯片的創(chuàng)新方法與架構

    算法 5.2加速矩陣乘法的芯片架構 ①新的矩陣乘法器架構 ②基于RISC-V的矩陣乘法擴展指令集 ③用信息論的思想來減少AI推理計算量 三、用于邊緣側訓練或推理
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的還是知道的,FPGA屬于
    發(fā)表于 09-12 16:07

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    創(chuàng)新技術——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循
    的頭像 發(fā)表于 08-15 09:45 ?1416次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    模態(tài)的技術特性,DeepSeek正加速推動AI在金融、政務、科研及網絡智能化等關鍵領域的深度應用。 信而泰:AI推理引擎賦能網絡智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    GPU、FPGA等硬件加速。通過分析硬件加速器的性能參數(shù),可以估算模型在硬件加速下的計算量。 四、實驗與分析 為了驗證上述估計方法的有效性,
    發(fā)表于 07-03 19:43

    智算加速卡是什么東西?它真能在AI戰(zhàn)場上干掉GPU和TPU!

    隨著AI技術火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計算",可真到了落地環(huán)節(jié),算力才是硬通貨。有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI
    的頭像 發(fā)表于 06-05 13:39 ?1963次閱讀
    智算<b class='flag-5'>加速</b>卡是什么東西?它真能在<b class='flag-5'>AI</b>戰(zhàn)場上干掉<b class='flag-5'>GPU</b>和TPU!
    宜春市| 永昌县| 鄂托克前旗| 双桥区| 墨竹工卡县| 崇信县| 天台县| 城口县| 海阳市| 保康县| 泰顺县| 绥江县| 阜新市| 太康县| 通渭县| 长岛县| 铜鼓县| 汝城县| 弥渡县| 宣化县| 阳泉市| 定远县| 沧源| 东阿县| 鄄城县| 海伦市| 内江市| 耿马| 鹰潭市| 保山市| 江阴市| 阿图什市| 呼伦贝尔市| 巴林左旗| 庆云县| 西盟| 罗定市| 都昌县| 洛川县| 纳雍县| 洪泽县|