日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPU、FPGA和ASIC鏖戰(zhàn)AI推理

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚 ? 2022-03-15 07:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學習的概念中,通??梢院喕癁閮纱蠊ぷ髁?,一是訓練,二是推理。兩者完美融合才是一個現(xiàn)代化的完整深度學習網(wǎng)絡,缺一不可。訓練用于調整神經(jīng)網(wǎng)絡模型的參數(shù),從而在給定的數(shù)據(jù)上實現(xiàn)良好的表現(xiàn);推理則用于執(zhí)行訓練過的神經(jīng)網(wǎng)絡模型,以在新數(shù)據(jù)上獲得輸出。

為了讓一個模型用于特定的用例,比如圖像識別、語音識別等,開發(fā)者必須要先訓練這個模型。一旦模型訓練完成后,就可以投入使用(用于推理)。這兩大工作流有著類似的特點,但對硬件資源的要求卻存在一定的差距。

以訓練來說,硬件需要的是大帶寬大容量的內存,所以芯片之間的互聯(lián)相當重要,當然了這些需求會極大地增加BOM和功耗。而推理則常用于自然語言處理、推薦系統(tǒng)和語音識別這樣的實時應用中,因此必須做到低延遲、高吞吐量,再者由于更加貼近應用端,所以低功耗和低成本也是這類AI推理硬件的首選特性。

而這幾年間,不少半導體公司、云服務廠商和初創(chuàng)AI芯片公司都在AI推理上頻頻布局,甚至收購了不少企業(yè)來放大優(yōu)勢或補全短板,尤其是“御三家”英偉達英特爾AMD。筆者這里特地選擇了三家的代表性產品,以及他們走的不同技術路線。

市場與生態(tài)的寵兒——GPU王牌部隊

自英偉達從2010年推出M2050專業(yè)GPU,并大肆推行GPGPU在AI推理上的應用后,英偉達DGX產品線在AI推理算力上的占比就在一路走高。2020年阿里云、AWS和騰訊云等公有云平臺中,英偉達GPU AI推理算力超過了100 exaflops,也首次奪下了云端CPU統(tǒng)治多年的推理算力寶座,這其中的旗艦就是A100 GPU。

A100 SXM / 英偉達


我們以旗艦型號A100 80GB SXM為例,318 TFLOPS的TF32算力,1248 TOPS的INT8算力,80GB的GPU內存帶寬達到了2039GB/s。不僅支持NVLink600GB/s的互聯(lián),也支持64GB/s的PCIe4.0互聯(lián)。A100還可以被分為7個獨立的GPU實例,無論是端到端AI還是數(shù)據(jù)中心的HPC平臺,都適合該GPU大顯身手。

但A100的缺點也相當明顯,第一就是功耗,高達400W的功耗讓這張卡成了很多AI推理加速器競相對比能效比的對象。其次就是價格,高達一萬美元以上的單價讓不少人望而卻步,至少個人開發(fā)者使用GPU或基于該GPU的云服務器的話,不免會肉疼好一陣了。

靈活的代表——FPGA抵抗軍

對于AMD來說,過去主要是與英偉達、英特爾在一些通用計算領域進行交鋒,而在AI訓練和推理上,AMD其實并沒有推出太多針對這類應用的方案,直到對Xilinx的收購。不可置否的是,AMD在數(shù)據(jù)中心和HPC已經(jīng)嶄露頭角,甚至開始拔尖,但AI推理可以說一直是AMD的弱勢所在。

其實收購的部分原因,也要歸功于Xilinx在AI市場上得天獨厚的優(yōu)勢,而這種優(yōu)勢在兩家聯(lián)手之下更加明顯,這一點早在過去的合作中就可以看出來。2018年的Xilinx開發(fā)者論壇上,AMD的EPYC CPU和Xilinx的AlveoU250在GoogLeNet CNN框架上實現(xiàn)了3萬張圖片每秒的世界記錄級吞吐量。目前不少公有云廠商也在用Xilinx的FPGA方案,比如阿里云就有基于XilinxVU9P的方案。

VCK5000 / Xilinx

Xilinx最近也推出了全新的VCK5000AI加速器,該卡基于Xilinx7nm的VersalACAP架構,專為高吞吐量的AI推理打造。從紙面參數(shù)上看,這張卡好像性能不算強大,在ResNet-50的吞吐量上只能算優(yōu)于英偉達的T4顯卡,但VCK5000還準備了一些奇招。

電路中有個叫做暗硅(DarkSilicon)的概念,指的就是在功耗限制下,處理器電路上常常出現(xiàn)“一方有難,多方看戲”的情況,所以實際的效能根本達不到紙面參數(shù)。而Xilinx稱VCK5000將實際效率推至90%,相較英偉達GPU普遍低于50%的效率可謂秒殺了,甚至高過A100。成本上,VCK5000的單價也做到了2745美元,從性價比和TCO來說,F(xiàn)PGA方案可以說是真香了。

初創(chuàng)公司首選——ASIC異軍突起

作為英特爾在2019年收購的一家以色列人工智能公司,Habana倒是很少出現(xiàn)在人們的視線中,遠不如同被英特爾收購的以色列自動駕駛芯片公司Mobileye或是晶圓代工廠TowerSemiconductor那般高調,但他們給英特爾帶來的AI方案還是有點東西的。

HL-100 / Habana


Habana擁有兩大產品線,一是主打訓練的Gaudi系列,二是主打推理的Goya系列。雖然兩者采用了不同的芯片設計,但仍基于相同的基本架構(TPC),只不過是針對兩種工作負載做了優(yōu)化而已。同樣以ResNet50的吞吐量作為比較,在Batch大小為10時,基于Goya的HL-100加速卡可以做到15488張圖片每秒的吞吐量,更吃驚的是其延遲可以做到0.8ms。對于延遲敏感型應用來說,Goya很可能就是最佳的選擇。

不過HL-100的TPC還只是基于臺積電的16nm工藝而已,而基于更先進的工藝的TPC和HL-200系列遲遲沒有消息公布。不知是不是Habana打算在新產品上直接用上英特爾的工藝。

孰優(yōu)孰劣?還是取決于生態(tài)和市場選擇

要想對比這三家AI推理加速器的性能著實有些困難,且不說三者在規(guī)模和功耗上的不同,所用系統(tǒng)、軟件、模型、數(shù)據(jù)集和測試環(huán)境也都是各不一樣。那么對于AI開發(fā)者來說,應該如何選擇呢?我們不妨從市場和生態(tài)的角度來看。

首先是市場的主流選擇,無疑目前市面應用占比最多的還是英偉達旗下的加速器,這在數(shù)據(jù)中心和超算等場景中都能看出來,無論是訓練還是推理,云服務廠商推出最多的旗艦實例基本都是基于英偉達的A100、A30等GPU,在其TensorRT推理框架的大力推動下,英偉達占據(jù)了絕對的主導位置。然而作為通用方案,英偉達的A100在總體性能上雖然不錯,但泛用性還是無法覆蓋到一些特定的應用。比如主打超低延遲或超高吞吐量的場景,可能還是不如FPGA或推理專用ASIC給到的吸引力高,更不用說這些方案在成本上的優(yōu)勢了。

反觀Xilinx的VCK5000,單純比算力的話,F(xiàn)PGA與GPU、ASIC相比優(yōu)勢不大,倒是FPGA的可編程靈活性為開發(fā)帶來了不少便利,可隨時更新和優(yōu)化硬件加速而無需重新設計硬件。但不少AI開發(fā)者可能看到Xilinx這個大名就望而生畏,紛紛表示自己一個深度學習“煉丹師”,可不想學Verilog之類的RTL編程設計。這也是為何英特爾和Xilinx等FPGA廠商近年來開始在軟件上發(fā)力的原因,像Xilinx Vitis這樣的統(tǒng)一軟件,可以說給了一個面向全平臺開發(fā)者的方案,直接支持到Pytorch和TensorFlow這些主流的框架和模型。

至于Habana的Goya這種產品形式,其實是目前不少初創(chuàng)公司走的路線。與以上GPU和FPGA方案相比,他們在軟件開發(fā)上要花費更多的心力,所以不少初創(chuàng)企業(yè)的AI加速器支持的框架和模型都不是太多,支持的程度也尚未完善。至于市場反響來看,Goya也不比Habana的Gaudi訓練加速器,后者已經(jīng)有了基于該硬件的AWS實例,而Goya目前已知的應用還是超算。未來Goya面向的,可能還是比較“?!钡膱鼍?。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1664

    文章

    22509

    瀏覽量

    639522
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5283

    瀏覽量

    136097
  • AI
    AI
    +關注

    關注

    91

    文章

    41315

    瀏覽量

    302691
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英偉達失守中國區(qū)!推理需求爆發(fā),國產GPU搶灘上市

    億元。而在此前,另一家國產GPU公司摩爾線程已于9月26日率先過會。這兩大GPU企業(yè)接連沖刺IPO,背后是中國AI算力需求爆發(fā)式增長與全球供應鏈格局重塑的多重驅動。 ? AI
    的頭像 發(fā)表于 10-22 09:09 ?8642次閱讀
    英偉達失守中國區(qū)!<b class='flag-5'>推理</b>需求爆發(fā),國產<b class='flag-5'>GPU</b>搶灘上市

    從英偉達電話會看Agentic AI推理FPGA價值

    2026年2月,英偉達發(fā)布2026財年Q4財報:營收681億美元,同比增長73%,數(shù)據(jù)中心業(yè)務增長75%——預期中的超預期。更值得關注的,是電話會中反復出現(xiàn)的幾個關鍵詞:Agentic AI、推理
    的頭像 發(fā)表于 03-04 17:07 ?1321次閱讀
    從英偉達電話會看Agentic <b class='flag-5'>AI</b><b class='flag-5'>推理</b>與<b class='flag-5'>FPGA</b>價值

    AI ASIC:博通份額將達60%,聯(lián)發(fā)科成長顯著,臺積電成最大贏家

    電子發(fā)燒友報道(文/李彎彎)在人工智能芯片領域,專用集成電路(ASIC)正崛起。隨著AI算力需求爆發(fā),ASIC憑借定制化、高效能等優(yōu)勢,在數(shù)據(jù)中心、AI
    的頭像 發(fā)表于 02-05 18:21 ?1.8w次閱讀
    <b class='flag-5'>AI</b> <b class='flag-5'>ASIC</b>:博通份額將達60%,聯(lián)發(fā)科成長顯著,臺積電成最大贏家

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    領域占據(jù)主導,其GPU憑借強大的海量數(shù)據(jù)處理能力,成為全球AI爆炸式增長的重要基石。但隨著AI不斷演進,重點正從大規(guī)模訓練轉向對已訓練模型的推理和推斷,
    的頭像 發(fā)表于 02-03 17:15 ?3302次閱讀

    曦望發(fā)布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發(fā)燒友網(wǎng)報道 1月27日,國產GPU廠商曦望(Sunrise)重磅發(fā)布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計完成約30億元戰(zhàn)略融資后的首次集中公開亮相。2025年,曦望芯片交付量
    的頭像 發(fā)表于 01-28 17:38 ?9771次閱讀

    端側推理FPGA正崛起為“非GPU”陣營的中堅力量

    隨著AI應用的迅猛發(fā)展,端側推理正受到前所未有的關注。與數(shù)據(jù)中心對極致吞吐的追求不同,端側推理更聚焦于低延遲、低功耗與高可靠性,其應用場景呈現(xiàn)出高度分散、類型多樣的特征。從工業(yè)現(xiàn)場到車載系統(tǒng),再到
    的頭像 發(fā)表于 01-23 17:17 ?3709次閱讀
    端側<b class='flag-5'>推理</b>:<b class='flag-5'>FPGA</b>正崛起為“非<b class='flag-5'>GPU</b>”陣營的中堅力量

    AI芯片市場鏖戰(zhàn),GPUASIC誰將占據(jù)主動?

    本文轉自:TechSugar隨著人工智能技術在大模型訓練、邊緣計算、自動駕駛等領域的深度滲透,核心算力硬件的競爭進入白熱化階段。圖形處理單元(GPU)與專用集成電路(ASIC)作為兩大主流技術路線
    的頭像 發(fā)表于 10-30 12:06 ?963次閱讀
    <b class='flag-5'>AI</b>芯片市場<b class='flag-5'>鏖戰(zhàn)</b>,<b class='flag-5'>GPU</b>與<b class='flag-5'>ASIC</b>誰將占據(jù)主動?

    AI推理需求爆發(fā)!高通首秀重磅產品,國產GPU的自主牌怎么打?

    10月29日,在安博會的2025智能算力應用及產業(yè)發(fā)展論壇上,超聚變數(shù)字技術有限公司深圳解決方案總監(jiān)丁元釗表示,原來我們預計2026年是AI推理爆發(fā)元年,2025年DeepSeek-R1,V3模型
    的頭像 發(fā)表于 10-30 00:46 ?1.4w次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>需求爆發(fā)!高通首秀重磅產品,國產<b class='flag-5'>GPU</b>的自主牌怎么打?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    的工作嗎? 從書中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的還是知道的,
    發(fā)表于 09-12 16:07

    AI 芯片浪潮下,職場晉升新契機?

    職場、渴望在專業(yè)領域更進一步的人來說,AI 芯片與職稱評審之間,實則有著千絲萬縷的聯(lián)系,為職業(yè)晉升開辟了新的路徑。 AI 芯片領域細分與職稱對應 目前,AI 芯片從技術架構上主要分為 GPU
    發(fā)表于 08-19 08:58

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    近日,2025金融AI推理應用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1409次閱讀

    AI芯片,需要ASIC

    電子發(fā)燒友網(wǎng)報道(文/李彎彎) 2025年,全球AI芯片市場正迎來一場結構性變革。在英偉達GPU占據(jù)主導地位的大格局下,ASIC(專用集成電路)憑借針對AI任務的定制化設計,成為推動算
    的頭像 發(fā)表于 07-26 07:30 ?7560次閱讀

    PCIe協(xié)議分析儀能測試哪些設備?

    場景:監(jiān)測GPU與主機之間的PCIe通信,分析數(shù)據(jù)傳輸效率、延遲和帶寬利用率。 應用價值:優(yōu)化大規(guī)模AI訓練任務的數(shù)據(jù)加載和模型參數(shù)同步,例如在多GPU系統(tǒng)中測試PCIe交換機的性能和穩(wěn)定性。
    發(fā)表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大的推理引擎能力,融合了自然語言處理(
    發(fā)表于 07-16 15:29

    邊緣AI盒子技術解析:ASIC/FPGA/GPU芯片及邊緣-云端協(xié)同與自適應推理

    ? 電子發(fā)燒友網(wǎng)綜合報道 邊緣AI盒子是一種集成了高性能芯片、AI算法和數(shù)據(jù)處理能力的硬件設備,部署在數(shù)據(jù)源的邊緣側,如工廠、商場、交通路口等,能在本地進行數(shù)據(jù)采集、預處理、分析和決策,無需將所有
    的頭像 發(fā)表于 07-13 08:25 ?4927次閱讀
    皮山县| 罗山县| 凭祥市| 石阡县| 桂阳县| 荥阳市| 扎兰屯市| 繁峙县| 从江县| 特克斯县| 夏邑县| 永顺县| 杭锦旗| 浙江省| 崇州市| 夏河县| 改则县| 长海县| 新巴尔虎右旗| 吴川市| 克拉玛依市| 常熟市| 泽州县| 伊宁县| 磐安县| 广河县| 乌海市| 武川县| 万山特区| 纳雍县| 通州市| 象山县| 郎溪县| 西盟| 策勒县| 韶关市| 合山市| 永仁县| 化德县| 美姑县| 蒙自县|