日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Hold住千億參數(shù)大模型,Gaudi?2 有何優(yōu)勢

英特爾中國 ? 來源:未知 ? 2023-09-15 19:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日在北京舉行的2023年中國國際服務貿易交易會(下文簡稱:服貿會)上,作為英特爾人工智能產品組合的重要成員,Habana Gaudi2實力亮相,它在海內外諸多大語言模型(Large Language Model,下文簡稱:LLM)的加速上,已展現(xiàn)了出眾實力,成為業(yè)界焦點。

AI技術飛速發(fā)展,LLM風起云涌,但由于AI模型尤其是LLM的訓練與推理需要消耗大量資源和成本,在生產環(huán)境部署和使用這些模型變得極具挑戰(zhàn)。如何提升性能降低開銷,使AI技術更快普及,是行業(yè)內共同關注的話題。

wKgZomUEQWiAP6hmAAH7mC8BB3E152.jpg

專為加速LLM的訓練和推理設計

Habana Gaudi2 正是專為高性能、高效率大規(guī)模深度學習任務而設計的AI加速器,具備24個可編程Tensor處理器核心(TPCs)、21個100Gbps(RoCEv2)以太網接口、96GB HBM2E內存容量、2.4TB/秒的總內存帶寬、48MB片上SRAM,并集成多媒體處理引擎。該加速器能夠通過性能更高的計算架構、更先進的內存技術和集成RDMA實現(xiàn)縱向擴展,為中國用戶提供更高的深度學習效率與更優(yōu)性價比。Gaudi2 的計算速度十分出色,它的架構能讓加速器并行執(zhí)行通用矩陣乘法 (GeMM) 和其他運算,從而加快深度學習工作流。這些特性使 Gaudi2 成為 LLM 訓練和推理的理想選擇,亦將成為大規(guī)模部署AI的更優(yōu)解。

wKgZomUEQWiAD_IvAAHwyqm3CR4823.jpg

在服貿會上,英特爾展示了Habana Gaudi2 對ChatGLM2-6B的加速能力。ChatGLM2-6B是開源中英雙語對話模型ChatGLM-6B的第二代版本,加強了初代模型對話流暢等優(yōu)質特性。得益于專為深度學習設計的架構,Habana Gaudi2 可以靈活地滿足單節(jié)點、多節(jié)點的大規(guī)模分布式大語言模型訓練,在ChatGLM2-6B上,能夠支持更長的上下文,并帶來極速對話體驗。

在千億參數(shù)大模型上大顯身手

實際上,Habana Gaudi2 的卓越性能早已嶄露頭角。在今年6月公布的MLCommonsMLPerf基準測試中,Gaudi2在GPT-3模型、計算機視覺模型ResNet-50(使用8個加速器)、Unet3D(使用8個加速器),以及自然語言處理模型BERT(使用8個和64個加速器)上均取得了優(yōu)異結果。近日,MLCommons又繼續(xù)公布了針對60億參數(shù)大語言模型及計算機視覺與自然語言處理模型GPT-J的MLPerf推理v3.1性能基準測試結果,其中包括基于Habana Gaudi2加速器、第四代英特爾至強可擴展處理器,以及英特爾至強CPU Max系列的測試結果。

數(shù)據顯示,Habana Gaudi2在GPT-J-99 和GPT-J-99.9 上的服務器查詢和離線樣本的推理性能分別為78.58 次/秒和84.08 次/秒。該測試采用 FP8數(shù)據類型,并在這種新數(shù)據類型上達到了 99.9% 的準確率,這無疑再一次印證了Gaudi2的出色性能。此外,基于第四代英特爾至強可擴展處理器的7個推理基準測試也顯示出其對于通用AI工作負載的出色性能。截至目前,英特爾仍是唯一一家使用行業(yè)標準的深度學習生態(tài)系統(tǒng)軟件提交公開CPU結果的廠商。

另一個讓Habana Gaudi2 大顯身手的模型是BLOOMZ。BLOOM是一個擁有 1760 億參數(shù)的自回歸模型,訓練后可用于生成文本序列,它可以處理 46 種語言和 13 種編程語言,而BLOOMZ是與BLOOM架構完全相同的模型,它是BLOOM基于多個任務的調優(yōu)版本。Habana與著名AI平臺Hugging Face合作進行了 Gaudi2 在BLOOMZ模型上的基準測試1。如圖1所示,對于參數(shù)量達1760億的模型 BLOOMZ(BLOOMZ-176B),Gaudi2性能表現(xiàn)出色,時延僅為約3.7 秒;對于參數(shù)量為 70 億的較小模型 BLOOMZ-7B,Gaudi2 的時延優(yōu)勢更加顯著,單設備約為第一代 Gaudi 的37.21%,而當設備數(shù)量都增加為8后,這一百分比進一步下降至約24.33%。

wKgZomUEQWiAHiZiAAFknVTYkmY555.png

圖 1. BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的推理時延測試結果

此外,在Meta發(fā)布的開源大模型Llama 2上,Gaudi2的表現(xiàn)依然出眾。圖2顯示了70億參數(shù)和130億參數(shù)兩種Llama 2模型的推理性能。模型分別在一臺Habana Gaudi2設備上運行,batch size=1,輸出token長度256,輸入token長度不定,使用BF16精度。報告的性能指標為每個token的延遲(不含第一個)。對于128至2000輸入token,在70億參數(shù)模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒,而對于130億參數(shù)模型,范圍為每token 15.5-20.4毫秒2

wKgZomUEQWmAKhF5AAGHaOrFSeA987.png

圖 2.基于HabanaGaudi2,70億和130億參數(shù)Llama 2模型的推理性能

值得一提的是,Habana 的SynapseAI 軟件套件在模型部署和優(yōu)化的過程中起到了至關重要的作用。SynapseAI 軟件套件不僅支持使用 PyTorch 和 DeepSpeed 來加速LLM的訓練和推理,還支持 HPU Graph和DeepSpeed-inference,這兩者都非常適合時延敏感型應用。因此,在Habana Gaudi2上部署模型非常簡單,尤其是對LLM等數(shù)十億以上參數(shù)的模型推理具有較優(yōu)的速度優(yōu)勢,且無需編寫復雜的腳本。

LLM的成功堪稱史無前例。有人說,LLM讓AI技術朝著通用人工智能(AGI)的方向邁進了一大步,而因此面臨的算力挑戰(zhàn)也催生了更多技術的創(chuàng)新。Habana Gaudi2 正是在這一背景下應運而生,以其強大的性能和性價比優(yōu)勢加速深度學習工作負載。Habana Gaudi2的出色表現(xiàn)更進一步顯示了英特爾AI產品組合的競爭優(yōu)勢,以及英特爾對加速從云到網絡到邊緣再到端的工作負載中大規(guī)模部署AI的承諾。英特爾將持續(xù)引領產品技術創(chuàng)新,豐富和優(yōu)化包括英特爾 至強 可擴展處理器、英特爾 數(shù)據中心GPU等在內的AI產品組合,助力中國本地AI市場發(fā)展。

參考資料:

1.https://huggingface.co/blog/zh/habana-gaudi-2-bloom

2.Habana Gaudi2深度學習加速器:所有測量使用了一臺HLS2 Gaudi2服務器上的Habana SynapseAI 1.10版和optimum-habana 1.6版,該服務器具有八個Habana Gaudi2 HL-225H Mezzanine卡和兩個英特爾 至強 白金8380 CPU@2.30GHz以及1TB系統(tǒng)內存。2023年7月進行測量。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10326

    瀏覽量

    181147
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11332

    瀏覽量

    226005

原文標題:Hold住千億參數(shù)大模型,Gaudi?2 有何優(yōu)勢

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    零基礎手寫大模型資料2026

    模型能穩(wěn)定訓練至數(shù)百億參數(shù)規(guī)模。 3. 位置編碼:序列順序的注入 由于自注意力本身不包含位置信息,需通過位置編碼顯式注入。正弦-余弦位置編碼是經典方案,其公式為: PE(pos,2i) = sin
    發(fā)表于 05-01 17:44

    相比MCU同行產品,芯源的MCU產品優(yōu)勢和劣勢呢?

    相比MCU同行產品,芯源的MCU產品優(yōu)勢和劣勢?
    發(fā)表于 01-08 07:50

    VLA與世界模型什么不同?

    Language Action,VLA),另一些則致力于構建并應用世界模型(World Model)。這兩種路徑什么不同? 什么是VLA,什么是世界模型 先說說VLA。VLA是英文Vision-Language-Action
    的頭像 發(fā)表于 12-17 09:13 ?899次閱讀
    VLA與世界<b class='flag-5'>模型</b><b class='flag-5'>有</b>什么不同?

    國產AI芯片真能扛“算力內卷”?海思昇騰的這波操作藏了多少細節(jié)?

    反而壓到了310W。更有意思的是它的異構架構:NPU+CPU+DVPP的組合,居然能同時扛訓練和推理場景,之前做自動駕駛算法時,用它跑模型時延直接降了20%。 但疑惑也有:這種算力密度下,散熱怎么解決?而且昇騰的生態(tài)適配速度能跟上行業(yè)需求嗎?
    發(fā)表于 10-27 13:12

    淺談SPICE模型參數(shù)自動化提取

    在過去的幾十年里,半導體器件緊湊型模型已經從 BJT Gummel-Poon 模型中的幾個參數(shù)發(fā)展到 MOSFET BSIM 模型中的數(shù)百個參數(shù)
    的頭像 發(fā)表于 10-16 16:21 ?1612次閱讀

    基于神經網絡的數(shù)字預失真模型解決方案

    在基于神經網絡的數(shù)字預失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效影響?
    的頭像 發(fā)表于 08-29 14:01 ?3697次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實現(xiàn)從
    的頭像 發(fā)表于 08-26 19:18 ?3359次閱讀
    英特爾<b class='flag-5'>Gaudi</b> <b class='flag-5'>2</b>E AI加速器為DeepSeek-V3.1提供加速支持

    醫(yī)院專用數(shù)據記錄儀產品哪些?推薦?

    醫(yī)療行業(yè)所使用的專用數(shù)據記錄儀可通過掃描、錄入等方式快速實現(xiàn)患者體征數(shù)據、藥品信息等快速記錄,并與醫(yī)院信息系統(tǒng)(HIS)實時同步。那么,醫(yī)院專用數(shù)據記錄儀產品哪些?推薦?下面就讓小編來為大家
    發(fā)表于 08-25 16:02

    TC377配置SMU FSP時,如何配置頻率參數(shù);三種模式區(qū)別,配置上有區(qū)別?

    TC377配置SMU FSP時,如何配置頻率參數(shù);三種模式區(qū)別,配置上有區(qū)別?
    發(fā)表于 08-08 07:48

    ?Groq LPU 如何讓萬億參數(shù)模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何讓萬億參數(shù)模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技? 最近,Moonshot AI 的千億參數(shù)模型
    的頭像 發(fā)表于 08-07 10:01 ?1360次閱讀

    請問InDTU IHDMP協(xié)議使用的CRC校驗使用的什么參數(shù)模型?

    InDTU IHDMP協(xié)議使用的CRC校驗使用的什么參數(shù)模型?
    發(fā)表于 08-06 07:57

    萬億參數(shù)!元腦企智一體機率先支持Kimi K2模型

    北京2025年7月21日 /美通社/ --?浪潮信息宣布元腦企智一體機已率先完成對Kimi K2 萬億參數(shù)模型的適配支持,并實現(xiàn)單用戶70 tokens/s的流暢輸出速度,為企業(yè)客戶高效部署
    的頭像 發(fā)表于 07-22 09:27 ?720次閱讀
    萬億<b class='flag-5'>參數(shù)</b>!元腦企智一體機率先支持Kimi K<b class='flag-5'>2</b>大<b class='flag-5'>模型</b>

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    可以看到個進度條在拉取0.6B的Qwen模型。當然也可以拉去deepseek的模型,如下: ./ollama run deepseek-r1:1.5b 可以選擇不同的參數(shù)量版
    發(fā)表于 07-19 15:45

    群暉發(fā)布AI模型全流程存儲解決方案,破局訓練效率與數(shù)據孤島難題

    兼容數(shù)據歸集、高速訓練、高可用部署全場景,支持?Llama2?等千億參數(shù)模型,讀寫效率提升?90% 上海?2025年6月24日?/美通社/ -- 當算力狂奔時,數(shù)據存儲正成為AI進化的新瓶頸。 據
    的頭像 發(fā)表于 06-25 16:03 ?842次閱讀
    群暉發(fā)布AI<b class='flag-5'>模型</b>全流程存儲解決方案,破局訓練效率與數(shù)據孤島難題

    ON Semiconductor MC14013BDTR2G 雙D型觸發(fā)器參數(shù)特性 EDA模型 數(shù)據手冊

    ON Semiconductor MC14013BDTR2G 雙D型觸發(fā)器參數(shù)特性 EDA模型 數(shù)據手冊
    的頭像 發(fā)表于 05-29 14:41 ?1711次閱讀
    ON Semiconductor MC14013BDTR<b class='flag-5'>2</b>G  雙D型觸發(fā)器<b class='flag-5'>參數(shù)</b>特性 EDA<b class='flag-5'>模型</b> 數(shù)據手冊
    桃园县| 博客| 大余县| 陈巴尔虎旗| 曲周县| 应用必备| 大竹县| 独山县| 洪雅县| 宝应县| 泸溪县| 普格县| 湘西| 南充市| 偃师市| 遂平县| 郴州市| 永济市| 奎屯市| 天峨县| 兴隆县| 翁源县| 彭州市| 新疆| 东乡族自治县| 亚东县| 昌吉市| 基隆市| 资溪县| 师宗县| 宁陵县| 襄垣县| 综艺| 南丹县| 胶州市| 定边县| 淄博市| 长海县| 馆陶县| 林周县| 扎鲁特旗|