日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

最新MLPerf v3.1測試結果認證,Gaudi2在GPT-J模型上推理性能驚人

looger123 ? 來源:looger123 ? 作者:looger123 ? 2023-09-12 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英特爾產品在全新MLCommons AI推理性能測試中盡顯優(yōu)勢

今日,MLCommons公布針對 60 億參數大語言模型及計算機視覺與自然語言處理模型GPT-J的 MLPerf推理v3.1 性能基準測試結果,其中包括英特爾所提交的基于Habana?Gaudi?2 加速器、第四代英特爾?至強?可擴展處理器,以及英特爾?至強?CPU Max 系列的測試結果。該結果顯示了英特爾在AI推理方面極具競爭力的表現(xiàn),并進一步加強了其對加速從云到網絡到邊緣再到端的工作負載中大規(guī)模部署AI的承諾。

英特爾執(zhí)行副總裁兼數據中心人工智能事業(yè)部總經理Sandra Rivera表示:“正如最新的 MLCommons結果顯示,我們擁有強大的、具有競爭力的人工智能產品組合以滿足客戶對高性能、高效率的深度學習推理及訓練的需求,同時,針對各種規(guī)模的人工智能模型,英特爾產品組合均具有領先的性價比優(yōu)勢。”

根據6月披露的MLCommonsAI訓練結果和Hugging Face性能基準測試驗證,Gaudi2 在先進的視覺語言模型上,性能可以超越英偉達的H100處理器,而今天的結果進一步證明了英特爾能夠提供滿足AI計算需求的、英偉達H100和A100的唯一可行的替代方案。

考慮到客戶的個性化需求,英特爾正在通過能夠幫助解決AI工作負載中推理與訓練問題的產品,讓AI無處不在。英特爾的AI產品為客戶提供了可根據各自性能、效率及目標成本進行靈活匹配以獲取最佳AI解決方案的理想選擇,同時亦幫助客戶開放生態(tài)系統(tǒng)。

關于Habana Gaudi2的測試結果:

Habana Gaudi2在GPT-J模型上的推理結果強有力地驗證了其具有競爭力的性能。

·Gaudi2 在GPT-J-99 和GPT-J-99.9 上的服務器查詢和離線樣本的推理性能分別為78.58 次/秒和84.08 次/秒。

·與英偉達H100相比,Gaudi2提供了令人信服的卓越性能,H100相對于Gaudi2僅表現(xiàn)出 1.09 倍(服務器)和 1.28 倍(離線)的輕微性能優(yōu)勢。

·Gaudi2 擁有高于英偉達A100 2.4 倍(服務器)、 2 倍(離線)的性能。

·Gaudi2 提交的結果采用 FP8數據類型,并在這種新數據類型上達到了 99.9% 的準確率。

隨著每6-8周公布的 Gaudi2 軟件更新,英特爾將繼續(xù)在 MLPerf 基準測試中展現(xiàn)其產品的性能提升,以及持續(xù)擴大的模型覆蓋范圍。

wKgZomUANVWAY6S7AAJVP79DRaA450.png

Habana Gaudi2 在GPT-J模型上的推理結果驗證了其具有競爭力的性能

關于第四代至強可擴展處理器的測試結果:

英特爾提交了基于第四代英特爾至強可擴展處理器的7個推理基準測試,其中包括GPT-J模型。結果顯示,包括視覺、語言處理、語音和音頻翻譯模型,以及更大的 DLRM v2 深度學習推薦模型及ChatGPT-J 模型在內,第四代至強處理器對于通用 AI 工作負載擁有出色的性能。此外,截至目前,英特爾仍是唯一一家使用行業(yè)標準的深度學習生態(tài)系統(tǒng)軟件提交公開 CPU 結果的廠商。

·第四代英特爾至強可擴展處理器是通過流行的AI框架與庫構建及部署通用AI工作負載的理想選擇。對于GPT-J對約 1000-1500 字新聞稿進行100 字總結的任務,第四代至強可擴展處理器可在離線模式下完成每秒兩段的總結提要,在實時服務器模式下完成每秒一段的總結提要。

·英特爾首次提交了英特爾至強CPU Max 系列的MLPerf 結果,該系列可提供高達64 GB的高帶寬內存。對于 GPT-J而言,它是僅有的能夠達到 99.9% 準確度的 CPU,這對于對精度要求極高的應用來說至關重要。

·英特爾與OEM廠商合作提交了測試結果,進一步展示了其AI性能的可擴展性,以及基于英特爾至強處理器的通用服務器的可獲取性,充分滿足客戶服務水平協(xié)議 (SLA)。

wKgZomUANVeAKtKpAAF_ItEkqC0102.png

第四代至強可擴展處理器是構建及部署通用AI工作負載的理想選擇

MLPerf 是業(yè)內享有盛名的 AI 性能基準測試,旨在實現(xiàn)公平、可重復的產品性能比較。英特爾計劃為下一個 MLPerf測試提交新的AI訓練性能結果。持續(xù)的性能更新彰顯了英特爾致力于幫助客戶、助力AI技術演進所邁出的每一步,無論是低成本的AI處理器,還是面向網絡、云和企業(yè)用戶的高性能AI硬件加速器或是 GPU。

更多內容:基于MLPerf v.31 推理的性能指標(基準結果)|MLCommons公告

說明:相關配置說明,請查看MLCommons網頁。 結果可能不同。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20339

    瀏覽量

    255354
  • GPT
    GPT
    +關注

    關注

    0

    文章

    374

    瀏覽量

    16988
  • MLPerf
    +關注

    關注

    0

    文章

    37

    瀏覽量

    986
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DeepSeek V3.1發(fā)布!擁抱國產算力芯片

    電子發(fā)燒友網報道(文/李彎彎)2025年8月21日,DeepSeek正式官宣發(fā)布DeepSeek-V3.1模型。新版本不僅在技術架構實現(xiàn)重大升級,更通過參數精度優(yōu)化與國產芯片深度適配。從混合
    的頭像 發(fā)表于 08-23 07:55 ?1.8w次閱讀
    DeepSeek <b class='flag-5'>V3.1</b>發(fā)布!擁抱國產算力芯片

    華為云首發(fā)適配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式發(fā)布并開源,華為云首發(fā)適配。DeepSeek-V4擁有百萬Token超長上下文,Agent能力、世界知識和
    的頭像 發(fā)表于 04-28 17:01 ?517次閱讀

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理, ARM 與 x86 平臺交付可規(guī)模化的高性能 OCR 能力

    落地過程中,企業(yè)逐漸意識到:** 制約 OCR 應用進一步擴展的核心因素,已不再是模型準確率本身,而是整體推理性能與部署成本。 具體來說,規(guī)?;?OCR 應用主要面臨以下幾方面挑戰(zhàn): 吞吐量(FPS)不足 ,難以支撐高并發(fā)或多路輸入場景;
    的頭像 發(fā)表于 01-22 21:02 ?360次閱讀
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,<b class='flag-5'>在</b> ARM 與 x86 平臺交付可規(guī)?;母?b class='flag-5'>性能</b> OCR 能力

    Powered by XuanTie,Qwen Inside:阿里通義大模型攜手玄鐵 RISC-V開啟“端側智能”新紀元

    的優(yōu)勢,深度融合,正式推出“Powered by XuanTie,Qwen Inside”技術戰(zhàn)略——通義大模型算法與基于開源 RISC-V 架構的玄鐵處理器將通過軟硬全鏈路協(xié)同優(yōu)化,實現(xiàn)通義大模型家族
    的頭像 發(fā)表于 01-12 11:49 ?419次閱讀
    Powered by XuanTie,Qwen Inside:阿里通義大<b class='flag-5'>模型</b>攜手玄鐵 RISC-<b class='flag-5'>V</b>開啟“端側智能”新紀元

    GPT-5.1發(fā)布 OpenAI開始拼情商

    -5.1 Thinking:高級推理模型,簡單任務更快,復雜任務更持久,也更容易理解。 對于新上線的
    的頭像 發(fā)表于 11-13 15:49 ?844次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1461次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1165次閱讀
    使用NVIDIA NVLink Fusion技術提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署Intel顯卡

    是一個用于優(yōu)化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經網絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI
    的頭像 發(fā)表于 09-20 11:17 ?1443次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署<b class='flag-5'>在</b>Intel顯卡<b class='flag-5'>上</b>

    亞馬遜云科技宣布推出Qwen3與DeepSeek-V3.1模型的完全托管服務

    亞馬遜云科技致力于成為運行開放權重模型的最佳平臺,Amazon Bedrock新增五個模型選項,持續(xù)豐富模型選擇,進一步滿足客戶需求。
    的頭像 發(fā)表于 09-19 10:11 ?1059次閱讀

    DeepSeek R1 MTPTensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM NVIDIA Blackwell GPU 創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4735次閱讀
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-LLM中的實現(xiàn)與優(yōu)化

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi
    的頭像 發(fā)表于 08-26 19:18 ?3358次閱讀
    英特爾<b class='flag-5'>Gaudi</b> <b class='flag-5'>2</b>E AI加速器為DeepSeek-<b class='flag-5'>V3.1</b>提供加速支持

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIA NVIDIA Blackwell 架構優(yōu)化了這兩款全新的開放權重模型并實現(xiàn)了推理性能加速,
    的頭像 發(fā)表于 08-15 20:34 ?2541次閱讀
    NVIDIA從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    西部數據通過 MLPerfa Storage V2 測試結果,驗證其真實場景下的AI存儲性能

    。西部數據(NASDAQ: WDC)近日公布其 MLPerf? Storage V2?測試結果,驗證了旗下 OpenFlex? Data24 4000?系列?NVMe-oF??存儲平臺
    發(fā)表于 08-05 18:15 ?1084次閱讀

    模型推理顯存和計算量估計方法研究

    、顯存估計方法 基于模型結構的顯存估計 根據深度學習模型的層次結構和參數數量,可以估算模型推理過程中所需的顯存大小。具體方法如下: (1)
    發(fā)表于 07-03 19:43

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進行推理時出現(xiàn)“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?

    推理量化的 Llama 3.1 8B 模型時遇到錯誤: Runtime error: Bad cast from __int64 to unsigned int
    發(fā)表于 06-25 07:20
    久治县| 新余市| 许昌市| 将乐县| 股票| 安吉县| 措美县| 富阳市| 越西县| 福贡县| 额济纳旗| 滕州市| 田阳县| 东乡| 从化市| 拉孜县| 芦山县| 东辽县| 北票市| 赤水市| 清丰县| 阿鲁科尔沁旗| 泗洪县| 莱芜市| 德阳市| 丹东市| 铜山县| 霍林郭勒市| 兴义市| 车险| 海南省| 漾濞| 罗山县| 长乐市| 聊城市| 清徐县| 临漳县| 兴和县| 崇明县| 清河县| 蒲江县|