日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA GPU助力提升模型訓(xùn)練和推理性價比

GLeX_murata_eet ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達企業(yè)解 ? 2021-08-23 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無量推薦系統(tǒng)承載著騰訊PCG(平臺與內(nèi)容事業(yè)群)的推薦場景,包括: 騰訊看點(瀏覽器、QQ看點、商業(yè)化)、騰訊新聞、騰訊視頻、騰訊音樂、閱文、應(yīng)用寶、小鵝拼拼等。無量推薦系統(tǒng)支持日活躍用戶達數(shù)億級別,其中的模型數(shù)量達數(shù)千個,日均調(diào)用服務(wù)達到千億級別。無量推薦系統(tǒng),在模型訓(xùn)練和推理都能夠進行海量Embedding和DNN模型的GPU計算,是目前業(yè)界領(lǐng)先的體系結(jié)構(gòu)設(shè)計。

傳統(tǒng)推薦系統(tǒng)面臨挑戰(zhàn)

傳統(tǒng)推薦系統(tǒng)具有以下特點: 訓(xùn)練是基于參數(shù)服務(wù)器的框架,解決海量數(shù)據(jù)和稀疏特征的分布式訓(xùn)練問題。推理通常分離大規(guī)模Embedding和DNN,只能進行DNN的GPU加速。 所以,傳統(tǒng)的推薦系統(tǒng)架構(gòu)具有一些局限性:1. 大規(guī)模分布式架構(gòu)有大量的額外開銷,比如參數(shù)和梯度的網(wǎng)絡(luò)收發(fā)。2. 隨著DNN模型復(fù)雜性的的進一步提升,CPU的計算速度開始捉襟見肘。 隨著業(yè)務(wù)的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,給推薦系統(tǒng)后臺帶來了新的挑戰(zhàn):1. 模型更加復(fù)雜,計算量更大,但是參數(shù)服務(wù)器的分布式架構(gòu)有效計算比很低。2. 海量Embedding因為規(guī)模龐大,查詢和聚合計算難以有效利用GPU高性能顯存和算力的優(yōu)勢。

GPU助力提升模型訓(xùn)練和推理性價比

基于以上的挑戰(zhàn),騰訊PCG(平臺與內(nèi)容事業(yè)群)選擇使用基于NVIDIA A100 GPU的分布式系統(tǒng)架構(gòu)來創(chuàng)建無量推薦系統(tǒng)。

1. 通過多級存儲和Pipeline優(yōu)化,在HPC上完成大規(guī)模推薦模型的GPU的高性能訓(xùn)練。2. 基于特征訪問Power-law分布的特性,GPU緩存高頻特征參數(shù),同時從CPU中動態(tài)獲取低頻特征參數(shù),實現(xiàn)了大規(guī)模推薦模型完整的GPU端到端模型推理。

騰訊PCG有多種類型的推薦業(yè)務(wù)場景。比如信息流推薦的QQ瀏覽器、QQ看點、新聞推薦的騰訊新聞、視頻推薦的騰訊視頻、微視、App推薦的應(yīng)用寶、以及騰訊音樂的音樂推薦和閱文集團的文學推薦。

無量推薦系統(tǒng)承載了這些推薦業(yè)務(wù)場景的模型訓(xùn)練和推理服務(wù)?;趥鹘y(tǒng)的推薦系統(tǒng)架構(gòu),無量推薦系統(tǒng)使用大量CPU資源,通過分布式架構(gòu)可以擴展到TB級模型的訓(xùn)練和部署,取得了巨大的成功。隨著業(yè)務(wù)的快速增長,日活用戶增多,對其調(diào)用數(shù)量快速增加,傳統(tǒng)架構(gòu)局限性限制了推薦系統(tǒng)的架構(gòu)擴展和性能提升。

通過使用GPU訓(xùn)練和推理,單機多卡的GPU算力可以達到數(shù)十臺CPU機器的算力,節(jié)省了大量的額外分布式開銷。通過充分利用A100 GPU高性能顯存快速訪問Embedding,以及并行算力處理DNN推理,單張A100 GPU可以在相同的延遲下推理10倍于CPU的打分樣本。目前基于GPU的推薦架構(gòu)可以提升模型訓(xùn)練和推理性價比1~3倍。

未來,無量推薦系統(tǒng)將不斷優(yōu)化推薦模型在GPU上的應(yīng)用,利用HPC多機多卡,混合精度等能力,進一步提高推薦場景使用GPU的性價比。

重磅!NVIDIA行業(yè)微站一睹為快!內(nèi)容涵蓋NVIDIA主要的12大行業(yè)方案,以及NVIDIA當期重點產(chǎn)品資料。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110139

原文標題:NVIDIA A100 GPU助力騰訊PCG加速無量推薦系統(tǒng)

文章出處:【微信號:murata-eetrend,微信公眾號:murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA推出代理式AI藍圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運營商能夠利用自有數(shù)據(jù)訓(xùn)練 AI 智能體,構(gòu)建自主網(wǎng)絡(luò)。
    的頭像 發(fā)表于 03-06 17:37 ?3107次閱讀

    訓(xùn)練推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓(xùn)練所需的算力投入。一個萬億參數(shù)大模型訓(xùn)練可能需要數(shù)千張
    的頭像 發(fā)表于 02-05 16:07 ?1055次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到<b class='flag-5'>推理</b>:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    曦望發(fā)布新一代推理GPU芯片,單位Token推理成本降低90%

    已突破萬片。 ? 啟望S3是專為大模型推理打造的定制化GPGPU芯片。在典型推理場景下,它的整體性價比較上一代提升超10倍。在算力與存儲設(shè)計
    的頭像 發(fā)表于 01-28 17:38 ?9762次閱讀

    今日看點:消息稱 AMD、高通考慮導(dǎo)入 SOCAMM 內(nèi)存;曦望發(fā)布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設(shè)計更貼合當前MoE和長上下文
    發(fā)表于 01-28 11:09 ?1361次閱讀

    通過NVIDIA Jetson AGX Thor實現(xiàn)7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構(gòu)的新 NVFP4 格式,有助于進一步優(yōu)化推理性能。該平臺同時支持推測解碼等新技術(shù),為在邊緣端加速生成式 AI 工作負載提供了
    的頭像 發(fā)表于 10-29 16:53 ?1689次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1457次閱讀

    NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南

    NVIDIA Isaac Lab 是一個適用于機器人學習的開源統(tǒng)一框架,基于 NVIDIA Isaac Sim 開發(fā),其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,可提供各種物理 AI 功能和由 GP
    的頭像 發(fā)表于 09-23 17:15 ?2656次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多節(jié)點<b class='flag-5'>訓(xùn)練</b>指南

    借助NVIDIA Cosmos模型提升機器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對豐富標記數(shù)據(jù)集的需求正在急速增長,已經(jīng)超出了在現(xiàn)實世界中通過人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過訓(xùn)練的生成式 AI 模型,能夠根據(jù)現(xiàn)實世界環(huán)境的動態(tài),對未來的世界狀態(tài)進行仿真、
    的頭像 發(fā)表于 09-23 15:30 ?1226次閱讀
    借助<b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b><b class='flag-5'>提升</b>機器人<b class='flag-5'>訓(xùn)練</b>效率

    利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?1243次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1508次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?1163次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術(shù)<b class='flag-5'>提升</b>AI<b class='flag-5'>推理性</b>能

    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現(xiàn)了大幅提速
    的頭像 發(fā)表于 08-30 15:47 ?4730次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2034次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2536次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。同時,華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點應(yīng)用,并聯(lián)合發(fā)布智慧金融A
    的頭像 發(fā)表于 08-15 09:45 ?1408次閱讀
    渝中区| 仙桃市| 新乡市| 西华县| 榆树市| 玛多县| 遂溪县| 饶河县| 双辽市| 西畴县| 双牌县| 靖边县| 渭南市| 新泰市| 闸北区| 宁都县| 平乡县| 阜新| 札达县| 襄垣县| 华容县| 工布江达县| 广丰县| 清水河县| 宣化县| 嘉善县| 临猗县| 阿勒泰市| 宝山区| 铜川市| 沽源县| 延寿县| 乃东县| 乐陵市| 社会| 长白| 将乐县| 铜鼓县| 合肥市| 陇川县| 白城市|