日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton助力騰訊PCG加速在線推理

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

案例簡介

本案例中通過NVIDIA T4 GPU,通過Ronda平臺調(diào)用Triton以及TensorRT, 整體提升開發(fā)和推理效能, 幫助騰訊PCG的多個服務(wù)整體效能提升2倍,吞吐量最大提升6倍,同時降低了40%的延時。本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。

本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。

客戶簡介及應(yīng)用背景

騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊PCG)負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合QQ、QQ空間等社交平臺,和應(yīng)用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務(wù),推動IP跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。

騰訊PCG機器學習平臺部旨在構(gòu)建和持續(xù)優(yōu)化符合PCG技術(shù)中臺戰(zhàn)略的機器學習平臺和系統(tǒng),提升PCG機器學習技術(shù)應(yīng)用效率和價值。建設(shè)業(yè)務(wù)領(lǐng)先的模型訓練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務(wù),實現(xiàn)高效率迭代;在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫。機器學習平臺部正服務(wù)于PCG所有業(yè)務(wù)產(chǎn)品。

客戶挑戰(zhàn)

業(yè)務(wù)繁多,場景復雜

業(yè)務(wù)開發(fā)語言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預處理涉及圖片下載等網(wǎng)絡(luò)io

多模型融合流程比教復雜,涉及循環(huán)調(diào)用

支持異構(gòu)推理

模型推理結(jié)果異常時,難以方便地調(diào)試定位問題

需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進行融合

應(yīng)用方案

基于以上挑戰(zhàn),騰訊PCG選擇了采用NVIDIA 的Triton推理服務(wù)器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務(wù)成本。

NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架,可以很好的支持多模型聯(lián)合推理的場景,構(gòu)建起視頻、圖片、語音、文本整個推理服務(wù)過程,大大降低多個模型服務(wù)的開發(fā)和維護成本。

基于C++ 的基礎(chǔ)架構(gòu)、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務(wù)的低延時需求,成本也降低了20%-66%。

通過將Triton編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系。符合C語言規(guī)范的API也極大降低了用戶的接入成本。

借助Python Backend和Custom Backend,用戶可以自由選擇使用C++/Python語言進行二次開發(fā)。

Triton的Tracing能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結(jié)合Metrics 和 Perf Analysis等組件,可以快速定位開發(fā)調(diào)試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強和圖像加載庫。DALI Backend可以用于替換掉原來的圖片解碼、resize等操作。FIL Backend也可以替代Python XGBoost模型推理,進一步提升服務(wù)端推理性能。

方案效果及影響

借助NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等Backend,以及 TensorRT,整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊PCG各業(yè)務(wù)場景中,以更低的成本構(gòu)建了高性能的推理服務(wù),同時更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時間,優(yōu)化了用戶體驗。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110141
  • C++
    C++
    +關(guān)注

    關(guān)注

    22

    文章

    2131

    瀏覽量

    77418
  • python
    +關(guān)注

    關(guān)注

    58

    文章

    4889

    瀏覽量

    90330
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA加速計算平臺助力從地球到太空的AI應(yīng)用

    NVIDIA 今日宣布,其最新一代加速計算平臺正在開啟太空創(chuàng)新的新時代,將為軌道數(shù)據(jù)中心 (ODC)、地理空間信息收集以及自主太空運行提供 AI 算力。
    的頭像 發(fā)表于 03-18 14:44 ?575次閱讀

    NVIDIA推出BlueField-4 STX存儲架構(gòu)

    NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構(gòu),該架構(gòu)可助力企業(yè)、云計算及 AI 服務(wù)商輕松部署加速存儲基礎(chǔ)設(shè)施,以滿足代理式 AI 所需的
    的頭像 發(fā)表于 03-18 14:40 ?308次閱讀

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可
    的頭像 發(fā)表于 01-14 09:14 ?903次閱讀

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    新聞?wù)?: l NVIDIA 率先發(fā)布為應(yīng)對輔助駕駛長尾場景挑戰(zhàn)而設(shè)計的開源視覺-語言-動作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助駕駛汽車開發(fā)
    的頭像 發(fā)表于 01-06 09:40 ?528次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列開源 AI 模型與工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型輔助駕駛汽車開發(fā)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1459次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    ? 由 NVIDIA、Google DeepMind 以及 Disney Research 聯(lián)合開發(fā)的開源物理引擎 Newton,現(xiàn)可在 NVIDIA Isaac Lab 中使用。這一物理引擎將助力
    的頭像 發(fā)表于 09-30 09:52 ?3229次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源模型與仿真庫<b class='flag-5'>加速</b>機器人研發(fā)進程

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1515次閱讀

    ADI借助NVIDIA Jetson Thor平臺加速人形機器人研發(fā)進程

    當前,人形機器人正逐步邁向?qū)嶋H應(yīng)用部署階段,其落地節(jié)奏取決于物理智能與實時推理能力的發(fā)展。隨著NVIDIA Jetson Thor平臺的正式面市,Analog Devices, Inc. (ADI)將進一步加速人形機器人與自主移
    的頭像 發(fā)表于 08-29 14:07 ?3525次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2041次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人到機器人工廠等基于物理 AI 的系統(tǒng)的開發(fā),貫穿訓練、仿真和
    的頭像 發(fā)表于 08-27 11:48 ?2642次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2538次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2216次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2464次閱讀

    大模型推理顯存和計算量估計方法研究

    上進行了實驗。實驗結(jié)果表明,所提出的估計方法具有較高的準確性和實用性。 五、結(jié)論 本文針對大模型推理的顯存和計算量估計問題,提出了基于模型結(jié)構(gòu)和硬件加速的估計方法。實驗結(jié)果表明,這些方法具有較高的準確性和實用性
    發(fā)表于 07-03 19:43

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?2102次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐
    顺平县| 宁陕县| 芮城县| 克什克腾旗| 新绛县| 丽水市| 长丰县| 陇南市| 扶风县| 蓬溪县| 安图县| 乐业县| 佳木斯市| 蒲城县| 高阳县| 安福县| 布尔津县| 杨浦区| 高安市| 江陵县| 古蔺县| 陕西省| 平山县| 高平市| 明水县| 松溪县| 濮阳县| 金门县| 崇仁县| 正镶白旗| 正蓝旗| 特克斯县| 彝良县| 桃源县| 绥化市| 莎车县| 峨眉山市| 卢氏县| 汉阴县| 铁岭市| 鹤山市|