日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton助力騰訊構(gòu)建高性能推理服務(wù)

科技綠洲 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2022-04-10 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

藉由 NVIDIAT4 GPU,通過 Ronda 平臺調(diào)用 NVIDIA Triton 以及 TensorRT ,整體提升開發(fā)和推理效能,幫助騰訊 PCG 的多個服務(wù)整體效能提升 2 倍,吞吐量最大提升 6 倍,同時降低了 40% 的延時。

騰訊平臺與內(nèi)容事業(yè)群(簡稱 騰訊 PCG)負(fù)責(zé)公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展,整合 QQ、QQ 空間等社交平臺,和應(yīng)用寶、瀏覽器等流量平臺,以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務(wù),推動 IP 跨平臺、多形態(tài)發(fā)展,為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。

騰訊 PCG 機(jī)器學(xué)習(xí)平臺部旨在構(gòu)建和持續(xù)優(yōu)化符合 PCG 技術(shù)中臺戰(zhàn)略的機(jī)器學(xué)習(xí)平臺和系統(tǒng),提升 PCG 機(jī)器學(xué)習(xí)技術(shù)應(yīng)用效率和價值。建設(shè)業(yè)務(wù)領(lǐng)先的模型訓(xùn)練系統(tǒng)和算法框架;提供涵蓋數(shù)據(jù)標(biāo)注、模型訓(xùn)練、評測、上線的全流程平臺服務(wù),實現(xiàn)高效率迭代;在內(nèi)容理解和處理領(lǐng)域,輸出業(yè)界領(lǐng)先的元能力和智能策略庫。機(jī)器學(xué)習(xí)平臺部正服務(wù)于 PCG 所有業(yè)務(wù)產(chǎn)品。

而過往在項目執(zhí)行時,團(tuán)隊所面挑戰(zhàn)包含:

1. 業(yè)務(wù)繁多,場景復(fù)雜

業(yè)務(wù)開發(fā)語言包括C++/Python

模型格式繁多,包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預(yù)處理涉及圖片下載等網(wǎng)絡(luò)IO

多模型融合流程比教復(fù)雜,涉及循環(huán)調(diào)用

支持異構(gòu)推理

2. 模型推理結(jié)果異常時,難以方便地調(diào)試定位問題

3. 需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進(jìn)行融合

基于以上挑戰(zhàn),騰訊 PCG 選擇了采用 NVIDIA Triton 推理服務(wù)器,以解決新場景下模型推理引擎面臨的挑戰(zhàn),在提升用戶研效的同時,大幅降低了服務(wù)成本。

NVIDIA Triton 是一款開源軟件,對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運(yùn)行方式,從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型 ensemble,以及 TensorFlow、PyTorch、ONNX 等多種深度學(xué)習(xí)模型框架,可以很好的支持多模型聯(lián)合推理的場景,構(gòu)建起視頻、圖片、語音、文本整個推理服務(wù)過程,大大降低多個模型服務(wù)的開發(fā)和維護(hù)成本。

基于 C++ 的基礎(chǔ)架構(gòu)、Dynamic-batch、以及對 TensorRT 的支持,同時配合 T4 的 GPU,將整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%,既滿足了業(yè)務(wù)的低延時需求,成本也降低了 20%-66%。

通過將 Triton 編譯為動態(tài)鏈接庫,可以方便地鏈入公司內(nèi)部框架,對接公司的平臺治理體系。符合 C 語言規(guī)范的 API 也極大降低了用戶的接入成本。

借助 Python Backend 和 Custom Backend,用戶可以自由選擇使用 C++/Python 語言進(jìn)行二次開發(fā)。

Triton 的 Tracing 能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結(jié)合 Metrics 和 Perf Analysis 等組件,可以快速定位開發(fā)調(diào)試,甚至是線上問題,對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強(qiáng)和圖像加載庫。DALI Backend 可以用于替換掉原來的圖片解碼、resize 等操作。FIL Backend 也可以替代 Python XGBoost 模型推理,進(jìn)一步提升服務(wù)端推理性能。

借助 NVIDIA Triton 推理框架,配合 DALI/FIL/Python 等 Backend,以及 TensorRT,整體推理服務(wù)的吞吐能力最大提升 6 倍,延遲最大降低 40%。幫助騰訊 PCG 各業(yè)務(wù)場景中,以更低的成本構(gòu)建了高性能的推理服務(wù),同時更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時間,優(yōu)化了用戶體驗。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7349

    瀏覽量

    95058
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110143
  • 騰訊
    +關(guān)注

    關(guān)注

    7

    文章

    1687

    瀏覽量

    51013
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    是德科技推出全新AI推理仿真平臺

    是德科技(NYSE: KEYS)近日推出KAI推理構(gòu)建器(Keysight AI Inference Builder),這款仿真與分析平臺旨在大規(guī)模驗證針對推理進(jìn)行優(yōu)化的AI基礎(chǔ)設(shè)施。是德科技將在
    的頭像 發(fā)表于 03-20 17:27 ?834次閱讀
    是德科技推出全新AI<b class='flag-5'>推理</b>仿真平臺

    Supermicro率先發(fā)布NVIDIA BlueField-4 STX存儲服務(wù)器,提升AI推理性能

    ? Supermicro憑借其基于NVIDIA STX AI存儲參考架構(gòu)打造的上下文內(nèi)存(CMX)存儲服務(wù)器,進(jìn)一步彰顯其行業(yè)領(lǐng)先地位。 BlueField-4 STX存儲服務(wù)器結(jié)合了NVID
    的頭像 發(fā)表于 03-19 15:46 ?192次閱讀
    Supermicro率先發(fā)布<b class='flag-5'>NVIDIA</b> BlueField-4 STX存儲<b class='flag-5'>服務(wù)</b>器,提升AI<b class='flag-5'>推理性能</b>

    NVIDIA推出BlueField-4 STX存儲架構(gòu)

    NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構(gòu),該架構(gòu)可助力企業(yè)、云計算及 AI 服務(wù)商輕松部署加速存儲基礎(chǔ)設(shè)施,以滿足代理式 AI 所需的
    的頭像 發(fā)表于 03-18 14:40 ?309次閱讀

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢是允許開發(fā)者基于其
    的頭像 發(fā)表于 02-10 10:31 ?556次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發(fā)者學(xué)習(xí) NVIDIA CUDA Tile 編程,掌握構(gòu)建高性能 GPU 內(nèi)核的方法,并以矩陣乘法作為核心示例。
    的頭像 發(fā)表于 01-22 16:43 ?5336次閱讀
    如何在<b class='flag-5'>NVIDIA</b> CUDA Tile中編寫<b class='flag-5'>高性能</b>矩陣乘法

    基于NVIDIA模組與軟件套件推動邊緣與機(jī)器人AI推理

    NVIDIA 正式推出 NVIDIA Jetson T4000,將高性能 AI 與實時推理能力帶入更廣泛的機(jī)器人和邊緣 AI 應(yīng)用。T4000 針對更嚴(yán)格的功耗和散熱限制進(jìn)行了優(yōu)化,最
    的頭像 發(fā)表于 01-14 09:46 ?828次閱讀
    基于<b class='flag-5'>NVIDIA</b>模組與軟件套件推動邊緣與機(jī)器人AI<b class='flag-5'>推理</b>

    使用NVIDIA Nemotron RAG和Microsoft SQL Server 2025構(gòu)建高性能AI應(yīng)用

    搜索和調(diào)用外部 AI 模型的 SQL 原生 API。NVIDIA 與微軟共同將 SQL Server 2025 與 NVIDIA Nemotron RAG 開放模型集合無縫連接,這使您能夠在云端或本地環(huán)境中基于自己的數(shù)據(jù)構(gòu)建
    的頭像 發(fā)表于 12-01 09:31 ?1095次閱讀
    使用<b class='flag-5'>NVIDIA</b> Nemotron RAG和Microsoft SQL Server 2025<b class='flag-5'>構(gòu)建</b><b class='flag-5'>高性能</b>AI應(yīng)用

    如何在NVIDIA Jetson AGX Thor上通過Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過 Docker 高效部署 vLLM 推理服務(wù)。
    的頭像 發(fā)表于 11-13 14:08 ?4464次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通過Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發(fā)表于 10-21 11:04 ?1465次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2053次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA三臺計算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機(jī)器人到機(jī)器人工廠等基于物理 AI 的系統(tǒng)的開發(fā),貫穿訓(xùn)練、仿真和
    的頭像 發(fā)表于 08-27 11:48 ?2648次閱讀

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進(jìn)行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機(jī)器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1790次閱讀
    利用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>模型<b class='flag-5'>構(gòu)建</b>AI智能體

    進(jìn)迭時空同構(gòu)融合RISC-V AI CPU的Triton算子編譯器實踐

    Triton是由OpenAI開發(fā)的一個開源編程語言和編譯器,旨在簡化高性能GPU內(nèi)核的編寫。它提供了類似Python的語法,并通過高級抽象降低了GPU編程的復(fù)雜性,同時保持了高性能。目前
    的頭像 發(fā)表于 07-15 09:04 ?2256次閱讀
    進(jìn)迭時空同構(gòu)融合RISC-V AI CPU的<b class='flag-5'>Triton</b>算子編譯器實踐

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?2109次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實踐

    NVIDIA助力安利生成式AI在效能和安全上破局

    依托 NVIDIA AI Enterprise 企業(yè)級解決方案,安利正在構(gòu)建安全、高效、可擴(kuò)展的 AI 基礎(chǔ)設(shè)施體系,全面提升算力資源調(diào)度能力與推理服務(wù)工程化水平,為 AI 在全業(yè)務(wù)場
    的頭像 發(fā)表于 05-10 09:28 ?1499次閱讀
    高青县| 徐州市| 克什克腾旗| 枣庄市| 尼玛县| 英山县| 兴业县| 凉山| 新巴尔虎左旗| 桂平市| 曲沃县| 泌阳县| 兰考县| 龙岩市| 五台县| 大石桥市| 安丘市| 三亚市| 东港市| 临漳县| 镇宁| 甘南县| 建瓯市| 迁安市| 仪征市| 马关县| 潢川县| 忻城县| 葵青区| 万载县| 瑞丽市| 自贡市| 东辽县| 伊金霍洛旗| 尖扎县| 凤山市| 翁源县| 东丰县| 广汉市| 阿拉善盟| 宜宾市|