99热大黑鸡,日本免费一二区网址,人妻一区二区久久久

案例簡介

本案例中通過NVIDIA T4 GPU，通過Ronda平臺調(diào)用Triton以及TensorRT，整體提升開發(fā)和推理效能，幫助騰訊PCG的多個服務(wù)整體效能提升2倍，吞吐量最大提升6倍，同時降低了40%的延時。本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。

本案例主要應(yīng)用到 NVIDIA T4 GPU、TensorRT和Triton。

客戶簡介及應(yīng)用背景

騰訊平臺與內(nèi)容事業(yè)群（簡稱騰訊PCG）負責公司互聯(lián)網(wǎng)平臺和內(nèi)容文化生態(tài)融合發(fā)展，整合QQ、QQ空間等社交平臺，和應(yīng)用寶、瀏覽器等流量平臺，以及新聞資訊、視頻、體育、直播、動漫、影業(yè)等內(nèi)容業(yè)務(wù)，推動IP跨平臺、多形態(tài)發(fā)展，為更多用戶創(chuàng)造海量的優(yōu)質(zhì)數(shù)字內(nèi)容體驗。

騰訊PCG機器學習平臺部旨在構(gòu)建和持續(xù)優(yōu)化符合PCG技術(shù)中臺戰(zhàn)略的機器學習平臺和系統(tǒng)，提升PCG機器學習技術(shù)應(yīng)用效率和價值。建設(shè)業(yè)務(wù)領(lǐng)先的模型訓練系統(tǒng)和算法框架；提供涵蓋數(shù)據(jù)標注、模型訓練、評測、上線的全流程平臺服務(wù)，實現(xiàn)高效率迭代；在內(nèi)容理解和處理領(lǐng)域，輸出業(yè)界領(lǐng)先的元能力和智能策略庫。機器學習平臺部正服務(wù)于PCG所有業(yè)務(wù)產(chǎn)品。

客戶挑戰(zhàn)

業(yè)務(wù)繁多，場景復雜

業(yè)務(wù)開發(fā)語言包括C++/Python

模型格式繁多，包括ONNX、Pytorch、TensorFlow、TensorRT等

模型預處理涉及圖片下載等網(wǎng)絡(luò)io

多模型融合流程比教復雜，涉及循環(huán)調(diào)用

支持異構(gòu)推理

模型推理結(jié)果異常時，難以方便地調(diào)試定位問題

需要與公司內(nèi)現(xiàn)有協(xié)議/框架/平臺進行融合

應(yīng)用方案

基于以上挑戰(zhàn)，騰訊PCG選擇了采用NVIDIA 的Triton推理服務(wù)器，以解決新場景下模型推理引擎面臨的挑戰(zhàn)，在提升用戶研效的同時，大幅降低了服務(wù)成本。

NVIDIA Triton 是一款開源軟件，對于所有推理模式都可以簡化模型在任一框架中以及任何 GPU 或 CPU 上的運行方式，從而在生產(chǎn)環(huán)境中使用 AI。Triton 支持多模型ensemble，以及 TensorFlow、PyTorch、ONNX 等多種深度學習模型框架，可以很好的支持多模型聯(lián)合推理的場景，構(gòu)建起視頻、圖片、語音、文本整個推理服務(wù)過程，大大降低多個模型服務(wù)的開發(fā)和維護成本。

基于C++ 的基礎(chǔ)架構(gòu)、Dynamic-batch、以及對 TensorRT 的支持，同時配合 T4 的 GPU，將整體推理服務(wù)的吞吐能力最大提升 6 倍，延遲最大降低 40%，既滿足了業(yè)務(wù)的低延時需求，成本也降低了20%-66%。

通過將Triton編譯為動態(tài)鏈接庫，可以方便地鏈入公司內(nèi)部框架，對接公司的平臺治理體系。符合C語言規(guī)范的API也極大降低了用戶的接入成本。

借助Python Backend和Custom Backend，用戶可以自由選擇使用C++/Python語言進行二次開發(fā)。

Triton的Tracing能力可以方便地捕捉執(zhí)行過程中的數(shù)據(jù)流狀態(tài)。結(jié)合Metrics 和 Perf Analysis等組件，可以快速定位開發(fā)調(diào)試，甚至是線上問題，對于開發(fā)和定位問題的效率有很大提升。

NVIDIA DALI 是 GPU 加速的數(shù)據(jù)增強和圖像加載庫。DALI Backend可以用于替換掉原來的圖片解碼、resize等操作。FIL Backend也可以替代Python XGBoost模型推理，進一步提升服務(wù)端推理性能。

方案效果及影響

借助NVIDIA Triton 推理框架，配合 DALI/FIL/Python 等Backend，以及 TensorRT，整體推理服務(wù)的吞吐能力最大提升 6 倍，延遲最大降低 40%。幫助騰訊PCG各業(yè)務(wù)場景中，以更低的成本構(gòu)建了高性能的推理服務(wù)，同時更低的延遲降低了整條系統(tǒng)鏈路的響應(yīng)時間，優(yōu)化了用戶體驗。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5696

瀏覽量
110141
C++

C++

+關(guān)注

關(guān)注
22

文章
2131

瀏覽量
77418
python

python

+關(guān)注

關(guān)注
58

文章
4889

瀏覽量
90330

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

NVIDIA Triton助力騰訊PCG加速在線推理

評論