亚洲久久草,蜜桃一区二区三区

簡介

? 本案例中通過NVIDIA T4 GPU，TensorRT和Triton，幫助微信OCR降低整體耗時46%，并將系統(tǒng)的失敗率降低81%，同時降低了高達(dá)78%的服務(wù)器數(shù)量。

? 本案例主要應(yīng)用到 NVIDIA GPU ，TensorRT和Triton。

客戶簡介

騰訊微信是一款跨平臺的通訊工具。支持通過手機(jī)網(wǎng)絡(luò)發(fā)送語音、圖片、視頻和文字等。截至2021年6月，微信在全球擁有超過12億活躍用戶，是國內(nèi)活躍用戶最多的社交軟件。

微信識物是一款主打物品識別的 AI 產(chǎn)品，通過相機(jī)拍攝物品，更高效、更智能地獲取信息。2020 年，微信識物拓展了更多識別場景，上線了微信版的圖片搜索。打開微信掃一掃，左滑切換到“識物”功能，對準(zhǔn)想要了解的物品正面，可以獲取對應(yīng)的物品信息，包括物品百科、相關(guān)資訊、相關(guān)商品。

2021年1月，微信發(fā)布的微信8.0，版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長按圖片就可以提取圖片中文字，然后一鍵轉(zhuǎn)發(fā)、復(fù)制或收藏。

挑戰(zhàn)

微信識物包含檢測、圖像召回、信息提煉等環(huán)節(jié)，OCR主要包括識別和檢測，這兩種應(yīng)用都有非常大的計(jì)算量，在用Pytorch進(jìn)行模型的推理時，一方面時延特別大，導(dǎo)致用戶體驗(yàn)受損；另一方面，顯存占用很大，單張NVIDIA T4上部署的模型數(shù)比較少，導(dǎo)致推理請求的并發(fā)數(shù)上不去，請求失敗的概率太高，只能通過增加機(jī)器的方式來提高并發(fā)能力，業(yè)務(wù)部署成本較高。再次，使用的模型經(jīng)常變化，而業(yè)務(wù)需要更換后的模型能夠快速地加速和上線部署。

方案

基于以上挑戰(zhàn)，騰訊微信選擇了采用NVIDIA 的TensorRT對模型進(jìn)行推理加速，并利用NVIDIA Triton推理服務(wù)器在T4 GPU上進(jìn)行在線部署，在提升用戶體驗(yàn)的同時，大幅降低了服務(wù)成本。

1、通過使用TensorRT對微信識物和OCR的模型進(jìn)行加速，在都使用FP32的情況下，與Pytorch相對，時延降低50%左右。

2、在OCR的識別和檢測階段，使用TensorRT結(jié)合NVIDIA T4 GPU 的FP16 Tensor Core，在保證精度的同時，識別的時延進(jìn)一步降低了50%，檢測降低了20%。

3、在微信識物的分類和檢測任務(wù)中，通過使用NVIDIA T4 GPU 的int8 Tensor Core，并結(jié)合QAT，在滿足精度要求的前提下，進(jìn)一步大幅提升了性能。

4、通過使用FP16和int8 低精度模式，在大幅降低推理時延的同時，大大減少了顯存的占用，在FP16模式下，單模型顯存占用僅占FP32模式的40%–50%，而在int8模式下，單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數(shù)量的同時，大幅提高了單GPU的推理請求并發(fā)能力。

5、 Triton的dynamic batch和多實(shí)例等特性，幫助微信將在滿足時延要求的同時，提高了系統(tǒng)整體的并發(fā)能力，將系統(tǒng)失敗降低了81%。

6、 TensorRT可以對模型進(jìn)行快速的加速，Triton則可以對加速后的模型進(jìn)行快速的部署，滿足了業(yè)務(wù)對修改后的模型進(jìn)行快速部署的需求，同時也大大減少了工程人員的工作量。

效果

通過使用NVIDIA的TensorRT對微信識物和OCR的模型進(jìn)行加速，在降低單次推理時延50%以上的同時，節(jié)約了多達(dá)64%的顯存。結(jié)合Triton的dynamic batch和多實(shí)例的功能，OCR的整體時延降低了46%，系統(tǒng)失敗率降低了81%。大大提高了用戶的體驗(yàn)，并且服務(wù)器的數(shù)量減少了多達(dá)78%，極大降低了服務(wù)的成本。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴