客戶簡介
? 本案例中通過TensorRT加速夸克瀏覽器視頻圖像相關模型的預測性能,比如待上線業(yè)務的相關流程整體性能達不到線上要求,通過對全流程的優(yōu)化以及使用NVIDIA TensorRT加速模型后,最終整體性能由10s級別降到400ms內(nèi),其中模型性能加速1~3倍,顯存占用下降50%。
? 本案例主要應用到NVIDIA TensorRT、NVIDIA Nsight Systems
客戶簡介及應用背景
夸克瀏覽器是阿里旗下的一個搭載極速AI引擎的高速智能瀏覽器??淇鸵詷O速智能搜索為定位,致力于為用戶提供交互更智能高效、內(nèi)容更專業(yè)權威的新一代搜索引擎,同時也在產(chǎn)品極致體驗上不斷實現(xiàn)突破。
夸克目前不僅提供極致的搜索體驗,也在探索以深度學習為基礎的AI工具,通過高效的算法效果和全流程的性能優(yōu)化,提供更好的用戶體驗。深度學習模型在實際應用的過程中,效果遠好于傳統(tǒng)模型,但由于算法復雜度過高,預測性能成為制約模型最終能否上線的核心問題。NVIDIA TensorRT通過計算圖的優(yōu)化、高效Kernel的實現(xiàn)及更高效硬件的利用加速模型預測耗時,使預測速度提升了1~3倍。
客戶挑戰(zhàn)
夸克瀏覽器為用戶提供智能相機功能,打開夸克APP后,通過相機入口(如下左圖紅框所示)進入智能相機功能,可以看到智能相機提供的具體功能(如下右圖所示),包括萬能掃描、學習輔導、萬物識別等功能,這些功能對實時性要求極高,不少功能的底層核心技術依賴OCR。作為核心一環(huán),OCR需要承接巨大流量,其效果及性能影響整個上層業(yè)務的用戶體驗。
OCR全流程包含檢測、識別等多個模型以及復雜的前后處理,整體耗時10s級別,耗時過長嚴重影響用戶體驗,無法達到上線要求。主要影響性能的因素有以下三點:單個模型占用顯存過大導致全流程無法部署在同一個GPU上,需要在多個GPU上進行數(shù)據(jù)傳輸,多GPU部署導致GPU利用率不高;模型本身性能慢,涉及復雜的檢測和識別模型;全流程中模型前后處理復雜。
應用方案
對比目前性能優(yōu)化方案,夸克選擇了采用NVIDIA TensorRT作為模型優(yōu)化的底層框架對模型進行優(yōu)化。TensorRT提供完整端到端模型性能優(yōu)化工具,支持TF和ONNX等相關框架模型,使用后對模型性能帶來巨大提升。
TensorRT對模型結構進行優(yōu)化,使用高效KERNEL實現(xiàn),并且支持FP16和INT8量化。部分模型通過使用TensorRt后,模型性能有2到3倍的提升,并且顯存降到原來的30%~50%。
有模型在使用FP16精度后,模型效果下降,夸克團隊在NVIDIA的工作人員的指導下,通過對模型設置混合精度后,模型的性能較FP16稍微下降,但是整體效果也達到要求。
對于部分轉(zhuǎn)TensorRT失敗的模型,我們對模型進行分析,把模型耗時的部分單獨抽取出來,單獨做模型優(yōu)化。
在使用TensorRT的過程中,通過Nsight Systems發(fā)現(xiàn)TensorRT OP在某些場景性能表現(xiàn)不盡人意,最后在NVIDIA工作人員指導下,通過調(diào)整OP的使用方式解決該問題。
使用效果及影響
通過使用NVIDIA TensorRT,夸克瀏覽器極大地提升了模型性能和降低模型本身顯存占用,提高了GPU的使用率。在對整體流程和模型進行優(yōu)化后,全部模型能夠部署在單個GPU上,并且整體耗時在400ms內(nèi)。
夸克技術人員表示:TensorRT文檔齊全,功能使用方便,用戶能夠以低門檻使用其帶來的優(yōu)化,無需手動編寫復雜模型轉(zhuǎn)換工具,大大地減少了用戶投入成本。對比其他模型優(yōu)化框架,TensorRT具有更好的通用性、易用性和性能。
通過這次對OCR全流程的性能優(yōu)化,夸克瀏覽器也積累了一套適合內(nèi)部使用的模型性能優(yōu)化方案,在遇到其他模型性能問題時也有的放矢。目前夸克已經(jīng)把TensorRT相關優(yōu)化工具集成到其瀏覽器的內(nèi)部平臺上,同時應用到其他業(yè)務的模型中,并取得良好的效果。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5696瀏覽量
110140 -
gpu
+關注
關注
28文章
5283瀏覽量
136099
發(fā)布評論請先 登錄
瑞芯微(EASY EAI)RV1126B 安裝瀏覽器
VF2 Debian image 69 Web 瀏覽器失敗,怎么修復?
夸克AI眼鏡“一機難求”,核心供應商曝已新增產(chǎn)線
虹軟助力夸克AI眼鏡S1系列正式發(fā)布
利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發(fā)
NVIDIA TensorRT LLM 1.0推理框架正式上線
Microsoft Edge瀏覽器iOS端插件功能上線
亞馬遜云科技推出Amazon Nova Act SDK預覽版,加速瀏覽器自動化Agent落地
NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載
NVIDIA全棧加速代理式AI應用落地
如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署
NVIDIA計劃打造全球首個工業(yè)AI云平臺
使用NVIDIA Triton和TensorRT-LLM部署TTS應用的最佳實踐
通過NVIDIA TensorRT加速夸克瀏覽器AI應用
評論