騰訊云計算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 兩個 AI 組件。基于 GPU 異構計算平臺針對業(yè)界 AI 訓練和推理任務進行了全方位的加速優(yōu)化。TACO Kit 不僅大大提升了 GPU 集群上多機多卡分布式訓練的效率,對于 GPU 上的模型推理也通過集成 NVIDIA TensorRT 帶來了顯著加速。雙方團隊就 GPU 推理加速這一話題將進行持續(xù)深入的合作,推出定制化的優(yōu)化方案,為業(yè)界客戶帶來顯著的性能收益。
騰訊云計算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一種異構計算加速軟件服務,具備領先的 GPU 共享技術和業(yè)界唯一的 GPU 在離線混部能力,搭配騰訊自研的軟硬件協同優(yōu)化組件和硬件廠商特有優(yōu)化方案,支持物理機、云服務器、容器等產品的計算加速、圖形渲染、視頻轉碼各個應用場景,幫助用戶實現全方位全場景的降本增效。
其中,AI 加速引擎 TACO Train 和 TACO Infer 是騰訊云虛擬化團隊依托云帆團隊,立足于騰訊內部豐富的 AI 業(yè)務場景,深耕訓練框架優(yōu)化、分布式框架優(yōu)化、網絡通信優(yōu)化、推理性能優(yōu)化等關鍵技術,攜手打造的一整套 AI 加速方案。為了更好的服務用戶,騰訊云決定將內部深度優(yōu)化的加速方案免費提供給公有云用戶,助力廣大用戶提高 AI 產品迭代效率。
無論對于 AI 訓練或 AI 推理,如何有效提升 AI 任務的性能,節(jié)省硬件資源成本,是業(yè)界持續(xù)追求的目標。在訓練方面,隨著 AI 模型規(guī)模的擴大及訓練數據的增多,用戶對模型的迭代效率要求也隨之增長,單個 GPU 的算力已無法滿足大部分業(yè)務場景,使用單機多卡或多機多卡訓練已成為趨勢。但用戶在部署分布式訓練系統時,時常面臨著難以充分利用 GPU 資源、訓練效率低下的問題,而分布式訓練性能調優(yōu)卻是需要同時進行通信優(yōu)化、計算優(yōu)化的極其復雜的問題。
在推理方面,對多種多樣的工作負載進行推理加速也是業(yè)界共同的需求。這需要考慮如何對不同框架訓練的模型進行統一的高效部署;如何整合各類加速軟件和技術,對接不同模型和業(yè)務場景。
在訓練方面,TACO Train 推出 Tencent TensorFlow(以下簡稱 TTF), 針對特定業(yè)務場景的 XLA,Grappler 圖優(yōu)化,以及自適應編譯框架解決冗余編譯的問題,并對 TensorFlow 1.15 添加了對CUDA 11的支持,讓用戶可以使用NVIDIA A100 Tensor Core GPU來進行模型訓練。另外,TACO Train 推出 LightCC 這一基于 Horovod 深度優(yōu)化的分布式訓練框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能夠對 2D AllReduce 充分利用通信帶寬;在 GPU 上訓練時提供高效的梯度融合方式;并使用 TOPK 壓縮通信,降低通信量,提高傳輸效率。最后,騰訊云自研了用戶態(tài)網絡協議棧 HARP,可以通過 Plug-in 的方式集成到NVIDIA NCCL中,無需任何業(yè)務改動,加速云上分布式訓練性能,從而解決了目前普遍使用的內核網絡協議棧存在著一些必要的開銷導致其不能很好地利用高速網絡設備的問題。
在推理方面,TACO Infer 通過跨平臺統一的優(yōu)化接口賦能用戶,讓渴望加速計算的用戶輕松駕馭騰訊云上豐富的異構算力。TACO Infer 針對 GPU 推理任務,集成了NVIDIA TensorRT,利用其極致的模型優(yōu)化能力,使推理過程能夠達到令人滿意的性能。此外,TACO 也將自定義的高性能 kernel 實現與TensorRT相結合,極大地提升用戶的推理效率。
TACO Kit 針對 GPU 的訓練優(yōu)化,為諸多業(yè)務帶來了顯著的性能提升。在某電商平臺推薦業(yè)務Wide & Deep 模型訓練任務中,TACO Train 提供的方案通過定制化高性能 GPU 算子,使延遲從 14.3ms 下降至 2.8ms;整體訓練性能提升 43%,成本下降 11%;在另一電商推薦場景 MMoE 模型的訓練任務中,TACO Train 提供的訓練方案,在NVIDIA V100 Tensor Core GPU集群上,使計算速度性價比相比于 CPU 集群提升了 3.2 倍,收斂速度性價比相比于 CPU 集群提升了 24.3 倍。
目前,騰訊云 TACO Kit 與 NVIDIA 雙方團隊仍持續(xù)為 AI 推理加速進行合作。未來也將針對一些常見的業(yè)務模型,圍繞TensorRT進行聯合優(yōu)化,將模型推理的性能推向更高的水準,為業(yè)界有推理加速需求的客戶提供一站式的優(yōu)化方案。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
5696瀏覽量
110142 -
gpu
+關注
關注
28文章
5283瀏覽量
136101 -
AI
+關注
關注
91文章
41322瀏覽量
302703 -
騰訊云
+關注
關注
0文章
226瀏覽量
17510
原文標題:騰訊云與 NVIDIA 深度合作,打造計算加速套件 TACO Kit 加速 GPU AI 計算全鏈路
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
東軟智行與騰訊云達成戰(zhàn)略合作
MediaTek與騰訊云簽署戰(zhàn)略合作備忘錄
Oracle和NVIDIA合作加速向量搜索和企業(yè)數據處理
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)
NVIDIA TensorRT LLM 1.0推理框架正式上線
MediaTek攜手NVIDIA開啟個人AI算力新紀元
什么是AI模型的推理能力
蘑菇車聯與騰訊云達成戰(zhàn)略合作
NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理
騰訊云與NVIDIA仍持續(xù)為AI推理加速進行合作
評論