日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

騰訊云與NVIDIA仍持續(xù)為AI推理加速進行合作

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 作者:NVIDIA英偉達 ? 2022-08-31 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊云計算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 兩個 AI 組件。基于 GPU 異構計算平臺針對業(yè)界 AI 訓練和推理任務進行了全方位的加速優(yōu)化。TACO Kit 不僅大大提升了 GPU 集群上多機多卡分布式訓練的效率,對于 GPU 上的模型推理也通過集成 NVIDIA TensorRT 帶來了顯著加速。雙方團隊就 GPU 推理加速這一話題將進行持續(xù)深入的合作,推出定制化的優(yōu)化方案,為業(yè)界客戶帶來顯著的性能收益。

騰訊云計算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一種異構計算加速軟件服務,具備領先的 GPU 共享技術和業(yè)界唯一的 GPU 在離線混部能力,搭配騰訊自研的軟硬件協同優(yōu)化組件和硬件廠商特有優(yōu)化方案,支持物理機、云服務器、容器等產品的計算加速、圖形渲染、視頻轉碼各個應用場景,幫助用戶實現全方位全場景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是騰訊云虛擬化團隊依托云帆團隊,立足于騰訊內部豐富的 AI 業(yè)務場景,深耕訓練框架優(yōu)化、分布式框架優(yōu)化、網絡通信優(yōu)化、推理性能優(yōu)化等關鍵技術,攜手打造的一整套 AI 加速方案。為了更好的服務用戶,騰訊云決定將內部深度優(yōu)化的加速方案免費提供給公有云用戶,助力廣大用戶提高 AI 產品迭代效率。

無論對于 AI 訓練或 AI 推理,如何有效提升 AI 任務的性能,節(jié)省硬件資源成本,是業(yè)界持續(xù)追求的目標。在訓練方面,隨著 AI 模型規(guī)模的擴大及訓練數據的增多,用戶對模型的迭代效率要求也隨之增長,單個 GPU 的算力已無法滿足大部分業(yè)務場景,使用單機多卡或多機多卡訓練已成為趨勢。但用戶在部署分布式訓練系統時,時常面臨著難以充分利用 GPU 資源、訓練效率低下的問題,而分布式訓練性能調優(yōu)卻是需要同時進行通信優(yōu)化、計算優(yōu)化的極其復雜的問題。

在推理方面,對多種多樣的工作負載進行推理加速也是業(yè)界共同的需求。這需要考慮如何對不同框架訓練的模型進行統一的高效部署;如何整合各類加速軟件和技術,對接不同模型和業(yè)務場景。

在訓練方面,TACO Train 推出 Tencent TensorFlow(以下簡稱 TTF), 針對特定業(yè)務場景的 XLA,Grappler 圖優(yōu)化,以及自適應編譯框架解決冗余編譯的問題,并對 TensorFlow 1.15 添加了對CUDA 11的支持,讓用戶可以使用NVIDIA A100 Tensor Core GPU來進行模型訓練。另外,TACO Train 推出 LightCC 這一基于 Horovod 深度優(yōu)化的分布式訓練框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能夠對 2D AllReduce 充分利用通信帶寬;在 GPU 上訓練時提供高效的梯度融合方式;并使用 TOPK 壓縮通信,降低通信量,提高傳輸效率。最后,騰訊云自研了用戶態(tài)網絡協議棧 HARP,可以通過 Plug-in 的方式集成到NVIDIA NCCL中,無需任何業(yè)務改動,加速云上分布式訓練性能,從而解決了目前普遍使用的內核網絡協議棧存在著一些必要的開銷導致其不能很好地利用高速網絡設備的問題。

在推理方面,TACO Infer 通過跨平臺統一的優(yōu)化接口賦能用戶,讓渴望加速計算的用戶輕松駕馭騰訊云上豐富的異構算力。TACO Infer 針對 GPU 推理任務,集成了NVIDIA TensorRT,利用其極致的模型優(yōu)化能力,使推理過程能夠達到令人滿意的性能。此外,TACO 也將自定義的高性能 kernel 實現與TensorRT相結合,極大地提升用戶的推理效率。

TACO Kit 針對 GPU 的訓練優(yōu)化,為諸多業(yè)務帶來了顯著的性能提升。在某電商平臺推薦業(yè)務Wide & Deep 模型訓練任務中,TACO Train 提供的方案通過定制化高性能 GPU 算子,使延遲從 14.3ms 下降至 2.8ms;整體訓練性能提升 43%,成本下降 11%;在另一電商推薦場景 MMoE 模型的訓練任務中,TACO Train 提供的訓練方案,在NVIDIA V100 Tensor Core GPU集群上,使計算速度性價比相比于 CPU 集群提升了 3.2 倍,收斂速度性價比相比于 CPU 集群提升了 24.3 倍。

目前,騰訊云 TACO Kit 與 NVIDIA 雙方團隊仍持續(xù)為 AI 推理加速進行合作。未來也將針對一些常見的業(yè)務模型,圍繞TensorRT進行聯合優(yōu)化,將模型推理的性能推向更高的水準,為業(yè)界有推理加速需求的客戶提供一站式的優(yōu)化方案。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110142
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5283

    瀏覽量

    136101
  • AI
    AI
    +關注

    關注

    91

    文章

    41322

    瀏覽量

    302703
  • 騰訊云
    +關注

    關注

    0

    文章

    226

    瀏覽量

    17510

原文標題:騰訊云與 NVIDIA 深度合作,打造計算加速套件 TACO Kit 加速 GPU AI 計算全鏈路

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    東軟智行與騰訊達成戰(zhàn)略合作

    2026北京國際車展期間,東軟集團子公司東軟智行正式完成戰(zhàn)略升級,錨定“上車身”黃金賽道,致力于成為全球領先的智能汽車上車身電子全域解決方案提供商。同期,東軟智行與騰訊宣布達成戰(zhàn)略合作,雙方將立足
    的頭像 發(fā)表于 04-30 17:16 ?4626次閱讀

    MediaTek與騰訊簽署戰(zhàn)略合作備忘錄

    MediaTek 與騰訊正式簽署戰(zhàn)略合作備忘錄(MOU),宣布將在智能座艙及移動計算領域展開深度合作。雙方將結合 MediaTek 在旗艦移動芯片和邊緣計算領域的深厚技術實力,與
    的頭像 發(fā)表于 04-24 17:16 ?880次閱讀

    Oracle和NVIDIA合作加速向量搜索和企業(yè)數據處理

    Oracle 和 NVIDIA 正在與客戶合作,將 GPU 加速的向量索引構建應用于實際工作負載。Oracle Private AI Services Container 初期支持 C
    的頭像 發(fā)表于 03-23 15:26 ?459次閱讀

    NVIDIA DGX SuperPODRubin平臺橫向擴展提供藍圖

    NVIDIA DGX Rubin 系統整合了 NVIDIA 在計算、網絡和軟件領域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可
    的頭像 發(fā)表于 01-14 09:14 ?905次閱讀

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    新聞摘要 : l NVIDIA 率先發(fā)布應對輔助駕駛長尾場景挑戰(zhàn)而設計的開源視覺-語言-動作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助
    的頭像 發(fā)表于 01-06 09:40 ?530次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列開源 <b class='flag-5'>AI</b> 模型與工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型輔助駕駛汽車開發(fā)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的
    的頭像 發(fā)表于 10-21 11:04 ?1460次閱讀

    MediaTek攜手NVIDIA開啟個人AI算力新紀元

    Spark 助力開發(fā)者能在本地端對大型 AI 模型進行原型設計(Prototype)、微調(Fine-tune)和推理(Inference)。NVIDIA DGX Spark 將于
    的頭像 發(fā)表于 10-16 11:26 ?969次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數據工廠團隊 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1517次閱讀

    蘑菇車聯與騰訊達成戰(zhàn)略合作

    9月16日,蘑菇車聯(MOGOX)與騰訊達成戰(zhàn)略合作,全面推動MogoMind大模型關鍵能力升級。雙方將通過服務、算力等方面的技術合作,
    的頭像 發(fā)表于 09-17 14:13 ?906次閱讀

    NVIDIA到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構上優(yōu)化了這兩款全新的開放權重模型并實現了
    的頭像 發(fā)表于 08-15 20:34 ?2541次閱讀
    <b class='flag-5'>NVIDIA</b>從<b class='flag-5'>云</b>到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實現150萬TPS<b class='flag-5'>推理</b>

    睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級

    400G/800G光模塊已實現規(guī)?;慨a,并基于AI工廠與AI的核心需求進行深度優(yōu)化: 速率突破:采用PAM4調制技術,單通道速率達100Gbps,整模塊實現800Gbps傳輸能力,
    發(fā)表于 08-13 19:01

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    模態(tài)的技術特性,DeepSeek正加速推動AI在金融、政務、科研及網絡智能化等關鍵領域的深度應用。 信而泰:AI推理引擎賦能網絡智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    NVIDIA計劃打造全球首個工業(yè)AI平臺

    NVIDIA 宣布,其正在為歐洲制造商構建全球首個工業(yè) AI 。這家總部位于德國的 AI 工廠將配備 1 萬個 GPU,包括通過 NVIDIA
    的頭像 發(fā)表于 06-16 14:17 ?1655次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發(fā)

    NVIDIA 宣布與諾和諾德開展合作,借助創(chuàng)新 AI 應用加速藥物研發(fā)。此次合作也將支持諾和諾德與丹麥
    的頭像 發(fā)表于 06-12 15:49 ?1520次閱讀

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學探索,推動各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過深化合作提供先進的技術,從到 PC 加速
    的頭像 發(fā)表于 05-27 14:03 ?1253次閱讀
    扶绥县| 丹阳市| 余干县| 肇庆市| 满洲里市| 通山县| 佳木斯市| 和田市| 青龙| 泊头市| 应城市| 达孜县| 延庆县| 临潭县| 巴里| 石嘴山市| 南部县| 日喀则市| 永嘉县| 亚东县| 尖扎县| 大渡口区| 武乡县| 财经| 酒泉市| 贵港市| 揭东县| 陵川县| 当阳市| 静安区| 项城市| 新民市| 岫岩| 甘肃省| 岚皋县| 鲁甸县| 静安区| 上高县| 闽侯县| 乐亭县| 乌拉特前旗|