日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

游戲AI對自對弈推理速度提出新要求

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 作者:NVIDIA英偉達 ? 2021-10-22 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊一直積極地推動強化學習在游戲AI領域的發(fā)展,并在2019年推出了“開悟”AI開放研究平臺,提供不同游戲的訓練場景、支撐AI進行強化訓練的大規(guī)模算力、統(tǒng)一的強化學習框架以加速研發(fā)速度、通用的訓練與推理服務,加快AI訓練速度。

游戲AI對自對弈推理速度提出新要求

和圖像以及語音的訓練方式不同,目前在游戲AI訓練上表現(xiàn)最好的方式是強化學習。強化學習除了需要大量的算力來訓練深度學習網(wǎng)絡之外,還需要一個自對弈的模塊用來產(chǎn)生訓練數(shù)據(jù)。在自對弈模塊當中,會模擬游戲環(huán)境,并且選擇不同時期的模型來操控游戲內(nèi)的角色,AI對游戲內(nèi)角色的每一操控都需要對模型進行一次前向推理。由于更新模型的訓練數(shù)據(jù)來自于自對弈模塊,因此自對弈的推理速度會對整個模型的訓練速度和效果造成非常大的影響。

而自對弈推理每一次前向推理對延時的要求比實際的線上服務小,因此常見的方式是通過CPU來進行自對弈中的推理,但CPU成本太高。為了提高自對弈的速度與吞吐,減少推理成本,騰訊希望在“開悟”AI開放研究平臺里面充分利用GPU去進行自對弈中的模型前向推理。

TensorRT 助力“開悟”AI加速自對弈推理

為了解決在自對弈推理當中GPU利用率不高的問題, 騰訊“開悟”AI開放研究平臺選擇使用NVIDIA V100 GPU和NVIDIA TensorRT推理引擎來加速推理。

為了自動化地將模型從TensorFlow轉(zhuǎn)換到TensorRT, 騰訊“開悟”AI開放研究平臺一開始通過自行開發(fā)parser,將TensorFlow的算子映射到TensorRT的算子。同時,為了支持更廣泛的模型與算子,減少維護和開發(fā)的成本, 騰訊“開悟”AI開放研究平臺也積極地與NVIDIA合作,推動從TensorFlow轉(zhuǎn)換成ONNX模型,再通過TensorRT ONNX parser轉(zhuǎn)換到TensorRT的流程。

在自對弈的過程中,需要頻繁地更新模型的權重,讓自對弈模型始終能保持在較新的狀態(tài)。這個更新的頻率大概幾分鐘一次,每次必須限制在幾百個毫秒。如果通過重新build engine 的方式來更新模型的話,無法滿足上述要求。因此 騰訊“開悟”AI開放研究平臺采用 TensorRT refit engine的功能來更新權重。同時,為了對更新權重有更好的支持、以及支持更多的算子, 騰訊“開悟”AI開放研究平臺從原本的TensorRT 5 升級到TensorRT 7。

TensorRT 7雖然在部分算子上支持權重更新,但并不支持LSTM這個在游戲AI當中很重要的算子。為了解決這個問題, 騰訊“開悟”AI開放研究平臺通過開發(fā)TensorRT插件的方式封裝LSTM算子,并在插件當中更新權重。

為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便,整個推理流程很快被切換到FP16,并取得了2倍左右的加速。

尋找模型推理時的性能瓶頸,通過開發(fā)TensorRT插件進行算子融合,進一步地提升推理的速度。

在完成以上的工作之后,對比TensorFlow的基礎版本,TensorRT 7 能提供5倍以上的加速效果。

通過NVIDIA V100 GPU以及TensorRT推理引擎加速自對弈訓練的推理部分,騰訊“開悟”AI開放研究平臺極大地提升了自對弈推理的吞吐量與速度,進一步地提升了整個模型訓練的速度與降低訓練成本,加快模型迭代的周期。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5696

    瀏覽量

    110142
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5283

    瀏覽量

    136101
  • AI
    AI
    +關注

    關注

    91

    文章

    41318

    瀏覽量

    302703

原文標題:NVIDIA TensorRT助力騰訊加速“開悟”AI開放研究平臺

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    黑馬-Java+AI新版V16零基礎就業(yè)班百度云網(wǎng)盤下載+Java+AI全棧開發(fā)工程師

    差異。 二、Java 推理引擎選型與性能優(yōu)化 將 AI 模型跑在 JVM 內(nèi),最大的技術挑戰(zhàn)是性能。傳統(tǒng) Python 生態(tài)依靠原生 C++ 后端與高效內(nèi)存管理獲得推理速度,而 Jav
    發(fā)表于 05-01 11:29

    AI存儲走向超高IOPS,英韌科技率先卡位數(shù)據(jù)中心AI SSD

    AI 技術正從云端向端側(cè)全面滲透,大模型訓練、推理及數(shù)據(jù)分層管理等場景的需求持續(xù)爆發(fā),對SSD性能提出新要求。AI應用多涉及海量小數(shù)據(jù)高頻
    的頭像 發(fā)表于 04-28 18:13 ?6556次閱讀
    <b class='flag-5'>AI</b>存儲走向超高IOPS,英韌科技率先卡位數(shù)據(jù)中心<b class='flag-5'>AI</b> SSD

    是德科技推出全新AI推理仿真平臺

    是德科技(NYSE: KEYS)近日推出KAI推理構建器(Keysight AI Inference Builder),這款仿真與分析平臺旨在大規(guī)模驗證針對推理進行優(yōu)化的AI基礎設施。
    的頭像 發(fā)表于 03-20 17:27 ?833次閱讀
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平臺

    國內(nèi)首個國產(chǎn)AI推理千卡集群落地,采用云天勵飛全AI推理芯片

    3 月 12 日,云天勵飛中標湛江市AI滲透支撐新質(zhì)生產(chǎn)力基礎設施建設項目,中標金額4.2億元。項目將基于云天勵飛研的國產(chǎn)AI推理加速卡,建設國產(chǎn)
    發(fā)表于 03-12 11:10 ?1334次閱讀

    把大模型“刻進”芯片,AI芯片推理速度17000 tokens/秒

    電子發(fā)燒友網(wǎng)綜合報道 近期,加拿大多倫多初創(chuàng)公司Taalas正式發(fā)布首款AI推理芯片HC1,將大模型權重直接蝕刻到芯片的金屬互連層中,實現(xiàn)推理速度達17000 tokens/秒。 ?
    的頭像 發(fā)表于 03-01 06:45 ?7594次閱讀
    把大模型“刻進”芯片,<b class='flag-5'>AI</b>芯片<b class='flag-5'>推理</b><b class='flag-5'>速度</b>17000 tokens/秒

    新思科技PrimeSim+ASO.ai解決方案推動模擬存內(nèi)計算創(chuàng)新

    隨著世界不斷數(shù)字化,AI、5G、物聯(lián)網(wǎng)以及自動駕駛等技術日益普及。而這些數(shù)字應用所依賴的芯片架構,對模擬功能提出了更高的創(chuàng)新要求。
    的頭像 發(fā)表于 02-03 18:19 ?2001次閱讀

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報道,在人工智能迅猛發(fā)展的當下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類AI模型響應用戶問
    的頭像 發(fā)表于 02-03 17:15 ?3302次閱讀

    使用NORDIC AI的好處

    × 在 CPU 上運行時可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁] Axon NPU 對同一 TensorFlow Lite 模型:* 推理速度最高可比
    發(fā)表于 01-31 23:16

    歐盟新規(guī)下鋰電池CE認證最新要求

    ”,而是邁向更嚴格、更系統(tǒng)、更綠色的新階段。作為專業(yè)的檢測認證服務機構,我們?yōu)槟媸崂懋斍皻W盟對鋰電池CE認證的最新要求,助您提前布局,規(guī)避市場風險。一、從“舊指令
    的頭像 發(fā)表于 11-12 17:30 ?2401次閱讀
    歐盟新規(guī)下鋰電池CE認證最<b class='flag-5'>新要求</b>

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1517次閱讀

    AI開啟更逼真的游戲時代

    本文編譯semiengineering神經(jīng)網(wǎng)絡負責圖形渲染,AI智能體指導玩法,而‘幻覺’則用于填補缺失的細節(jié),讓游戲世界更加完整。隨著處理性能和內(nèi)存的大幅提升,以及數(shù)據(jù)傳輸速度的顯
    的頭像 發(fā)表于 08-20 11:22 ?1515次閱讀
    <b class='flag-5'>AI</b>開啟更逼真的<b class='flag-5'>游戲</b>時代

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    近日,2025金融AI推理應用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰博士發(fā)布AI
    的頭像 發(fā)表于 08-15 09:45 ?1409次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢在于強大的推理引擎能力,融合了自然語言處理(
    發(fā)表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    過程中需要占用大量顯存,導致推理速度變慢,甚至無法進行。 計算量過大:大模型的計算量較大,導致推理速度慢,難以滿足實時性要求。 為了解決這些
    發(fā)表于 07-03 19:43

    燈具諧波新要求

    燈具諧波方面的新要求,適合燈具方面的設計
    發(fā)表于 05-28 14:11 ?0次下載
    贡山| 托里县| 客服| 新竹市| 花莲市| 芒康县| 邵东县| 敦化市| 芮城县| 滕州市| 县级市| 盐津县| 鹤峰县| 靖江市| 临猗县| 珠海市| 北川| 孟津县| 和政县| 武宁县| 惠来县| 贡嘎县| 紫阳县| 古交市| 徐州市| 阳西县| 沂源县| 定襄县| 苏尼特右旗| 墨竹工卡县| 瓮安县| 富锦市| 京山县| 尼玛县| 会理县| 漳平市| 土默特左旗| 德惠市| 咸丰县| 鸡东县| 扎囊县|