日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA加速虛擬人項(xiàng)目渲染與推理效率

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-10-22 09:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊AI LAB致力于打造產(chǎn)學(xué)研用一體的 AI 生態(tài),主要的研究方向包括計(jì)算機(jī)視覺、語音識別、自然語言處理和機(jī)器學(xué)習(xí),結(jié)合騰訊場景與業(yè)務(wù)優(yōu)勢,在社交AI、游戲AI、內(nèi)容AI及平臺AI等領(lǐng)域取得了顯著的成果,技術(shù)被應(yīng)用于微信、QQ、天天快報(bào)和QQ音樂等上百個(gè)騰訊產(chǎn)品。其中圍棋AI “絕藝” 多次獲得世界人工智能圍棋大賽的冠軍。

騰訊AI LAB打造的虛擬人,具有自然、生動且飽含情緒的表情,其背后由一套騰訊 AI LAB 自研的復(fù)雜系統(tǒng)支撐,系統(tǒng)首先要從文本中提取不同信息,包括表情、情感、重音位置、和激動程度等;提取之后,這些信息被輸入到模型中生成,再同步生成語音、口型和表情參數(shù),最終才有了虛擬人自然生動的表現(xiàn)。

虛擬人物打造需要更高效平臺

根據(jù)虛擬人物需要表達(dá)的語言和情感,生成自然生動的人臉,是打造虛擬人重要的一個(gè)階段。需要先渲染人臉的紋理圖和渲染圖,并將它們輸入到深度學(xué)習(xí)模型中,最終生成自然生動的人臉。在這個(gè)過程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等軟件技術(shù),騰訊原有的方案有很多CPUGPU的數(shù)據(jù)交互,且有很多計(jì)算型的操作通過CPU來實(shí)現(xiàn),效率非常低下, 無論是吞吐還是延時(shí)都不滿足要求,具體體現(xiàn)在:

OpenGL在GPU上渲染好圖像繪制到framebuffer后,需要先用glReadPixels拷貝數(shù)據(jù)到CPU,再用cudaMemcpy將數(shù)據(jù)從CPU拷回到GPU以進(jìn)行深度學(xué)習(xí)模型的推理,這里有兩次不必要的CPU與GPU之間的數(shù)據(jù)傳輸。

顏色空間轉(zhuǎn)換方面,深度學(xué)習(xí)推理的前后處理等操作在CPU上完成,效率非常低下。

NVIDIA 加速虛擬人項(xiàng)目渲染與推理效率

NVIDIA 技術(shù)在虛擬人項(xiàng)目的渲染和推理階段均提供了強(qiáng)大的支持。在渲染階段,NVIDIA 助力提升了顏色空間轉(zhuǎn)換效率,降低整體延時(shí),主要體現(xiàn)在:

1. 用NVIDIA CUDA/OpenGL interoperability 代替騰訊之前使用glReadPixels在CUDA和OpenGL之間拷貝數(shù)據(jù)的方案,大幅減少了CPU和GPU之間的數(shù)據(jù)拷貝,從而降低了整體的延時(shí)。

2. 把原來在CPU上做的顏色空間轉(zhuǎn)換的操作,遷移到NVIDIA T4 GPU上用CUDA kernel實(shí)現(xiàn),利用GPU的并行優(yōu)勢,大大提高了顏色空間轉(zhuǎn)換的效率,進(jìn)一步降低了整體的延時(shí)。

3. 將多幀的mesh組成一個(gè)batch分別繪制到framebuffer的不同區(qū)域,在提高OpenGL并行度的同時(shí),給下一階段的深度學(xué)習(xí)模型的推理提供了更大的輸入數(shù)據(jù)的batch size,充分發(fā)揮NVIDIA T4 GPU高并發(fā)計(jì)算的優(yōu)勢,進(jìn)一步提高GPU的利用率,從而提高整體的吞吐。

在推理階段,NVIDIA助力提高推理整體吞吐,降低推理延時(shí),主要體現(xiàn)在以下幾點(diǎn):

1. 用NVIDIA TensorRT替換TensorFlow對模型推理進(jìn)行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以極大提高矩陣乘等操作速度的特性,在最終視覺效果幾乎不變的情況下,進(jìn)一步提升推理的吞吐,降低推理延時(shí)。

2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV實(shí)現(xiàn) Mat-to-Tensor 和 Tensor-to-Mat 等格式轉(zhuǎn)換操作,并使用OpenCV-CUDA版替換OpenCV-CPU版的部分操作(如Resize等),充分發(fā)揮GPU相對于CPU更高的并發(fā)優(yōu)勢,在加速這些操作的同時(shí)減少GPU到CPU的數(shù)據(jù)傳輸通信量,提高格式轉(zhuǎn)換效率,降低端到端的推理延時(shí)。

3. 通過Pipeline的方式,使GPU和CPU上的操作進(jìn)行overlap,并結(jié)合NVIDIA的MPS技術(shù)提高單卡上多個(gè)進(jìn)程同時(shí)處理多個(gè)數(shù)據(jù)流的同時(shí)提高整體的吞吐。

在虛擬人項(xiàng)目中,NVIDIA CUDA技術(shù)大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度學(xué)習(xí)模型的推理,結(jié)合MPS技術(shù),實(shí)現(xiàn)了單卡多路推流,使整體推理效率達(dá)到了原來的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技術(shù)的使用成本。責(zé)任編輯:haq

騰訊AI LAB致力于打造產(chǎn)學(xué)研用一體的 AI 生態(tài),主要的研究方向包括計(jì)算機(jī)視覺、語音識別、自然語言處理和機(jī)器學(xué)習(xí),結(jié)合騰訊場景與業(yè)務(wù)優(yōu)勢,在社交AI、游戲AI、內(nèi)容AI及平臺AI等領(lǐng)域取得了顯著的成果,技術(shù)被應(yīng)用于微信、QQ、天天快報(bào)和QQ音樂等上百個(gè)騰訊產(chǎn)品。其中圍棋AI “絕藝” 多次獲得世界人工智能圍棋大賽的冠軍。 騰訊AI LAB打造的虛擬人,具有自然、生動且飽含情緒的表情,其背后由一套騰訊 AI LAB 自研的復(fù)雜系統(tǒng)支撐,系統(tǒng)首先要從文本中提取不同信息,包括表情、情感、重音位置、和激動程度等;提取之后,這些信息被輸入到模型中生成,再同步生成語音、口型和表情參數(shù),最終才有了虛擬人自然生動的表現(xiàn)。

虛擬人物打造需要更高效平臺

根據(jù)虛擬人物需要表達(dá)的語言和情感,生成自然生動的人臉,是打造虛擬人重要的一個(gè)階段。需要先渲染人臉的紋理圖和渲染圖,并將它們輸入到深度學(xué)習(xí)模型中,最終生成自然生動的人臉。在這個(gè)過程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等軟件技術(shù),騰訊原有的方案有很多CPU與GPU的數(shù)據(jù)交互,且有很多計(jì)算型的操作通過CPU來實(shí)現(xiàn),效率非常低下, 無論是吞吐還是延時(shí)都不滿足要求,具體體現(xiàn)在:

OpenGL在GPU上渲染好圖像繪制到framebuffer后,需要先用glReadPixels拷貝數(shù)據(jù)到CPU,再用cudaMemcpy將數(shù)據(jù)從CPU拷回到GPU以進(jìn)行深度學(xué)習(xí)模型的推理,這里有兩次不必要的CPU與GPU之間的數(shù)據(jù)傳輸。

顏色空間轉(zhuǎn)換方面,深度學(xué)習(xí)推理的前后處理等操作在CPU上完成,效率非常低下。

NVIDIA加速虛擬人項(xiàng)目渲染與推理效率

NVIDIA 技術(shù)在虛擬人項(xiàng)目的渲染和推理階段均提供了強(qiáng)大的支持。在渲染階段,NVIDIA 助力提升了顏色空間轉(zhuǎn)換效率,降低整體延時(shí),主要體現(xiàn)在: 1. 用NVIDIA CUDA/OpenGL interoperability 代替騰訊之前使用glReadPixels在CUDA和OpenGL之間拷貝數(shù)據(jù)的方案,大幅減少了CPU和GPU之間的數(shù)據(jù)拷貝,從而降低了整體的延時(shí)。 2. 把原來在CPU上做的顏色空間轉(zhuǎn)換的操作,遷移到NVIDIA T4 GPU上用CUDA kernel實(shí)現(xiàn),利用GPU的并行優(yōu)勢,大大提高了顏色空間轉(zhuǎn)換的效率,進(jìn)一步降低了整體的延時(shí)。 3. 將多幀的mesh組成一個(gè)batch分別繪制到framebuffer的不同區(qū)域,在提高OpenGL并行度的同時(shí),給下一階段的深度學(xué)習(xí)模型的推理提供了更大的輸入數(shù)據(jù)的batch size,充分發(fā)揮NVIDIA T4 GPU高并發(fā)計(jì)算的優(yōu)勢,進(jìn)一步提高GPU的利用率,從而提高整體的吞吐。

在推理階段,NVIDIA助力提高推理整體吞吐,降低推理延時(shí),主要體現(xiàn)在以下幾點(diǎn):
1. 用NVIDIA TensorRT替換TensorFlow對模型推理進(jìn)行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以極大提高矩陣乘等操作速度的特性,在最終視覺效果幾乎不變的情況下,進(jìn)一步提升推理的吞吐,降低推理延時(shí)。
2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV實(shí)現(xiàn) Mat-to-Tensor 和 Tensor-to-Mat 等格式轉(zhuǎn)換操作,并使用OpenCV-CUDA版替換OpenCV-CPU版的部分操作(如Resize等),充分發(fā)揮GPU相對于CPU更高的并發(fā)優(yōu)勢,在加速這些操作的同時(shí)減少GPU到CPU的數(shù)據(jù)傳輸通信量,提高格式轉(zhuǎn)換效率,降低端到端的推理延時(shí)。
3. 通過Pipeline的方式,使GPU和CPU上的操作進(jìn)行overlap,并結(jié)合NVIDIA的MPS技術(shù)提高單卡上多個(gè)進(jìn)程同時(shí)處理多個(gè)數(shù)據(jù)流的同時(shí)提高整體的吞吐。 在虛擬人項(xiàng)目中,NVIDIA CUDA技術(shù)大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度學(xué)習(xí)模型的推理,結(jié)合MPS技術(shù),實(shí)現(xiàn)了單卡多路推流,使整體推理效率達(dá)到了原來的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技術(shù)的使用成本。 責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11332

    瀏覽量

    225994
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110142
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41326

    瀏覽量

    302707
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5610

    瀏覽量

    124656

原文標(biāo)題:NVIDIA TensorRT和GPU軟件棧助力騰訊AI LAB打造生動的虛擬人

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA DGX SuperPOD為Rubin平臺橫向擴(kuò)展提供藍(lán)圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計(jì)算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可
    的頭像 發(fā)表于 01-14 09:14 ?905次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    需求進(jìn)行了優(yōu)化設(shè)計(jì)。無論是 CUDA 核心計(jì)算性能、實(shí)時(shí)渲染能力,還是 AI 推理效率,亦或顯存帶寬與容量的顯著提升,均使得新一代 RTX PRO 5000 Blackwell GPU 能夠輕松應(yīng)對更復(fù)雜、更嚴(yán)苛的工作負(fù)載。
    的頭像 發(fā)表于 01-06 09:51 ?4346次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)

    新聞?wù)?: l NVIDIA 率先發(fā)布為應(yīng)對輔助駕駛長尾場景挑戰(zhàn)而設(shè)計(jì)的開源視覺-語言-動作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助駕駛汽車開發(fā)
    的頭像 發(fā)表于 01-06 09:40 ?530次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列開源 AI 模型與工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型輔助駕駛汽車開發(fā)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實(shí)
    的頭像 發(fā)表于 10-21 11:04 ?1461次閱讀

    【創(chuàng)意征集】鏡面顯示器一個(gè)打通“虛擬”與“現(xiàn)實(shí)”的家庭終端構(gòu)想【2025-10-18】

    2),負(fù)責(zé)用戶姿態(tài)捕捉 算力層:采用NVIDIA Jetson Orin平臺,處理實(shí)時(shí)計(jì)算機(jī)視覺算法,還有其他好的方法嗎? 顯示驅(qū)動:需要定制Micro LED顯示驅(qū)動方案,確保低延遲渲染 核心
    發(fā)表于 10-15 20:53

    NVIDIA 利用全新開源模型與仿真庫加速機(jī)器人研發(fā)進(jìn)程

    科研人員及開發(fā)者打造功能更強(qiáng)大、適應(yīng)性更強(qiáng)的機(jī)器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎(chǔ)模型將為機(jī)器人賦予接近人類的推理能力,使其能夠拆解復(fù)雜指令,并借助已有知識與常識執(zhí)行任務(wù)
    的頭像 發(fā)表于 09-30 09:52 ?3230次閱讀
    <b class='flag-5'>NVIDIA</b> 利用全新開源模型與仿真庫<b class='flag-5'>加速</b>機(jī)器人研發(fā)進(jìn)程

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì)為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1517次閱讀

    ADI借助NVIDIA Jetson Thor平臺加速人形機(jī)器人研發(fā)進(jìn)程

    當(dāng)前,人形機(jī)器人正逐步邁向?qū)嶋H應(yīng)用部署階段,其落地節(jié)奏取決于物理智能與實(shí)時(shí)推理能力的發(fā)展。隨著NVIDIA Jetson Thor平臺的正式面市,Analog Devices, Inc. (ADI)將進(jìn)一步加速人形機(jī)器人與自主移
    的頭像 發(fā)表于 08-29 14:07 ?3526次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2046次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA三臺計(jì)算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機(jī)器人到機(jī)器人工廠等基于物理 AI 的系統(tǒng)的開發(fā),貫穿訓(xùn)練、仿真和
    的頭像 發(fā)表于 08-27 11:48 ?2646次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開放權(quán)重模型并實(shí)現(xiàn)了推理性能加速,在
    的頭像 發(fā)表于 08-15 20:34 ?2541次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬TPS<b class='flag-5'>推理</b>

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和 NVIDIA
    的頭像 發(fā)表于 07-16 09:16 ?2218次閱讀

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開源庫,可幫助開發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2472次閱讀

    大模型推理顯存和計(jì)算量估計(jì)方法研究

    上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的估計(jì)方法具有較高的準(zhǔn)確性和實(shí)用性。 五、結(jié)論 本文針對大模型推理的顯存和計(jì)算量估計(jì)問題,提出了基于模型結(jié)構(gòu)和硬件加速的估計(jì)方法。實(shí)驗(yàn)結(jié)果表明,這些方法具有較高的準(zhǔn)確性和實(shí)用性
    發(fā)表于 07-03 19:43

    全球各大品牌利用NVIDIA AI技術(shù)提升運(yùn)營效率

    歐萊雅、LVMH 集團(tuán)和雀巢利用 NVIDIA 加速的智能體 AI 和物理 AI,大幅提升產(chǎn)品設(shè)計(jì)、營銷及物流等方面的運(yùn)營效率。
    的頭像 發(fā)表于 06-19 14:36 ?1378次閱讀
    巴彦县| 五峰| 曲麻莱县| 淮阳县| 房产| 乃东县| 布尔津县| 潜江市| 汪清县| 台前县| 八宿县| 米脂县| 汾西县| 华安县| 合肥市| 浙江省| 新巴尔虎右旗| 大冶市| 两当县| 维西| 司法| 来凤县| 辽宁省| 闸北区| 和硕县| 古田县| 江源县| 开远市| 台安县| 祁阳县| 长武县| 邢台县| 鄱阳县| 扶余县| 潍坊市| 泗水县| 东乡县| 沁水县| 康马县| 南华县| 宝山区|