日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA Triton推理服務(wù)器加速語(yǔ)音識(shí)別的速度

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-05-13 10:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

網(wǎng)易互娛 AI Lab 的研發(fā)人員,基于 Wenet 語(yǔ)音識(shí)別工具進(jìn)行優(yōu)化和創(chuàng)新,利用 NVIDIA Triton 推理服務(wù)器的 GPU Batch Inference 機(jī)制加速了語(yǔ)音識(shí)別的速度,并且降低了成本。

2001 年正式成立的網(wǎng)易游戲·互動(dòng)娛樂(lè)事業(yè)群在經(jīng)歷了近 20 年的發(fā)展歷程后,以“創(chuàng)新無(wú)邊界,匠心造精品”為文化基石,創(chuàng)造了一系列大家耳熟能詳?shù)拇碜髌?,如?mèng)幻西游系列、大話西游系列、《陰陽(yáng)師》、《第五人格》、《荒野行動(dòng)》、《率土之濱》、《哈利波特:魔法覺(jué)醒》等。在 data.ai 公布的 2021 全球發(fā)行商 52 強(qiáng)榜單中,網(wǎng)易排名第二。

語(yǔ)音識(shí)別 AI 算法服務(wù)目前已經(jīng)成為各個(gè)領(lǐng)域不可或缺的基礎(chǔ)算法服務(wù)。網(wǎng)易互娛 AI Lab 為所有互娛游戲的玩家,CC 直播平臺(tái)用戶等提供完善的語(yǔ)音識(shí)別服務(wù)。語(yǔ)音識(shí)別服務(wù)每天都有大量的調(diào)用量,AI 推理的計(jì)算量繁重。

在網(wǎng)易游戲中,語(yǔ)音識(shí)別是一個(gè)調(diào)用量龐大的基礎(chǔ)算法服務(wù),如果在語(yǔ)音識(shí)別算法服務(wù)這里出現(xiàn)時(shí)耗或吞吐瓶頸的話,會(huì)因?yàn)檎Z(yǔ)音內(nèi)容識(shí)別過(guò)慢,使得用戶使用體驗(yàn)大幅下降。

服務(wù)是基于開(kāi)源框架 Wenet 優(yōu)化開(kāi)發(fā),但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且熱詞和語(yǔ)言模型部分均采用了 Openfst,速度較慢,也不太方便使用。經(jīng)過(guò)測(cè)試 CPU Float32 模式下解碼,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時(shí)還需要有拼接 Batch 的機(jī)制,batch inference 雖然在使用 CPU 做推理時(shí)沒(méi)有太大的提升,但是能大大提升 GPU 的利用率。

基于以上的挑戰(zhàn),網(wǎng)易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開(kāi)源的 Triton 部署方案來(lái)改進(jìn)優(yōu)化后進(jìn)行 GPU 部署,使得語(yǔ)音識(shí)別速度提高,大幅降低時(shí)延和運(yùn)營(yíng)成本。

由于 Wenet 開(kāi)源框架下的 Triton 推理服務(wù)器并沒(méi)有考慮音頻解碼,顯存溢出等問(wèn)題,所以需要有個(gè)前端邏輯做音頻解碼處理和音頻分段處理。并且因?yàn)?Triton 推理服務(wù)器組 batch 的機(jī)制是相同音頻長(zhǎng)度才會(huì)自動(dòng)組成 batch 做推理,所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。

68afeb16-d1df-11ec-bce3-dac502259ad0.jpg

其中前端處理流程如圖所示:

68d173e4-d1df-11ec-bce3-dac502259ad0.jpg

NVIDIA Triton 推理服務(wù)器處理流程:

6911f87e-d1df-11ec-bce3-dac502259ad0.jpg

(圖片來(lái)源于網(wǎng)易互娛授權(quán))

其中 Triton 推理服務(wù)器中解碼器部分是基于 Wenet 的熱詞方案而自研實(shí)現(xiàn)的熱詞解碼器方案。

QPS,RTF 在 5 秒音頻下,CPU 設(shè)備和 GPU 設(shè)備對(duì)比,CPU 為 36 核機(jī)器, GPU 為單卡 T4:

692de6e2-d1df-11ec-bce3-dac502259ad0.jpg

(圖片來(lái)源于網(wǎng)易互娛授權(quán))

由表格可知,對(duì)比 CPU-FP32 與 GPU-FP16,單卡 T4 的推理能力基本相當(dāng)于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機(jī)器的 4 倍。并且實(shí)驗(yàn)測(cè)試可以得知 FP16 與 FP32 的 WER 基本無(wú)損。

自研熱詞解碼器的方法結(jié)果展示:

694de352-d1df-11ec-bce3-dac502259ad0.png

6967e824-d1df-11ec-bce3-dac502259ad0.png

(圖片來(lái)源于網(wǎng)易互娛授權(quán))

這里 GPU 的效果采用自研的熱詞增強(qiáng)的方法,識(shí)別率在熱詞這塊能有絕對(duì) 0.8% 的性能提升,而 Wenet 開(kāi)源的方法大概是 0.5%。并且自研熱詞實(shí)例的構(gòu)建耗時(shí)基本可以忽略不計(jì)。

整體來(lái)看 GPU 的方案在識(shí)別率基本無(wú)損的情況下,單卡 T4 比 36 核 CPU 機(jī)器提高近 4 倍的 QPS,單個(gè)音頻 RTF 測(cè)試下,包含音頻解碼等損耗情況下也能提高近 3 倍,并且也能夠支持熱詞增強(qiáng)功能,讓機(jī)器成本和識(shí)別速度都得到了很好的優(yōu)化。

網(wǎng)易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示:“目前該方案已在網(wǎng)易互娛 AI Lab 語(yǔ)音識(shí)別服務(wù)落地,大大的降低了識(shí)別時(shí)延和機(jī)器成本。后續(xù),我們還將與英偉達(dá)一起研究將熱詞增強(qiáng)的方法在 GPU 中實(shí)現(xiàn),探索的極致的語(yǔ)音識(shí)別推理性能?!?/p>

原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語(yǔ)音識(shí)別效率及成本

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5696

    瀏覽量

    110142
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41325

    瀏覽量

    302703
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1825

    瀏覽量

    116255

原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語(yǔ)音識(shí)別效率及成本

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    服務(wù)器發(fā)展趨勢(shì):迎接數(shù)字時(shí)代新變革

    的迅猛發(fā)展對(duì)服務(wù)器性能提出了更高要求。AI訓(xùn)練和推理任務(wù)需要強(qiáng)大的并行計(jì)算能力,傳統(tǒng)CPU架構(gòu)已難以滿足。因此,搭載GPU、TPU、FPGA等專用加速芯片的AI服務(wù)器成為
    的頭像 發(fā)表于 03-19 16:58 ?270次閱讀
    <b class='flag-5'>服務(wù)器</b>發(fā)展趨勢(shì):迎接數(shù)字時(shí)代新變革

    Supermicro率先發(fā)布NVIDIA BlueField-4 STX存儲(chǔ)服務(wù)器,提升AI推理性能

    ? Supermicro憑借其基于NVIDIA STX AI存儲(chǔ)參考架構(gòu)打造的上下文內(nèi)存(CMX)存儲(chǔ)服務(wù)器,進(jìn)一步彰顯其行業(yè)領(lǐng)先地位。 BlueField-4 STX存儲(chǔ)服務(wù)器結(jié)合了NVID
    的頭像 發(fā)表于 03-19 15:46 ?191次閱讀
    Supermicro率先發(fā)布<b class='flag-5'>NVIDIA</b> BlueField-4 STX存儲(chǔ)<b class='flag-5'>服務(wù)器</b>,提升AI<b class='flag-5'>推理</b>性能

    國(guó)產(chǎn)AI服務(wù)器核心工藝突破,高密度貼片良率創(chuàng)新高

    信號(hào)完整性與熱管理方案的同步驗(yàn)證。業(yè)界領(lǐng)先的貼片打樣服務(wù)已形成從設(shè)計(jì)協(xié)同到多維測(cè)試的全流程支撐體系,為AI算力設(shè)備的快速迭代提供制造側(cè)加速度。 核心挑戰(zhàn)在于超高密度互連與異構(gòu)集成。當(dāng)前主流AI服務(wù)器主板普遍采用20層以上PCB設(shè)
    的頭像 發(fā)表于 02-04 20:37 ?325次閱讀
    國(guó)產(chǎn)AI<b class='flag-5'>服務(wù)器</b>核心工藝突破,高密度貼片良率創(chuàng)新高

    如何在NVIDIA Jetson AGX Thor上通過(guò)Docker高效部署vLLM推理服務(wù)

    繼系統(tǒng)安裝與環(huán)境配置后,本期我們將繼續(xù)帶大家深入 NVIDIA Jetson AGX Thor 的開(kāi)發(fā)教程之旅,了解如何在 Jetson AGX Thor 上,通過(guò) Docker 高效部署 vLLM 推理服務(wù)。
    的頭像 發(fā)表于 11-13 14:08 ?4463次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson AGX Thor上通過(guò)Docker高效部署vLLM<b class='flag-5'>推理</b><b class='flag-5'>服務(wù)</b>

    什么是離線語(yǔ)音識(shí)別芯片(離線語(yǔ)音識(shí)別芯片有哪些優(yōu)點(diǎn))

    離線語(yǔ)音識(shí)別芯片,是一種集成了語(yǔ)音信號(hào)采集、前端處理和本地識(shí)別功能的專用集成電路,無(wú)須聯(lián)網(wǎng)也可以進(jìn)行語(yǔ)音控制。它內(nèi)設(shè)先進(jìn)的數(shù)字信號(hào)處理模塊及
    的頭像 發(fā)表于 10-31 15:27 ?702次閱讀

    新加坡服務(wù)器的網(wǎng)絡(luò)速度和延遲表現(xiàn)如何?

    速度:全球領(lǐng)先的“速度之城” 新加坡?lián)碛衼喼弈酥寥蝽敿?jí)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施。 高帶寬與國(guó)際出口: 新加坡是眾多國(guó)際海底光纜的核心樞紐,連接著亞洲、美洲、歐洲和澳大利亞。這意味著它擁有海量的國(guó)際出口帶寬,能為服務(wù)器
    的頭像 發(fā)表于 10-17 17:03 ?1534次閱讀

    加速是如何隱藏源服務(wù)器ip的

    服務(wù)器IP是保護(hù)服務(wù)器的一項(xiàng)重要安全措施。 華納云 為大家分享受一下內(nèi)容: 隱藏源服務(wù)器IP的主要目的是防止惡意攻擊者通過(guò)直接訪問(wèn)服務(wù)器IP地址來(lái)發(fā)動(dòng)攻擊,同時(shí)提高
    的頭像 發(fā)表于 09-12 16:31 ?823次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?2043次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理</b>模型發(fā)布

    NVIDIA三臺(tái)計(jì)算機(jī)解決方案如何協(xié)同助力機(jī)器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機(jī)器人到機(jī)器人工廠等基于
    的頭像 發(fā)表于 08-27 11:48 ?2644次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—服務(wù)器硬盤狀態(tài)燈變紅色,分區(qū)數(shù)據(jù)恢復(fù)案例

    某公司服務(wù)器上有一組由3個(gè)硬盤組建的raid5磁盤陣列。 服務(wù)器上1塊硬盤的狀態(tài)燈變?yōu)榧t色,磁盤陣列出現(xiàn)故障,分區(qū)無(wú)法識(shí)別。
    的頭像 發(fā)表于 08-12 12:05 ?669次閱讀
    <b class='flag-5'>服務(wù)器</b>數(shù)據(jù)恢復(fù)—<b class='flag-5'>服務(wù)器</b>硬盤狀態(tài)燈變紅色,分區(qū)數(shù)據(jù)恢復(fù)案例

    如何在魔搭社區(qū)使用TensorRT-LLM加速優(yōu)化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優(yōu)化的開(kāi)源庫(kù),可幫助開(kāi)發(fā)者快速利用最新 LLM 完成應(yīng)用原型驗(yàn)證與產(chǎn)品部署。
    的頭像 發(fā)表于 07-04 14:38 ?2468次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度
    的頭像 發(fā)表于 06-12 15:37 ?2107次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    通過(guò)網(wǎng)絡(luò)連接云端服務(wù)器進(jìn)行快速檢索和分析,然后利用語(yǔ)音合成技術(shù)將答案以自然流暢的語(yǔ)音反饋給用戶。同時(shí),借助開(kāi)發(fā)板的網(wǎng)絡(luò)連接功能,語(yǔ)音機(jī)器人還可以與后臺(tái)管理系統(tǒng)進(jìn)行數(shù)據(jù)交互,實(shí)時(shí)更新知識(shí)
    發(fā)表于 05-28 11:36

    基于RAKsmart云服務(wù)器的AI大模型實(shí)時(shí)推理方案設(shè)計(jì)

    面對(duì)高并發(fā)請(qǐng)求、嚴(yán)格的響應(yīng)延遲要求及波動(dòng)的業(yè)務(wù)負(fù)載,傳統(tǒng)本地化部署的算力瓶頸愈發(fā)顯著。RAKsmart云服務(wù)器憑借其彈性計(jì)算資源池、分布式網(wǎng)絡(luò)架構(gòu)與全棧AI加速能力,為AI大模型實(shí)時(shí)推理提供了從硬件到軟件層的系統(tǒng)性解決方案。
    的頭像 發(fā)表于 05-13 10:33 ?730次閱讀

    如何選擇 邊緣計(jì)算服務(wù)器

    邊緣計(jì)算服務(wù)器選型指南(2025年更新版) 一、明確應(yīng)用場(chǎng)景需求 場(chǎng)景細(xì)分? 工業(yè)控制、自動(dòng)駕駛等需?毫秒級(jí)響應(yīng)?的場(chǎng)景,優(yōu)先選擇集成多核處理(如Xeon D系列)和實(shí)時(shí)算法加速模塊的機(jī)型,確保
    的頭像 發(fā)表于 05-06 07:58 ?956次閱讀
    如何選擇 邊緣計(jì)算<b class='flag-5'>服務(wù)器</b>
    南通市| 金山区| 元氏县| 安仁县| 佛冈县| 青浦区| 清水河县| 隆回县| 神池县| 两当县| 深泽县| 宁夏| 文安县| 津市市| 棋牌| 大兴区| 东兴市| 克东县| 岳阳市| 左贡县| 扶余县| 安徽省| 禄劝| 积石山| 桓仁| 澄江县| 北安市| 阿瓦提县| 辉南县| 宜城市| 白水县| 长乐市| 阳春市| 合肥市| 贵阳市| 格尔木市| 英吉沙县| 韩城市| 汶上县| 永川市| 都安|