NVIDIA 在 Riva 中發(fā)布了西班牙語、德語和俄語的世界級語音到文本模型,為企業(yè)在全球部署語音 AI 應用提供了動力。此外,企業(yè)現在可以使用 Riva 的可定制文本到語音管道創(chuàng)建富有表現力的語音界面。
NVIDIA Riva 是一款 GPU 加速語音 AI SDK ,用于開發(fā)實時應用程序,如實時字幕、向基于文本的聊天機器人添加語音,以及在呼叫中心生成實時轉錄。為了便于實施, Riva 在 NGC 目錄中提供了高度精確的預訓練模型。
和 TAO 工具包 ,這些模型可以為任何行業(yè)定制,包括電信、金融、統一通信即服務和醫(yī)療保健。開發(fā)者可以使用 Riva 開箱即用地部署這些模型。它們經過優(yōu)化,可以在云、數據中心和邊緣在不到 300 毫秒的時間內實時運行。
Riva 發(fā)布亮點包括
西班牙語、德語和俄語的世界級語音識別技能。
可定制的文本到語音管道,用于表達性互動。
TAO 工具包的低代碼微調工作流。
多種語言的自動語音識別
從呼叫中心到虛擬助手,每一個對話人工智能應用程序都嚴重依賴于自動語音識別。企業(yè)可以通過 Riva 英語、西班牙語、德語和俄語的自動語音識別在全球范圍內擴展這些應用程序。


圖 1:NVIDIA Riva 世界級的自動語音識別系統有英語、西班牙語、德語和俄語版本。
非英語自動語音識別模型是在各種開源數據集(如 Mozilla Common Voice )以及私有數據集上訓練的。 Riva 開發(fā)自動語音識別模型是為了提供開箱即用的準確度,并作為適應行業(yè)、行話、方言甚至嘈雜環(huán)境的良好起點。在流行的評估數據集上,這些模型在多個行業(yè)應用中提供了世界級的準確性。
可定制的文本到語音管道
為了讓客戶享受逼真的對話,語音應用程序必須提供類似人類的表情。使用 FASTROPE ,NVIDIA 語音 AI 研究小組創(chuàng)建的新模型 Riva 幫助開發(fā)者定制文本到語音管道并創(chuàng)建表達性語音接口。例如,在推理過程中,開發(fā)人員可以使用 SSML 標簽改變語音音調和速度。


圖 2:NVIDIA Riva 提供了可定制的文本到語音管道,用于更具表現力的交互。
最新的最先進的模型,比如里瓦的 Fastpitch ,幫助文本到語音管道的運行速度比市場上其他競爭對手快幾倍。
關于作者
About Gordana Neskovic
Gordana Neskovic 是AI/DL產品營銷團隊的成員,負責 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor擔任過各種產品營銷、數據科學家、AI架構師和工程職位。她擁有博士學位。圣塔 Clara 大學,塞爾維亞貝爾格萊德大學電氣工程碩士和學士學位。
About Sirisha Rella
Sirisha Rella 是 NVIDIA 的技術產品營銷經理,專注于計算機視覺、語音和基于語言的深度學習應用。 Sirisha 獲得了密蘇里大學堪薩斯城分校的計算機科學碩士學位,是國家科學基金會大學習中心的研究生助理。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5696瀏覽量
110142 -
AI
+關注
關注
91文章
41326瀏覽量
302707
發(fā)布評論請先 登錄
使用Python/MyHDL創(chuàng)建自定義FPGA IP
MCUXpresso SDK創(chuàng)建自定義清單
極海APM32F427如何實現自定義USB HID設備與PC進行通信
如何為 Vision Five 2 編譯自定義 Linux 內核?
電能質量監(jiān)測裝置可自定義監(jiān)測時段嗎?
無圖形界面模式下自定義檢查工具的應用
采用匯編指示符來使用自定義指令
零代碼實現茶吧機自定義語音控制定制
如何使用SDK進行自定義音頻播放功能
LOTO示波器自定義解碼功能—CANFD解碼
KiCad 中的自定義規(guī)則(KiCon 演講)
HarmonyOS應用自定義鍵盤解決方案
Skydel25.4發(fā)布:解鎖自定義星座,增強C波段與干擾模擬能力
使用Riva自定義文本創(chuàng)建語音界面
評論