日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

關于語音合成的類別以及應用分析

訊飛開放平臺 ? 來源:djl ? 作者:汪艦 ? 2019-10-08 08:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音合成又叫文語轉(zhuǎn)換,是將文本轉(zhuǎn)換成語音的一種技術,是人機交互中必不可少的一個環(huán)節(jié)。隨著技術的發(fā)展,現(xiàn)在合成語音的自然度和音質(zhì)都得到了明顯的改善。汽車導航內(nèi)嵌的語音系統(tǒng)、智能手機語音助手、讀書軟件等等,這些應用的實現(xiàn)都離不開語音合成。時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。

不過,當前語音合成技術還有很多痛點急需要解決,讓機器擁有自然、有情感的聲音,依舊是語音合成技術最大的難點。語音合成的現(xiàn)狀是怎樣?一個優(yōu)質(zhì)合成音是怎樣誕生的?AI浪潮下,你可以如何玩轉(zhuǎn)語音合成?AI公開課第一期,我們?yōu)槟阏埖娇拼笥嶏w云平臺技術服務專家——汪艦為你解答這些問題。

什么是語音合成

語音合成也叫文語轉(zhuǎn)換(Text-To-Speech),簡稱TTS,簡單理解就是“讓機器說人話”。

語音合成用在哪里

別看語音合成技術近年來才被廣泛應用,實際它已經(jīng)有兩百多年的歷史了。

那么語音合成都在我們生活中的哪些地方出現(xiàn)過呢?我總結(jié)了三個方面:

第一個是APP,比如QQ閱讀這樣的讀書應用,滴滴出行高德導航這種導航播報類的app;還有以siri為代表的語音助手,都是語音合成功能的常見載體;

另外一類是智能硬件產(chǎn)品,比如非?;鸬臋C器人領域,我們都希望機器人可以像真人一樣和我們進行交流,所以合成功能基本就是他們的必備能力。

還有一些特殊領域也非常需要語音合成,比如視障閱讀,對于視障人士來說,聽書比摸書要高效得多。

語音合成里的技術門派

將語音合成技術門派按武俠風格可以劃分為:氣宗和劍宗。想當年氣宗草創(chuàng)之初,創(chuàng)始人的想法很簡單,人怎么發(fā)聲的我就讓機器怎么發(fā)聲,基本就是山寨人體的思路。

但是有撥人認為,氣宗這么搞沒有前途,而且成效太慢,可操作性太差了,這撥人就是劍宗。劍宗表示,我們完全可以直接找人把語音里面所有的基礎片段都錄好,然后按照需要直接拼就行了。

技術門派之氣宗

先來看看氣宗具體是怎么玩的:他們用氣囊代替肺,接根管子代替氣管,管子末端再裝個氣門代替聲帶,氣門后面再裝個橡膠做的碗狀結(jié)構(gòu)來模擬口腔。

這套系統(tǒng)的操作非常簡單,一只手掐住脖子就是氣門,控制基頻高低;另一只手操作口腔就是那個橡膠碗,控制發(fā)什么音;剩下的那個用來模擬肺的氣囊就只能用腳來踩了。

基頻又是什么呢? 讓我們舉個簡單的例子,漢語普通話除輕聲以外有四種聲調(diào),2聲的基頻就是前低后高,4聲的前高后低,3聲是先高后低再高。掐氣門的手捏得越緊,聲道越窄,振動的基頻就越高。不過這當個發(fā)明愛好還可以,實際用起來肯定不靠譜。但是隨著科學的發(fā)展,計算機技術開始出現(xiàn),逐漸普及,給很多領域都帶來了全新的變化,語音合成當然也不例外。

技術門派之劍宗

劍宗表示,我們完全可以直接找人把語音里面所有的基礎片段都錄好,按照需要直接拼就行了。這個基礎片段可長可短,可以是音素,可以是音節(jié),甚至是聲韻母的拼音。這種方法對人的要求就簡單多了,基本上會拼圖就能操作,所以也比較速成。

但是在沒有計算機的時代,大量單元的管理和拼接是很麻煩的工作,所以每個基礎單元一般只保存了較少的樣例供選擇。那么在合成千變?nèi)f化的句子的時候,語音的起承轉(zhuǎn)合難免就有些生硬和突兀,拼出來的語音雖然能讓人聽懂,但很難做到自然流暢。

計算機出現(xiàn)后這個問題得到有效的解決,有了計算和存儲能力更大的計算機,他們就可以進行超大規(guī)模音庫的制作,包括語料設計、音庫錄制、精細切分、韻律標注;同時進行規(guī)則統(tǒng)計,以此來針對不同發(fā)音人進行細致調(diào)整。這樣合成出來的音頻音質(zhì)比較好,一般句子的自然度也不錯。

所以在此后很長一段時間,劍宗對氣宗在合成音的音質(zhì)上占據(jù)了絕對優(yōu)勢,氣宗只在嵌入式的小系統(tǒng)上保留著一小塊領地。這種狀況直到后來氣宗成功引入了在語音識別領域大放異彩的HMM(隱馬爾科夫模型)才得到根本改善。

語音合成技術痛點是什么

從合成的發(fā)展歷史來看,表現(xiàn)力、音質(zhì)、復雜度和自然度一直是合成技術所追求的四點。其中隨著技術的演進,復雜度、自然度、音質(zhì)三個方面都已經(jīng)取得了非常不錯的成績。目前各大技術提供商更多的是在研究如何提高合成音的表現(xiàn)力,特別是語氣和情感方面。

一條音頻是如何合成出來的

這里其實包括了兩個過程,一個是語音庫的制作過程,一個是使用語音庫將文本變成音頻的過程。語音庫的制作首先需要收集客戶的需求,確定音色、風格、使用領域、產(chǎn)品特性、角色要求;然后找到配音員試音,根據(jù)需求設計試音文本,收集錄音,通過實驗分析確定發(fā)音人是否合適做音庫;然后和客戶確認實驗效果是否能接受;最后投入音庫生產(chǎn)線,錄音腳本設計、錄音資源訓練、效果優(yōu)化。

然后看一下真正的合成過程:輸入文本后首先需要按照詞典規(guī)則對文本進行語言處理,主要模擬人對自然語言的理解過程,包括文本規(guī)整、詞的切分、語法語義分析,使計算機對輸入的文本能完全理解,并給出后續(xù)步驟所需要的各種發(fā)音提示。然后是韻律處理,就是為合成語音規(guī)劃出音段特征,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。最后根據(jù)前兩部分處理結(jié)果的要求輸出語音,即合成語音。

語音合成優(yōu)秀案例解析

QQ閱讀演示視頻

小程序:AI隨身聽 演示視頻

訊飛開放平臺的語音合成技術

訊飛開放平臺目前以SDK的形式提供語音合成能力

目前提供支持8個平臺的合成SDK,免費開放36個在線發(fā)音人,還有15個離線發(fā)音人可供購買使用,其中發(fā)音人xiaoyuan更是支持中英文混合合成。支持各種語言方言13種。另外對于有特殊要求的產(chǎn)品,我們還提供特色發(fā)音人的定制服務,例如很多小伙伴比較熟悉的高德地圖林志玲的聲音,還有之前PPT出現(xiàn)龍泉寺賢二的發(fā)音人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機
    +關注

    關注

    19

    文章

    7843

    瀏覽量

    93500
  • 語音合成
    +關注

    關注

    2

    文章

    94

    瀏覽量

    16841
  • 大數(shù)據(jù)

    關注

    64

    文章

    9101

    瀏覽量

    144106
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    ADF4350寬帶合成器:高性能頻率合成的理想之選

    ADF4350寬帶合成器:高性能頻率合成的理想之選 引言 在電子設計領域,頻率合成器是至關重要的組件,它廣泛應用于無線通信、測試設備等眾多領域。ADF4350作為一款高性能的寬帶合成
    的頭像 發(fā)表于 04-20 14:05 ?197次閱讀

    AD9953:高性能直接數(shù)字合成器的探秘與應用

    Analog Devices推出,它集成了先進的技術,為工程師們提供了強大的頻率合成解決方案。本文將深入探討AD9953的特性、工作原理、應用模式以及編程要點,幫助工程師們更好地理解和應用這款芯片。 文件下載: AD9953.pdf 一、AD9953的特性亮點 1. 高速
    的頭像 發(fā)表于 04-16 10:10 ?138次閱讀

    聲智科技語音交互插件上線ClawHub

    核心突破:填補生態(tài)空白近日,聲智科技自主研發(fā)的語音交互插件,包含ASR(自動語音識別)與TTS(語音合成)正式通過ClawHub官方審核并接入服務;與此同時,聲智自研的LLM(大語言模
    的頭像 發(fā)表于 04-08 17:55 ?1196次閱讀

    TTS語音合成芯片怎么選?2026年主流方案橫向?qū)Ρ?/a>

    跑軟件合成……到底該怎么選?這篇文章從實際工程角度出發(fā),梳理2025年主流TTS語音合成芯片方案,給出橫向?qū)Ρ群瓦x型建議。先搞清楚你要解決的是哪類問題語音輸出需求大致分兩種:第一種:
    的頭像 發(fā)表于 03-26 15:21 ?739次閱讀
    TTS<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片怎么選?2026年主流方案橫向?qū)Ρ? />    </a>
</div>                              <div   id=

    4路TTS語音播報控制器:聯(lián)動控制,音頻定時播放

    4路TTS語音播報控制器是一種能夠?qū)⑽谋拘畔⑥D(zhuǎn)換為語音并進行播報的電子設備,具備4路相關控制功能。 通過語音合成技術,將輸入的文字自動合成
    的頭像 發(fā)表于 10-31 15:44 ?622次閱讀

    語音報警器:TTS語音播報,云平臺邏輯自控

    TTS語音播報報警器是一種集成了傳統(tǒng)報警器和TTS(文本轉(zhuǎn)語音)技術的智能設備。清晰、準確地用人類語言播報報警原因、位置、狀態(tài)等具體信息。 工作原理 文本語音:輸入文字自動合成語音,支
    的頭像 發(fā)表于 10-29 16:31 ?1020次閱讀

    基于開源鴻蒙的語音識別及語音合成應用開發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應用開發(fā)的流程。
    的頭像 發(fā)表于 08-25 14:26 ?4484次閱讀
    基于開源鴻蒙的<b class='flag-5'>語音</b>識別及<b class='flag-5'>語音</b><b class='flag-5'>合成</b>應用開發(fā)樣例

    TTS文字合成語音芯片的使用場景

    TTS文字合成語音播報芯片的使用場景非常廣泛,可以適用于各行各業(yè),主要應用于復雜的語音播報場景,下面小編帶大家一起來了解一下。 傳統(tǒng)的語音播報芯片,主要是先把語音存入FLASH當中,然
    的頭像 發(fā)表于 08-22 17:11 ?1181次閱讀

    開源TTS應用:打破技術壟斷,讓語音合成成為每個人的創(chuàng)造力工具

    傳統(tǒng)語音合成技術往往被巨頭壟斷,成本高且定制難。開源TTS應用的誕生,徹底改變游戲規(guī)則。其開放源代碼讓中小企業(yè)、個人開發(fā)者乃至普通用戶都能低成本接入并改造語音技術,將TTS變?yōu)橛|手可及的創(chuàng)造力工具
    的頭像 發(fā)表于 08-15 14:03 ?750次閱讀
    開源TTS應用:打破技術壟斷,讓<b class='flag-5'>語音</b><b class='flag-5'>合成</b>成為每個人的創(chuàng)造力工具

    一顆TTS語音芯給產(chǎn)品增加智能語音播報能力

    一顆TTS語音芯片給產(chǎn)品增加智能語音播報能力 傳統(tǒng)語音播報芯片可以設置一些固定的語音片段或者內(nèi)容,但是對于現(xiàn)在各種創(chuàng)新產(chǎn)品層出不窮的時代,傳統(tǒng)的語音
    的頭像 發(fā)表于 08-14 16:33 ?908次閱讀

    語音輸出模塊是什么?自控語音播報

    :接收來自云平臺(如單片機/PLC/電腦)的指令,輸入可能是:文本數(shù)據(jù)(例如:"溫度過高")、預存語音編碼(如MP3/WAV文件的數(shù)字信號)、控制指令(觸發(fā)預置語音片段) 2.語音合成
    的頭像 發(fā)表于 08-13 15:20 ?1203次閱讀

    從開發(fā)工程師視角看TTS語音合成芯片

    從開發(fā)工程師視角看TTS語音合成芯片 在語音交互領域,TTS 語音合成芯片作為關鍵角色,正不斷革新著人機對話的體驗。從開發(fā)工程師角度深入剖析
    的頭像 發(fā)表于 08-13 14:52 ?977次閱讀

    Air8000 TTS開源,語音合成從此“零距離”!

    技術不應有圍墻,創(chuàng)新需要共生長。Air8000宣布TTS應用源代碼全面開放,開發(fā)者可自由定制語音風格、優(yōu)化合成效果,讓文字與聲音的對話,不再受限于黑箱算法。 TTS (Text-to-Speech
    的頭像 發(fā)表于 07-03 16:33 ?749次閱讀
    Air8000 TTS開源,<b class='flag-5'>語音</b><b class='flag-5'>合成</b>從此“零距離”!

    明遠智睿SSD2351開發(fā)板:語音機器人領域的變革力量

    的四核1.4GHz處理器具備強勁的運算性能,能夠高效處理語音機器人運行過程中的復雜任務。語音識別和合成需要大量的計算資源,該處理器可以快速對語音信號進行
    發(fā)表于 05-28 11:36

    AI神經(jīng)網(wǎng)絡降噪算法在語音通話產(chǎn)品中的應用優(yōu)勢與前景分析

    語音保真度以及更低的延遲,能夠有效應對復雜噪聲場景。本文將探討AI神經(jīng)網(wǎng)絡降噪在語音通話產(chǎn)品中的核心優(yōu)勢,并分析其未來發(fā)展趨勢和市場前景
    的頭像 發(fā)表于 05-16 17:07 ?2012次閱讀
    AI神經(jīng)網(wǎng)絡降噪算法在<b class='flag-5'>語音</b>通話產(chǎn)品中的應用優(yōu)勢與前景<b class='flag-5'>分析</b>
    宁南县| 文登市| 松潘县| 韩城市| 边坝县| 朝阳区| 左云县| 镇江市| 革吉县| 金阳县| 若羌县| 大安市| 大余县| 庄浪县| 错那县| 温泉县| 眉山市| 邵阳县| 白水县| 泾川县| 汶上县| 荆门市| 岳西县| 轮台县| 揭东县| 石门县| 陆良县| 河北省| 平邑县| 嘉义县| 图木舒克市| 禹州市| 什邡市| 张家港市| 洛阳市| 陵川县| 井研县| 微博| 三穗县| 台北县| 平武县|