日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中國(guó)智能語(yǔ)音服務(wù)產(chǎn)業(yè),最快沖過(guò)終點(diǎn)的將是誰(shuí)呢?

DPVg_AI_era ? 來(lái)源:lq ? 2019-01-11 09:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里云升級(jí)實(shí)時(shí)在線中文語(yǔ)音合成服務(wù),結(jié)合傳統(tǒng)語(yǔ)音合成技術(shù)與深度學(xué)習(xí)端到端系統(tǒng)各自的優(yōu)勢(shì),顯著提升語(yǔ)音合成穩(wěn)定性及表現(xiàn)力。新智元專(zhuān)訪達(dá)摩院語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰及高級(jí)算法專(zhuān)家雷鳴,深度解讀核心技術(shù)。鄢志杰認(rèn)為,智能語(yǔ)音正處于爆發(fā)前夜,2019年語(yǔ)音AI將在特定領(lǐng)域通過(guò)圖靈測(cè)試。

鄢志杰,達(dá)摩院語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人,中國(guó)科學(xué)技術(shù)大學(xué)博士,IEEE高級(jí)會(huì)員。長(zhǎng)期擔(dān)任語(yǔ)音領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議及期刊專(zhuān)家評(píng)審。研究領(lǐng)域包括語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋、語(yǔ)音交互等。曾任微軟亞洲研究院語(yǔ)音團(tuán)隊(duì)主管研究員。

開(kāi)始閱讀前,先來(lái)聽(tīng)聽(tīng)下面這段機(jī)器合成的語(yǔ)音:

當(dāng)聽(tīng)到稚嫩的童聲念完“雞蛋雞蛋……雞蛋~”的時(shí)候,阿里巴巴達(dá)摩院語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰還有坐在他一旁的高級(jí)算法專(zhuān)家雷鳴,都不約而同地激動(dòng)起來(lái),興奮之情溢于言表:

“這在當(dāng)年我們做學(xué)生研究TTS (Text-To-Speech, 文本到語(yǔ)音) 時(shí)是完全不可想象的,”鄢志杰和雷鳴感嘆道:“有點(diǎn)穿越,機(jī)器能夠發(fā)出這種聲音,這種韻律?!?/p>

讓機(jī)器發(fā)出這種聲音和韻律的,就是他們向新智元展示的 Knowledge-Aware Neural TTS (KAN-TTS),達(dá)摩院最新推出的語(yǔ)音合成技術(shù),現(xiàn)已通過(guò)阿里云提供在線的實(shí)時(shí)中文語(yǔ)音合成服務(wù)。

根據(jù)阿里內(nèi)部測(cè)評(píng)結(jié)果,即便只基于單個(gè)發(fā)音人 (single speaker) 的數(shù)據(jù),KAN-TTS 合成的語(yǔ)音都能達(dá)到與原始音頻錄音 (Recording) 95%以上的相似度;采用多發(fā)音人 (multi-speaker) 數(shù)據(jù)以及遷移學(xué)習(xí)技術(shù)后,特定發(fā)音人數(shù)據(jù)的自然度能獲得97%以上的相似度。

當(dāng)前業(yè)界商用語(yǔ)音合成系統(tǒng) (紅框標(biāo)識(shí)) 合成語(yǔ)音與錄音 (Recording) 相似度大約在85~%90%的水平。達(dá)摩院內(nèi)部評(píng)測(cè)結(jié)果顯示,KAN-TTS技術(shù)令合成語(yǔ)音自然度顯著提升。詳見(jiàn)后文“詳解達(dá)摩院KAN-TTS技術(shù)”。

橫向比較業(yè)界現(xiàn)有的各項(xiàng)中文語(yǔ)音合成服務(wù)的效果后,鄢志杰博士認(rèn)為,達(dá)摩院語(yǔ)音實(shí)驗(yàn)室這次交出了一份滿意的答卷。

“我們正處于智能語(yǔ)音技術(shù)又一次爆發(fā)的前夜,感覺(jué)就像是2010年前后那段時(shí)間,深度學(xué)習(xí)的出現(xiàn)讓 ASR (自動(dòng)語(yǔ)音識(shí)別) 準(zhǔn)確率提高了20%~30%,一下子把整個(gè) ASR 能力帶向產(chǎn)業(yè),”鄢志杰告訴新智元。

“現(xiàn)在,大家沿著這一條新的技術(shù)路線,不斷添磚加瓦,未來(lái)幾年會(huì)看到大量新方法的提出,相關(guān)的服務(wù)也會(huì)再進(jìn)一步。”

升級(jí)實(shí)時(shí)在線語(yǔ)音合成服務(wù):傳統(tǒng)語(yǔ)音合成+端到端完美融合

一直以來(lái),在機(jī)器學(xué)習(xí)領(lǐng)域存在一個(gè)爭(zhēng)論:

是不是可以完全摒棄領(lǐng)域知識(shí) (domain knowledge),只依靠強(qiáng)大的模型以及海量數(shù)據(jù),就能得到足夠好的模型?

“在近幾年流行的端到端 (End2End) 技術(shù)中,研究人員給出的答案似乎接近于‘是’。”達(dá)摩院語(yǔ)音實(shí)驗(yàn)室高級(jí)算法專(zhuān)家雷鳴告訴新智元。

雷鳴,達(dá)摩院語(yǔ)音實(shí)驗(yàn)室高級(jí)算法專(zhuān)家,中科大博士,目前負(fù)責(zé)語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音喚醒等前沿技術(shù)研發(fā)工作,在加入阿里巴巴之前,他曾任微軟STC語(yǔ)音科學(xué)家。

“但在語(yǔ)音合成領(lǐng)域,現(xiàn)在我們給出的答案是‘否’——只有依賴足夠多的領(lǐng)域知識(shí),加上強(qiáng)大的模型和海量的數(shù)據(jù),才能夠構(gòu)建足夠好的語(yǔ)音合成模型?!?/p>

近幾年,由深度學(xué)習(xí)推動(dòng)的 End2End 技術(shù)發(fā)展迅速。語(yǔ)音合成 (TTS) 領(lǐng)域,谷歌的 Tacotron、DeepMind 的 WaveNet,還有百度的 ClariNet,研究人員不斷提出更好、更快的端到端語(yǔ)音合成模型。

端到端 (End2End) 技術(shù)摒棄了傳統(tǒng)語(yǔ)音合成技術(shù)前端-后端多模型多模塊框架,采用統(tǒng)一的模型,試圖直接從輸入文本到輸出波形。理論上,這樣能模擬任何聲音 (排除了對(duì)聲波建模的固有損失),大幅減輕乃至去掉了對(duì)語(yǔ)音、語(yǔ)言學(xué)專(zhuān)業(yè)知識(shí)的依賴。

然而,現(xiàn)實(shí)情況是,盡管端到端TTS系統(tǒng)能夠得到相對(duì)流暢、表現(xiàn)力更好的合成語(yǔ)音,但由于需要大量計(jì)算力支持等原因,目前難以在移動(dòng)端實(shí)現(xiàn)。

此外,語(yǔ)音合成領(lǐng)域,訓(xùn)練數(shù)據(jù)的獲取需要較高的成本投入。除了流程繁瑣——從前期準(zhǔn)備、選擇發(fā)音人、找錄音場(chǎng)地、錄制到數(shù)據(jù)清洗和標(biāo)注,更麻煩的是,現(xiàn)在的語(yǔ)音合成數(shù)據(jù)庫(kù)往往是單一風(fēng)格的,而語(yǔ)音合成服務(wù)的效果穩(wěn)定性依賴錄音風(fēng)格的一致性,如何在長(zhǎng)期大量錄音中始終保持同一風(fēng)格內(nèi)部的一致性,對(duì)整個(gè)錄音項(xiàng)目來(lái)說(shuō)是一個(gè)不小的挑戰(zhàn)。在這種高要求條件下,10小時(shí)的有效語(yǔ)音合成數(shù)據(jù),可能需要花費(fèi)數(shù)月的錄制時(shí)間,這也對(duì)發(fā)音人保持自身狀態(tài) (尤其是嗓子的狀態(tài)) 提出了較高的要求。

因此,目前市面上主流的商用語(yǔ)音合成產(chǎn)品和服務(wù),絕大多數(shù)都使用傳統(tǒng)TTS框架構(gòu)建,并不能夠提供高表現(xiàn)力的語(yǔ)音合成效果,用戶往往很容易聽(tīng)出合成語(yǔ)音的機(jī)械感。

傳統(tǒng)TTS系統(tǒng)中,輸入文本經(jīng)過(guò)語(yǔ)音信號(hào)處理、文本分析等多個(gè)模塊,根據(jù)多個(gè)domain knowledge,形成了rich context linguistic information,后端模型根據(jù)前面的結(jié)果,結(jié)合acoustic feature進(jìn)行建模及預(yù)測(cè),最終再經(jīng)過(guò)聲碼器 (Vocoder) 得到合成語(yǔ)音。

傳統(tǒng)語(yǔ)音合成 (TTS) 技術(shù)與端到端 (End2End) 語(yǔ)音合成技術(shù)對(duì)比

有沒(méi)有可能結(jié)合傳統(tǒng) TTS 系統(tǒng)和 End2End 系統(tǒng)各自的優(yōu)勢(shì)?

達(dá)摩院語(yǔ)音實(shí)驗(yàn)室提出了 Knowledge-Aware Neural TTS (KAN-TTS) 技術(shù),在傳統(tǒng)語(yǔ)音合成系統(tǒng)的基礎(chǔ)上,充分利用領(lǐng)域知識(shí),從而構(gòu)建了高表現(xiàn)力、高穩(wěn)定性的在線中文實(shí)時(shí)語(yǔ)音合成系統(tǒng)。

不僅如此,KAN-TTS 還利用多個(gè)發(fā)音人的大量數(shù)據(jù),訓(xùn)練得到多發(fā)音人模型,并利用遷移學(xué)習(xí)進(jìn)一步提高合成效果,最終達(dá)到逼近真人錄音的自然度。

未來(lái)5年連接100億臺(tái)設(shè)備,語(yǔ)音是AIoT關(guān)鍵

2018年3月底的云棲大會(huì),時(shí)任阿里云總裁的胡曉明在會(huì)上宣布:阿里巴巴全面進(jìn)軍 IoT,這是繼電商、金融、物流、云計(jì)算之后,阿里的一條新的主賽道。阿里云 IoT 的定位是物聯(lián)網(wǎng)基礎(chǔ)設(shè)施的搭建者,阿里云計(jì)劃在未來(lái) 5 年內(nèi)連接 100 億臺(tái)設(shè)備。

到了2019年,AIoT——人工智能 (AI) 與物聯(lián)網(wǎng) (IoT) 在實(shí)際應(yīng)用中落地融合——成為行業(yè)關(guān)鍵詞,作為萬(wàn)物互聯(lián)以及AIoT的一個(gè)重要入口,智能語(yǔ)音賽道上已是百舸爭(zhēng)流。

作為達(dá)摩院語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人,鄢志杰認(rèn)為智能語(yǔ)音在阿里進(jìn)軍 IoT 的研究和實(shí)踐中有三個(gè)重點(diǎn):

構(gòu)建有深度、全鏈路、多模態(tài)的關(guān)鍵技術(shù)棧

產(chǎn)出低成本、易復(fù)制的智能化 IoT 方案

打造標(biāo)桿硬件是“手段”,建設(shè)基礎(chǔ)平臺(tái)是“目的”

在這個(gè)指導(dǎo)思想下,“我們仔細(xì)對(duì)比了不同的inference方案,考慮到使用場(chǎng)景要求,對(duì)快速擴(kuò)展的要求,甚至客戶不同機(jī)器的部署能力,最終選擇以非異構(gòu)計(jì)算的形式進(jìn)行inference,計(jì)算全部基于CPU完成?!崩坐Q告訴新智元。

一旦系統(tǒng)能在CPU上跑,自然就可以做大規(guī)模的彈性部署,周期成本也就變得極富吸引力。考慮到服務(wù)的可擴(kuò)展性,團(tuán)隊(duì)還在模型層面、底層計(jì)算框架和指令集層面進(jìn)行了相關(guān)的優(yōu)化。

通過(guò)提出KAN-TTS,并發(fā)布基于這一技術(shù)的實(shí)時(shí)在線語(yǔ)音合成云服務(wù),達(dá)摩院語(yǔ)音實(shí)驗(yàn)室在傳統(tǒng)TTS系統(tǒng)和End2End系統(tǒng)中找到了一個(gè)杠桿。

這也是為什么他們敢于在達(dá)摩院2019年十大技術(shù)預(yù)測(cè)中說(shuō),“語(yǔ)音AI在特定領(lǐng)域通過(guò)圖靈測(cè)試”。

阿里的 KAN-TTS 并非市面上公有云中唯一可用的中文語(yǔ)音合成服務(wù),科大訊飛、百度、騰訊、京東、小米、思必馳、云知聲、Rokid、出門(mén)問(wèn)問(wèn)……都發(fā)布了相關(guān)產(chǎn)品,并明確將智能語(yǔ)音+IoT定為公司發(fā)展關(guān)鍵。

國(guó)際上,還有谷歌基于 Google Cloud 的 Text-to-Speech 服務(wù) (共有 30 種語(yǔ)音,并有多種語(yǔ)言和語(yǔ)言變體可供選擇),亞馬遜 AWS 的 Polly (含有 28 種語(yǔ)言,58 款可用聲音),以及微軟 Azure 的 Text to Speech 服務(wù) (標(biāo)準(zhǔn)版含 45 種語(yǔ)言和 75 種 以上的聲音,包括男聲和女聲,還能調(diào)節(jié)參數(shù),例如速度、音調(diào)、音量、發(fā)音以及其他停頓)——當(dāng)然,這些服務(wù)里全都包括中文 (普通話)。

對(duì)于更多的開(kāi)發(fā)者和中小企業(yè)而言,剩下的問(wèn)題就是選擇用哪家的服務(wù),或者更干脆地說(shuō),上哪家的云。

達(dá)摩院科研成果轉(zhuǎn)化秘訣:實(shí)驗(yàn)精神加一點(diǎn)商業(yè)Sense

在提倡“用研究創(chuàng)造價(jià)值”的達(dá)摩院,技術(shù)商業(yè)化是各個(gè)實(shí)驗(yàn)室負(fù)責(zé)人工作的另一大重點(diǎn)。

當(dāng)被問(wèn)及達(dá)摩院語(yǔ)音實(shí)驗(yàn)室技術(shù)商業(yè)化的“套路”時(shí),鄢志杰表示,阿里最大的不同,是要求技術(shù)人員也具備一定的商業(yè)sense。

“你并不需要是商業(yè)奇才,”鄢志杰告訴新智元:“但什么樣的技術(shù)能真正幫助到這些場(chǎng)景,憑借我們的智慧,完全可以排除掉一些絕對(duì)不可能成功的選項(xiàng)?!?/p>

“這樣做就提高了成功的幾率。好,然后再在讓這些種子去慢慢發(fā)芽,觀察它們的長(zhǎng)勢(shì),再來(lái)做決定?!?/p>

在他的形容中,接下來(lái)的迭代是一個(gè)非常科學(xué)的實(shí)驗(yàn)過(guò)程,就像做優(yōu)化,基于當(dāng)前的這個(gè)點(diǎn),找到一個(gè)所謂的梯度,這個(gè)梯度就是你要工作的方向,然后跑那么一小步,檢驗(yàn)?zāi)繕?biāo)函數(shù)有沒(méi)有被優(yōu)化,然后再來(lái)做調(diào)整。

“要說(shuō)套路的話,我覺(jué)得這跟我們做語(yǔ)音識(shí)別、做語(yǔ)音合成其實(shí)是一樣的套路。”

鄢志杰強(qiáng)調(diào),未來(lái)的語(yǔ)音交互將是多模態(tài)的、無(wú)處不在的交互。單靠算法不足以形成足夠持續(xù)的競(jìng)爭(zhēng)力,特別是越來(lái)越多的算法走向開(kāi)源,這就要求研究團(tuán)隊(duì)將數(shù)據(jù)、硬件以及好的商業(yè)模式相結(jié)合,具體到智能語(yǔ)音交互,則是“與智能硬件廠商劃定一個(gè)有效的邊界”。

技術(shù)、產(chǎn)業(yè)和商業(yè)要形成一個(gè)閉環(huán)。技術(shù)到產(chǎn)品有鴻溝,而即使有了一個(gè)產(chǎn)品之后,如果賣(mài)不出去,接觸不到大量的用戶,也很難收集到有效的反饋?!八?,我們希望將一項(xiàng)技術(shù)做成產(chǎn)品,成規(guī)模地推到商業(yè),吸引大量用戶,然后用戶這邊反饋到產(chǎn)品的種種問(wèn)題,我們?cè)僭诖嘶A(chǔ)上對(duì)技術(shù)進(jìn)行迭代?!?/p>

鄢志杰和他的同事都相信無(wú)處不在的智能語(yǔ)音交互是未來(lái),并朝著這個(gè)方向去努力。過(guò)去幾年技術(shù)上的一系列成果,比如達(dá)摩院兄弟部門(mén)的工作、谷歌BERT模型,“驚喜就沒(méi)有斷過(guò)”。這也讓他有種“趕上了技術(shù)浪潮”的感覺(jué),但跨過(guò)技術(shù)到了產(chǎn)業(yè)與商業(yè)以后,這個(gè)“潮”還是不是“潮”,鄢志杰認(rèn)為很難說(shuō)。

“今天那么多的所謂的AI技術(shù),到底在產(chǎn)品層面能給用戶帶來(lái)多大的好處,在商業(yè)層面上是不是真的能夠稱(chēng)其為一個(gè)business,而且是一個(gè)可持續(xù)、可健康發(fā)展的business。我們是在大膽假設(shè),小心求證?!?/p>

至于KAN-TTS,“模型開(kāi)放出來(lái)以后,厲害的工程團(tuán)隊(duì)用不了多久就能復(fù)現(xiàn)”,鄢志杰和雷鳴都笑著說(shuō)。

“我們期待大家在上面繼續(xù)貢獻(xiàn)?!?/p>

詳解達(dá)摩院 KAN-TTS 技術(shù)

根據(jù)達(dá)摩院語(yǔ)音實(shí)驗(yàn)室的介紹,KAN-TTS 技術(shù)結(jié)合了傳統(tǒng)語(yǔ)音合成系統(tǒng)和End2End語(yǔ)音合成系統(tǒng)各自的優(yōu)勢(shì),主要包括這幾個(gè)方面的不同:

Linguistic domain knowledge:傳統(tǒng)語(yǔ)音合成系統(tǒng)利用了文本相關(guān)數(shù)據(jù)積累了大量的domain knowledge,因此可以獲得較穩(wěn)定的合成結(jié)果;而沒(méi)有利用該domain knowledge的End2End語(yǔ)音合成系統(tǒng),在合成穩(wěn)定性方面就不如傳統(tǒng)語(yǔ)音合成系統(tǒng)。近年來(lái),有一些研究工作就是基于標(biāo)注發(fā)音的文本數(shù)據(jù)針對(duì)多音字發(fā)音消歧方面進(jìn)行優(yōu)化,也有些研究工作針對(duì)傳統(tǒng)語(yǔ)音合成系統(tǒng)中的停頓預(yù)測(cè)進(jìn)行優(yōu)化。傳統(tǒng)系統(tǒng)可以輕易的利用這樣的研究成果,而End2End系統(tǒng)沒(méi)有利用到這樣的工作。在KAN-TTS中,我們利用了海量文本相關(guān)數(shù)據(jù)構(gòu)建了高穩(wěn)定性的domain knowledge分析模塊。例如,在多音字消歧模塊中,我們利用了包含多音字的上百萬(wàn)文本/發(fā)音數(shù)據(jù)訓(xùn)練得到多音字消歧模型,從而獲得更準(zhǔn)確的發(fā)音。 如果像End2end系統(tǒng)那樣完全基于語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,光是包含多音字的數(shù)據(jù)就需要上千小時(shí),這對(duì)于常規(guī)數(shù)據(jù)在幾小時(shí)到幾十小時(shí)的語(yǔ)音合成領(lǐng)域而言,是不可接受的。

Acoustic Model:傳統(tǒng)語(yǔ)音合成系統(tǒng)對(duì)于duration和聲學(xué)特征是分開(kāi)建模的,合成時(shí)需要先預(yù)測(cè)duration信息,再根據(jù)預(yù)測(cè)得到的duration預(yù)測(cè)聲學(xué)特征,而End2End系統(tǒng)利用了seq2seq模型,對(duì)所有聲學(xué)特征進(jìn)行統(tǒng)一建模及預(yù)測(cè),這樣可以更好的對(duì)時(shí)長(zhǎng)和音調(diào)高低等韻律變化進(jìn)行建模。在傳統(tǒng)語(yǔ)音合成領(lǐng)域,一直有研究人員在嘗試更好的對(duì)韻律進(jìn)行建模,例如但受限于系統(tǒng)框架和模型建模能力,在傳統(tǒng)語(yǔ)音合成系統(tǒng)中始終沒(méi)能獲得令人滿意的結(jié)果。而在End2End系統(tǒng)中,基于更強(qiáng)大的seq2seq模型,充分利用了語(yǔ)音韻律的domain knowledge,最終得以產(chǎn)生高表現(xiàn)力的合成語(yǔ)音。在KAN-TTS中,考慮到深度學(xué)習(xí)技術(shù)的快速進(jìn)展以及End2End模型的合成效果,我們也采用了seq2seq模型作為聲學(xué)模型,同時(shí)結(jié)合海量數(shù)據(jù),進(jìn)一步提高了整體模型的效果和穩(wěn)定性。

Acoustic feature和Vocoder:在傳統(tǒng)語(yǔ)音合成領(lǐng)域,也一直有研究人員在探索更好的聲學(xué)特征和聲碼器。但由于傳統(tǒng)語(yǔ)音合成系統(tǒng)中的聲學(xué)特征和聲碼器都是基于語(yǔ)音編解碼中的source-filter機(jī)理產(chǎn)生的,有較強(qiáng)的理論假設(shè),在實(shí)際不同發(fā)音人的數(shù)據(jù)上,天然會(huì)丟失掉一部分信息,為后面整體建模以及預(yù)測(cè)合成語(yǔ)音帶來(lái)了一定困擾,最終產(chǎn)生的整體音質(zhì)也較差。考慮到信息的損失和音質(zhì),在KAN-TTS系統(tǒng)中,我們采用了和End2End系統(tǒng)類(lèi)似的FFT spectrum作為聲學(xué)特征,信息上損失更小,同時(shí)采用更強(qiáng)大的聲碼器恢復(fù)波形,因此在音質(zhì)方面具有明顯優(yōu)勢(shì)。

KAN-TTS基本架構(gòu)

KAN-TTS的基本框圖

在KAN-TTS的基本架構(gòu)中,輸入文本經(jīng)過(guò)與傳統(tǒng)語(yǔ)音合成系統(tǒng)類(lèi)似的模塊得到相關(guān)的linguistic信息,接著由linguistic信息得到的矢量序列輸入進(jìn)入seq2seq模型,進(jìn)行訓(xùn)練和建模。

需要說(shuō)明的是,KAN-TTS并沒(méi)有完全采用所有的linguistic信息。經(jīng)過(guò)細(xì)致分析和實(shí)驗(yàn)對(duì)比,我們發(fā)現(xiàn)采用所有的linguistic信息并不能帶來(lái)更好的結(jié)果,有時(shí)甚至?xí)儾?。因此,我們最終采用了如上圖所示的domain knowledge作為后端模型的輸入。

更多領(lǐng)域知識(shí)

此外,KAN-TTS還融合了其他多個(gè)方面的domain knowledge,這其中最重要的是基于中文的linguistic knowledge、基于海量語(yǔ)音數(shù)據(jù)的聲學(xué)空間構(gòu)建,以及針對(duì)特定發(fā)音人、特定風(fēng)格的遷移學(xué)習(xí)技術(shù)。

①基于海量語(yǔ)音數(shù)據(jù)的模型構(gòu)建

構(gòu)建多發(fā)音人語(yǔ)音合成系統(tǒng)的方式

發(fā)音人信息作為另外一種輸入特征和Encoder的輸出結(jié)合,輸入到Attention&Decoder模塊里面。經(jīng)過(guò)這樣的處理,Encoder模塊只是用來(lái)對(duì)文本相關(guān)信息進(jìn)行特征提取,發(fā)音人這樣的聲學(xué)信息只作用于Attention&Decoder,并不影響Encoder的結(jié)果。在實(shí)際實(shí)現(xiàn)過(guò)程中,我們也對(duì)比了不同的信息結(jié)合方式,采用如上圖所示的結(jié)合方式可以獲得最好的合成效果。

最終,我們利用了上百個(gè)人的幾百小時(shí)數(shù)據(jù),構(gòu)建了基于海量數(shù)據(jù)的多發(fā)音人語(yǔ)音合成系統(tǒng)。相對(duì)而言,在傳統(tǒng)語(yǔ)音合成系統(tǒng)中,單發(fā)音人數(shù)據(jù)量往往在幾個(gè)小時(shí)到幾十小時(shí)不等。利用海量發(fā)音人的數(shù)據(jù)構(gòu)建的語(yǔ)音合成系統(tǒng),可以提供更穩(wěn)定的合成效果,為最終構(gòu)建高穩(wěn)定性語(yǔ)音合成產(chǎn)品打下了基礎(chǔ)。

②針對(duì)特定發(fā)音人、特定風(fēng)格的遷移學(xué)習(xí)技術(shù)

由于采用了大量不同發(fā)音人數(shù)據(jù)進(jìn)行語(yǔ)音合成系統(tǒng)構(gòu)建,雖然我們利用了多發(fā)音人的大量數(shù)據(jù),得以產(chǎn)生高穩(wěn)定性合成語(yǔ)音。但我們發(fā)現(xiàn)對(duì)特定發(fā)音人或者特定風(fēng)格而言,其效果距離真實(shí)錄音而言還是具有一定差距。因此,我們參考了其他領(lǐng)域?qū)τ?xùn)練數(shù)據(jù)比例的研究,在多發(fā)音人模型的基礎(chǔ)上進(jìn)一步嘗試了針對(duì)特定發(fā)音人、特定風(fēng)格數(shù)據(jù)的遷移學(xué)習(xí)。實(shí)驗(yàn)表明,疊加遷移學(xué)習(xí)后,合成語(yǔ)音的效果可以進(jìn)一步提高,逼近真實(shí)錄音的效果。

多發(fā)音人模型實(shí)際訓(xùn)練過(guò)程

上圖中顯示了實(shí)際的訓(xùn)練過(guò)程。首先,我們利用多個(gè)發(fā)音人的所有數(shù)據(jù)構(gòu)建多發(fā)音人模型,在這期間,發(fā)音人信息作為輸入信息在訓(xùn)練過(guò)程中輸入到了Attention&Decoder模塊;基于訓(xùn)練得到的多發(fā)音人模型,我們根據(jù)需要,針對(duì)發(fā)音人n進(jìn)行遷移學(xué)習(xí),最終得到發(fā)音人 n 的單發(fā)音人模型。

非異構(gòu)計(jì)算的工程優(yōu)化

隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,模型的建模能力越來(lái)越強(qiáng)大,隨之而來(lái)的計(jì)算量需求也越來(lái)越高。近年來(lái),很多公司都采用異構(gòu)計(jì)算進(jìn)行模型的inference,例如采用高性能或者inference專(zhuān)用GPU,甚至采用FPGA/ASIC這樣的專(zhuān)用芯片技術(shù)來(lái)加速inference部分的計(jì)算,服務(wù)實(shí)際需求。

對(duì)語(yǔ)音合成而言,大量的需求是需要進(jìn)行實(shí)時(shí)計(jì)算的。例如,在交互場(chǎng)景上,語(yǔ)音合成服務(wù)的響應(yīng)時(shí)間直接影響到用戶的體驗(yàn),往往需要從發(fā)起合成請(qǐng)求到返回第一個(gè)語(yǔ)音包的時(shí)間在200ms左右,即首包latency。另一方面,很多場(chǎng)景的語(yǔ)音合成的請(qǐng)求量的變化是非常大的,例如小說(shuō)和新聞播報(bào)場(chǎng)景,白天和傍晚的請(qǐng)求量往往較高,而深夜的請(qǐng)求量往往很低,這又對(duì)部署的便捷性和服務(wù)的快速擴(kuò)展性帶來(lái)了要求。

我們仔細(xì)對(duì)比了不同的inference方案,考慮到我們最終的使用場(chǎng)景要求,對(duì)快速擴(kuò)展的要求,甚至客戶不同機(jī)器的部署能力,我們最終選擇以非異構(gòu)計(jì)算的形式進(jìn)行inference計(jì)算,即不采用任何異構(gòu)計(jì)算的模塊,包括GPU/FPGA/ASIC等。

根據(jù)KAN-TTS的特性,以及語(yǔ)音合成服務(wù)的需求,我們針對(duì)性的做了若干優(yōu)化,包括:

模型層面的優(yōu)化:為了降低首包latency,我們改進(jìn)了模型結(jié)構(gòu),替換了BLSTM等模塊,從而大幅度提高了首包latency。此外,我們針對(duì)計(jì)算量較大的模塊進(jìn)行優(yōu)化和替代,從而大幅度優(yōu)化了整體計(jì)算效率。

框架和指令集優(yōu)化:為了更好的利用硬件性能,我們嘗試了不同的底層加速框架,并且針對(duì)性的對(duì)指令集結(jié)合實(shí)際計(jì)算需求進(jìn)行了優(yōu)化。另外,我們還對(duì)個(gè)別超大向量計(jì)算進(jìn)行了針對(duì)性的優(yōu)化。

最終,經(jīng)過(guò)我們的一系列優(yōu)化,效果如下圖所示:

其中,RTF是借鑒了語(yǔ)音識(shí)別中的指標(biāo),即Real Time Factor,度量合成1s的一句話所需要的計(jì)算時(shí)間,QPS為實(shí)際同時(shí)能夠支撐的服務(wù)請(qǐng)求數(shù)。

KAN-TTS 實(shí)際效果

從實(shí)際實(shí)踐中發(fā)現(xiàn),End2End系統(tǒng)最大的問(wèn)題是丟字漏字和多音字發(fā)音錯(cuò)誤兩類(lèi)問(wèn)題。由于End2End系統(tǒng)的輸入是中文漢字,而漢字的數(shù)量很多,在訓(xùn)練數(shù)據(jù)中覆蓋較差,分布也不均勻,因此導(dǎo)致了大量句子都出現(xiàn)了丟字漏字的情況;另外,由于前文中介紹的原因,由于語(yǔ)音數(shù)據(jù)量總是遠(yuǎn)遠(yuǎn)小于文本數(shù)據(jù)的,基于現(xiàn)在的語(yǔ)音數(shù)據(jù),End2End系統(tǒng)中多音字覆蓋也較差,所以也會(huì)大量的出現(xiàn)多音字發(fā)音錯(cuò)誤問(wèn)題。

End2End系統(tǒng)和KAN-TTS在丟字漏字和多音字發(fā)音錯(cuò)誤這兩個(gè)問(wèn)題上的對(duì)比,其中多音字發(fā)音錯(cuò)誤以“為”這個(gè)字的情況代表。

從上圖中可以看到,KAN-TTS在這兩個(gè)問(wèn)題上都顯著超越了End2End系統(tǒng)。其原因主要為KAN-TTS中結(jié)合了傳統(tǒng)語(yǔ)音合成系統(tǒng),充分利用了多個(gè)方面的domain knowledge。因此在合成語(yǔ)音的穩(wěn)定性上,可以獲得和傳統(tǒng)語(yǔ)音合成系統(tǒng)類(lèi)似的結(jié)果。

使用單個(gè)發(fā)音人的數(shù)據(jù),與傳統(tǒng)語(yǔ)音合成系統(tǒng)相比,KAN-TTS技術(shù)在不同改進(jìn)下的效果變化。

MOS 為 Mean Opinion Score 的縮寫(xiě),是語(yǔ)音合成領(lǐng)域主觀測(cè)試打分標(biāo)準(zhǔn),滿分為5分,越大越好。在MOS測(cè)試過(guò)程中,會(huì)加入不同系統(tǒng)的合成語(yǔ)音以及真實(shí)錄音 (Recording),由幾十到幾百的參與人員對(duì)每個(gè)語(yǔ)音的自然度進(jìn)行主觀打分。由于不同人的真實(shí)錄音的MOS打分往往不同,為了度量技術(shù)的實(shí)際作用,我們采用了MOS%的形式進(jìn)行對(duì)比,即以Recording得分作為分母,將不同系統(tǒng)的MOS得分除以Recording得分,從而得以度量不同系統(tǒng)主觀得分距離Recording的差距,越接近100%為越好,而Recording的得分始終為100%。

從上圖中可以看到,傳統(tǒng)拼接系統(tǒng)和傳統(tǒng)參數(shù)系統(tǒng) (代表當(dāng)前市面上商用TTS系統(tǒng)水平) 分別可以獲得85%~90%的接近程度,差別與發(fā)音人風(fēng)格、數(shù)據(jù)量都比較相關(guān);當(dāng)采用了KAN-TTS技術(shù)時(shí),即便只是基于Single Speaker的數(shù)據(jù),都可以獲得95%以上的接近程度;而采用了multi-speaker以及transfer learning技術(shù)之后,特定發(fā)音人數(shù)據(jù)在自然度上可以獲得97%以上的相似度。

結(jié)語(yǔ)

KAN-TTS 技術(shù)是結(jié)合了我們最新的語(yǔ)音技術(shù)、海量的文本和聲學(xué)數(shù)據(jù)以及大規(guī)模計(jì)算能力,對(duì)語(yǔ)音合成技術(shù)進(jìn)行的改進(jìn)。

現(xiàn)在,用戶可以在阿里云官網(wǎng)體驗(yàn)(https://ai.aliyun.com/nls/tts)。接下來(lái),我們會(huì)擴(kuò)大該技術(shù)服務(wù)的音色范圍,全面將該技術(shù)應(yīng)用到所有語(yǔ)音合成發(fā)音人中。

通過(guò)KAN-TTS技術(shù)的提出,我們?yōu)椤笆欠窨梢酝耆饤塪omain knowledge,而完全依賴強(qiáng)大的模型和海量數(shù)據(jù)”這個(gè)問(wèn)題給出了我們自己的答案。在未來(lái)的工作中,我們還將基于KAN-TTS技術(shù)對(duì)語(yǔ)音合成技術(shù)做進(jìn)一步的改進(jìn),提供給大家更好的語(yǔ)音合成服務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:達(dá)摩院語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰:智能語(yǔ)音爆發(fā)進(jìn)入倒計(jì)時(shí),2019語(yǔ)音AI通過(guò)圖靈測(cè)試

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    北京機(jī)器人馬拉松:跑贏人類(lèi),卻倒在終點(diǎn)?問(wèn)題可能不在“跑”

    4月19日,北京亦莊。全球首場(chǎng)人形機(jī)器人半程馬拉松開(kāi)跑21公里,人機(jī)同場(chǎng)。 兩段畫(huà)面很快刷屏:榮耀機(jī)器人“閃電”用50分26秒沖線,還在終點(diǎn)揮了揮手,現(xiàn)場(chǎng)氣氛挺熱。同場(chǎng)的宇樹(shù)H1沖過(guò)終點(diǎn)后,它的腿
    的頭像 發(fā)表于 04-24 16:33 ?81次閱讀
    北京機(jī)器人馬拉松:跑贏人類(lèi),卻倒在<b class='flag-5'>終點(diǎn)</b>?問(wèn)題可能不在“跑”

    PCBA電路板生產(chǎn)廠家哪里多?三大核心產(chǎn)業(yè)帶全解析

    的完整產(chǎn)業(yè)鏈,上下游配套無(wú)與倫比。 (2)技術(shù)實(shí)力最強(qiáng) 深圳是中國(guó)科技創(chuàng)新中心,擁有華為、中興、大疆等科技巨頭 聚集了大量高端人才和研發(fā)機(jī)構(gòu) 在5G、人工智能、物聯(lián)網(wǎng)等前沿領(lǐng)域領(lǐng)先 (3)國(guó)際化程度最高
    發(fā)表于 03-19 18:31

    歡迎使用中國(guó)香河英茂科工豆包智能

    中國(guó)香河英茂科工 - 豆包智能體 創(chuàng)建分身,分兩種:AI智能分身(替你干活) 和數(shù)字人分身(替你出鏡),零基礎(chǔ)也能快速上手。 ? 一、AI智能分身(替你思考/干活) 適合:一人公司、客
    發(fā)表于 02-14 07:22

    【「芯片設(shè)計(jì)基石——EDA產(chǎn)業(yè)全景與未來(lái)展望」閱讀體驗(yàn)】--中國(guó)EDA的發(fā)展

    階段 國(guó)產(chǎn)EDA沉寂期(1994 ~ 2008)。一方面,“熊貓系統(tǒng)”推廣上有所欠缺,難以獲得廣泛應(yīng)用。中國(guó)半導(dǎo)體產(chǎn)業(yè)發(fā)展緩慢,無(wú)法為國(guó)產(chǎn)EDA提供有力的產(chǎn)業(yè)支撐。另一方面,國(guó)際技術(shù)和貿(mào)易障礙清除,國(guó)際
    發(fā)表于 01-20 23:22

    【「芯片設(shè)計(jì)基石——EDA產(chǎn)業(yè)全景與未來(lái)展望」閱讀體驗(yàn)】+ 芯片“卡脖子”引發(fā)對(duì)EDA的重視

    芯片設(shè)計(jì)和EDA領(lǐng)域中美博弈重大事件,分析其背后邏輯和影響。以上事件的本質(zhì)是美國(guó)通過(guò)壟斷全球科技話語(yǔ)權(quán),,將半導(dǎo)體產(chǎn)業(yè)變成地緣政治工具,構(gòu)建起一套針對(duì)中國(guó)半導(dǎo)體產(chǎn)業(yè)的“技術(shù)隔離墻”,維持自身在高端
    發(fā)表于 01-20 20:09

    ATH8809 智能語(yǔ)音處理芯片

    智能語(yǔ)音
    深圳市聲訊電子有限公司
    發(fā)布于 :2025年12月24日 16:58:05

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.69】解碼中國(guó)”芯“基石,洞見(jiàn)EDA突圍路《芯片設(shè)計(jì)基石——EDA產(chǎn)業(yè)全景與未來(lái)展望》

    信:elecfans_666)。 芯片設(shè)計(jì)基石——解碼EDA斷供背后的霸權(quán)邏輯及國(guó)產(chǎn)EDA突圍之路 本書(shū)深度解析全球EDA產(chǎn)業(yè)演進(jìn)與中國(guó)EDA產(chǎn)業(yè)的突圍之路,全景再現(xiàn)中國(guó)EDA從“熊
    發(fā)表于 12-09 16:35

    北斗語(yǔ)音技術(shù)新突破:中國(guó)電信率先實(shí)現(xiàn)北斗語(yǔ)音消息服務(wù),北斗芯片技術(shù)迎創(chuàng)新

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)近日,中國(guó)電信宣布,其已率先公開(kāi)展示“北斗語(yǔ)音消息”服務(wù),成為業(yè)內(nèi)首家實(shí)現(xiàn)北斗語(yǔ)音消息的運(yùn)營(yíng)商。這意味著我國(guó)在構(gòu)建“空天地一體化”應(yīng)急通信體系方面邁出關(guān)鍵
    的頭像 發(fā)表于 11-02 11:30 ?6914次閱讀

    智慧工地智能建筑的發(fā)展趨勢(shì)將是什么

    ? ? ?隨著科學(xué)技術(shù)與物聯(lián)網(wǎng)的發(fā)展,未來(lái)智慧工地城市的發(fā)展將是建筑行業(yè)的重中之重,那么未來(lái)智慧工地智能建筑的發(fā)展趨勢(shì)將是什么?下面西安智維拓遠(yuǎn)小編就帶大家了解了解未來(lái)的智慧工地
    的頭像 發(fā)表于 10-10 08:53 ?795次閱讀

    主線科技亮相2025中國(guó)智能產(chǎn)業(yè)大會(huì)

    2025年8月30-31日,由中國(guó)人工智能學(xué)會(huì)主辦,工信部中小企業(yè)發(fā)展促進(jìn)中心、常州市人民政府支持的第十四屆中國(guó)智能產(chǎn)業(yè)大會(huì)與吳文俊人工智能
    的頭像 發(fā)表于 09-03 18:08 ?1170次閱讀

    推進(jìn)一款實(shí)用型的OTP語(yǔ)音芯片

    YCV系列語(yǔ)音芯片:讓智能快遞柜取件更便利 隨著互聯(lián)網(wǎng)的普及與電子商務(wù)的快速發(fā)展,網(wǎng)購(gòu)已成為越來(lái)越多人日常生活的一部分,催生出一個(gè)龐大的“網(wǎng)購(gòu)群體”??爝f服務(wù)因此廣泛覆蓋,將各類(lèi)商品送達(dá)消費(fèi)者手中
    發(fā)表于 08-26 11:32

    語(yǔ)音識(shí)別---大家怎么看?

    語(yǔ)音識(shí)別是一門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車(chē)電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等
    發(fā)表于 08-09 10:54

    廣州唯創(chuàng)電子語(yǔ)音芯片IC:驅(qū)動(dòng)餐廳呼叫器智能升級(jí),打造高效服務(wù)新體驗(yàn)

    及WTN6040F系列語(yǔ)音芯片,憑借其卓越的靈活性與強(qiáng)大功能,正成為智能餐廳呼叫器升級(jí)的核心引擎,為行業(yè)注入全新活力。一、智能語(yǔ)音:靈活定制,提升
    的頭像 發(fā)表于 07-16 08:45 ?524次閱讀
    廣州唯創(chuàng)電子<b class='flag-5'>語(yǔ)音</b>芯片IC:驅(qū)動(dòng)餐廳呼叫器<b class='flag-5'>智能</b>升級(jí),打造高效<b class='flag-5'>服務(wù)</b>新體驗(yàn)

    中軟國(guó)際入選中國(guó)信通院AI Agent智能產(chǎn)業(yè)圖譜1.0

    近日,中國(guó)信息通信研究院(以下簡(jiǎn)稱(chēng)“中國(guó)信通院”)《AI Agent智能產(chǎn)業(yè)圖譜1.0》正式發(fā)布。該圖譜是國(guó)內(nèi)系統(tǒng)性梳理智能
    的頭像 發(fā)表于 07-14 14:55 ?1877次閱讀

    藍(lán)牙語(yǔ)音遙控器:智能家居的智慧控制核心

    隨著智能家居的蓬勃發(fā)展,藍(lán)牙語(yǔ)音遙控器憑借其便捷的操作和智能交互體驗(yàn),正迅速取代傳統(tǒng)紅外遙控器,成為智能電視、機(jī)頂盒等設(shè)備的首選控制工具。 相較于需對(duì)準(zhǔn)設(shè)備的紅外遙控器,藍(lán)牙
    發(fā)表于 06-01 20:24
    甘南县| 张家口市| 丰原市| 读书| 内乡县| 南漳县| 烟台市| 浦县| 怀集县| 简阳市| 东丰县| 灵山县| 扬中市| 客服| 桂阳县| 华安县| 富民县| 时尚| 天祝| 梅河口市| 绥德县| 阿荣旗| 桂平市| 临湘市| 乌什县| 子长县| 深水埗区| 凌源市| 普兰店市| 武乡县| 密云县| 金塔县| 区。| 南宁市| 义乌市| 集安市| 大方县| 江源县| 梓潼县| 金寨县| 阳西县|