国产 av 女同,青青草原黄色视频,永井av一区

語音是人類最自然的交互方式。計算機(jī)發(fā)明之后，讓機(jī)器能夠“聽懂”人類的語言，理解語言中的內(nèi)在含義，并能做出正確的回答就成為了人們追求的目標(biāo)。這個過程中主要涉及3種技術(shù)，即自動語音識別；自然語言處理（目的是讓機(jī)器能理解人的意圖）和語音合成（目的是讓機(jī)器能說話）

與機(jī)器進(jìn)行語音交流，讓它聽明白你在說什么。語音識別技術(shù)將人類這一曾經(jīng)的夢想變成了現(xiàn)實(shí)。語音識別技術(shù)就是“機(jī)器的聽覺系統(tǒng)”，該技術(shù)讓機(jī)器通過識別和理解，把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。

現(xiàn)代智能語音識別技術(shù)的起源及發(fā)展

在1952年的貝爾研究所，Davis等人研制了世界上第一個能識別10個英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國的Denes等人研制了第一個計算機(jī)語音識別系統(tǒng)。

大規(guī)模的語音識別研究始于上世紀(jì)70年代以后，并在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后，語音識別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。

同時，語音識別在研究思路上也發(fā)生了重大變化，由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型的技術(shù)思路。此外，業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路。

上世紀(jì)90年代以后，在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是，在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如，DARPA是在上世界70年代由美國國防部遠(yuǎn)景研究計劃局資助的一項(xiàng)計劃，旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進(jìn)入上世紀(jì)90年代，DARPA計劃仍在持續(xù)進(jìn)行中，其研究重點(diǎn)已轉(zhuǎn)向識別裝置中的自然語言處理部分，識別任務(wù)設(shè)定為“航空旅行信息檢索”。

我國的語音識別研究起始于1958年，由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。由于當(dāng)時條件的限制，中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年，中國科學(xué)院聲學(xué)所開始了計算機(jī)語音識別。

進(jìn)入上世紀(jì)80年代以來，隨著計算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展，國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時，國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下，國內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

1986年，語音識別作為智能計算機(jī)系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下，中國開始組織語音識別技術(shù)的研究，并決定了每隔兩年召開一次語音識別的專題會議。自此，我國語音識別技術(shù)進(jìn)入了一個新的發(fā)展階段。

自2009年以來，借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語料的積累，語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。

將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語音識別聲學(xué)模型訓(xùn)練，使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò)，提高了聲學(xué)模型的準(zhǔn)確率。在此方面，微軟公司的研究人員率先取得了突破性進(jìn)展，他們使用深層神經(jīng)網(wǎng)絡(luò)模型（DNN）后，語音識別錯誤率降低了30%，是近20年來語音識別技術(shù)方面最快的進(jìn)步。

2009年前后，大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)（WFST）的解碼網(wǎng)絡(luò)，該解碼網(wǎng)絡(luò)可以把語言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個大的解碼網(wǎng)絡(luò)，提高了解碼的速度，為語音識別的實(shí)時應(yīng)用提供了基礎(chǔ)。

隨著互聯(lián)網(wǎng)的快速發(fā)展，以及手機(jī)等移動終端的普及應(yīng)用，可以從多個渠道獲取大量文本或語音方面的語料，這為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源，使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。

在語音識別中，訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一，但是語料的標(biāo)注和分析需要長期的積累和沉淀，隨著大數(shù)據(jù)時代的來臨，大規(guī)模語料資源的積累將提到戰(zhàn)略高度。

現(xiàn)如今，語音識別在移動終端上的應(yīng)用最為火熱，語音對話機(jī)器人、語音助手、互動工具等層出不窮，許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應(yīng)用，目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。

語音識別技術(shù)的主要方法

目前具有代表性的語音識別方法主要有動態(tài)時間規(guī)整技術(shù)（DTW）、隱馬爾可夫模型（HMM）、矢量量化（VQ）、人工神經(jīng)網(wǎng)絡(luò)（ANN）、支持向量機(jī)(SVM)等方法。

動態(tài)時間規(guī)整算法（Dynamic Time Warping，DTW）是在非特定人語音識別中一種簡單有效的方法，該算法基于動態(tài)規(guī)劃的思想，解決了發(fā)音長短不一的模板匹配問題，是語音識別技術(shù)中出現(xiàn)較早、較常用的一種算法。在應(yīng)用DTW算法進(jìn)行語音識別時，就是將已經(jīng)預(yù)處理和分幀過的語音測試信號和參考語音模板進(jìn)行比較以獲取他們之間的相似度，按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。

隱馬爾可夫模型（HMM）是語音信號處理中的一種統(tǒng)計模型，是由Markov鏈演變來的，所以它是基于參數(shù)模型的統(tǒng)計識別方法。由于其模式庫是通過反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲存好的模式樣本，且其識別過程中運(yùn)用待識別語音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對應(yīng)的最佳狀態(tài)序列作為識別輸出，因此是較理想的語音識別模型。

矢量量化（Vector Quantization）是一種重要的信號壓縮方法。與HMM相比，矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特征參數(shù)的標(biāo)量數(shù)據(jù)組成一個矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個小區(qū)域，每個小區(qū)域?qū)ふ乙粋€代表矢量，量化時落入小區(qū)域的矢量就用這個代表矢量代替。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書，從實(shí)際效果出發(fā)尋找到好的失真測度定義公式，設(shè)計出最佳的矢量量化系統(tǒng)，用最少的搜索和計算失真的運(yùn)算量實(shí)現(xiàn)最大可能的平均信噪比。

在實(shí)際的應(yīng)用過程中，人們還研究了多種降低復(fù)雜度的方法，包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

人工神經(jīng)網(wǎng)絡(luò)（ANN）是20世紀(jì)80年代末期提出的一種新的語音識別方法。其本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng)，模擬了人類神經(jīng)活動的原理，具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性，其強(qiáng)大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機(jī)制的工程模型，它與HMM正好相反，其分類決策能力和對不確定信息的描述能力得到舉世公認(rèn)，但它對動態(tài)時間信號的描述能力尚不盡如人意，通常MLP分類器只能解決靜態(tài)模式分類問題，并不涉及時間序列的處理。盡管學(xué)者們提出了許多含反饋的結(jié)構(gòu)，但它們?nèi)圆蛔阋钥坍嬛T如語音信號這種時間序列的動態(tài)特性。由于ANN不能很好地描述語音信號的時間動態(tài)特性，所以常把ANN與傳統(tǒng)識別方法結(jié)合，分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別而克服HMM和ANN各自的缺點(diǎn)。近年來結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法研究取得了顯著進(jìn)展，其識別率已經(jīng)接近隱含馬爾可夫模型的識別系統(tǒng)，進(jìn)一步提高了語音識別的魯棒性和準(zhǔn)確率。

支持向量機(jī)（Support vector machine）是應(yīng)用統(tǒng)計學(xué)理論的一種新的學(xué)習(xí)機(jī)模型，采用結(jié)構(gòu)風(fēng)險最小化原理（Structural Risk Minimization，SRM），有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險最小化方法的缺點(diǎn)。兼顧訓(xùn)練誤差和泛化能力，在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能，已經(jīng)被廣泛地應(yīng)用到模式識別領(lǐng)域。

語音識別技術(shù)模型在中深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用

深度學(xué)習(xí)是指利用多層的非線性信號和信息處理技術(shù)，通過有監(jiān)督或者無監(jiān)督的方法，進(jìn)行信號轉(zhuǎn)換、特征提取以及模式分類等任務(wù)的機(jī)器學(xué)習(xí)類方法的總稱。因?yàn)椴捎蒙顚咏Y(jié)構(gòu)模型對信號和信息進(jìn)行處理，所以這里稱為“深度”學(xué)習(xí)。傳統(tǒng)的機(jī)器學(xué)習(xí)模型很多屬于淺層結(jié)構(gòu)模型，例如支持向量機(jī)、GMM、HMM、條件隨機(jī)場、線性或者非線性動態(tài)系統(tǒng)、單隱層的神經(jīng)網(wǎng)絡(luò)等。

原始的輸入信號只經(jīng)過比較少的層次（通常是一層）的線性或者非線性處理以達(dá)到信號與信息處理，是這些結(jié)構(gòu)模型的共同特點(diǎn)。淺層模型的優(yōu)點(diǎn)在于在數(shù)學(xué)上有比較完善的算法，并且結(jié)構(gòu)簡單、易于學(xué)習(xí)。但是淺層模型使用的線性或者非線性變換組合比較少，對于信號中復(fù)雜的結(jié)構(gòu)信息并不能有效地學(xué)習(xí)，對于復(fù)雜信號的表達(dá)能力有局限性。而深層結(jié)構(gòu)的模型則更適合于處理復(fù)雜類型的信號，原因在于深層結(jié)構(gòu)具備多層非線性變換，具有更強(qiáng)的表達(dá)與建模能力。

人類語音信號產(chǎn)生和感知就是這樣一個極其復(fù)雜的過程，并且在生物學(xué)上被證明具有明顯的多層次甚至深層次的處理結(jié)構(gòu)，所以，對于語音識別任務(wù)，采用淺層結(jié)構(gòu)模型明顯有很大的局限性。利用深層次結(jié)構(gòu)中的多層非線性變換進(jìn)行語音信號中的結(jié)構(gòu)化信息和更高層信息的提取，是更加合理的選擇。

DNN在語音識別系統(tǒng)中的應(yīng)用和局限性

從2011年之后，基于DNN-HMM聲學(xué)模型在多種語言、多種任務(wù)的語音識別上取得了比傳統(tǒng) GMM-HMM 聲學(xué)模型大幅度且一致性的效果提升?；贒NN-HMM語音識別系統(tǒng)的基本框架如圖所示，采用DNN替換GMM模型來建模語音觀察概率，是其和傳統(tǒng)的 GMM-HMM 語音識別系統(tǒng)最大的不同。前饋型深度神經(jīng)網(wǎng)絡(luò)由于比較簡單，是最初主流的深層神經(jīng)網(wǎng)絡(luò)。

語音識別的特征提取需要首先對波形進(jìn)行加窗和分幀，然后再提取特征。訓(xùn)練 GMM 模型的輸入是單幀特征，DNN則一般采用多個相鄰幀拼接在一起作為輸入，這種方法使得語音信號更長的結(jié)構(gòu)信息得以描述，研究表明，特征拼接輸入是DNN相比于GMM可以獲得大幅度性能提升的關(guān)鍵因素。由于說話時的協(xié)同發(fā)音的影響，語音是一種各幀之間相關(guān)性很強(qiáng)的復(fù)雜時變信號，正要說的字的發(fā)音和前后好幾個字都有影響，并且影響的長度隨著說話內(nèi)容的不同而時變。雖然采用拼接幀的方式可以學(xué)到一定程度的上下文信息，但是由于DNN輸入的窗長（即拼接的幀數(shù)）是事先固定的，因此DNN的結(jié)構(gòu)只能學(xué)習(xí)到固定的輸入到輸入的映射關(guān)系，導(dǎo)致其對時序信息的更長時相關(guān)性的建模靈活性不足。

遞歸神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用

語音信號具有明顯的協(xié)同發(fā)音現(xiàn)象，因此必須考慮長時相關(guān)性。由于循環(huán)神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的長時建模能力，使得 RNN也逐漸替代 DNN成為語音識別主流的建模方案。DNN 和 RNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示，RNN在隱層上增加了一個反饋連接，是其和DNN最大的不同。這意味著RNN 的隱層當(dāng)前時刻的輸入不但包括了來自上一層的輸出，還包括前一時刻的隱層輸出，這種循環(huán)反饋連接使得RNN原則上可以看到前面所有時刻的信息，這相當(dāng)于RNN具備了歷史記憶功能。對于語音這種時序信號來說，使用RNN建模顯得更加適合。

但是，傳統(tǒng)的 RNN 在訓(xùn)練過程中存在梯度消失的問題，導(dǎo)致該模型難以訓(xùn)練。為了克服梯度消失問題，有研究人員提出了長短時記憶RNN。LSTM-RNN 使用輸入門、輸出門和遺忘門來控制信息流，使得梯度能在相對更長的時間跨度內(nèi)穩(wěn)定地傳播。雙向LSTM-RNN （BLSTM-RNN）對當(dāng)前幀進(jìn)行處理時，可以利用歷史的語音信息和未來的語音信息，從而容易進(jìn)行更加準(zhǔn)確的決策，因此也能取得比單向LSTM更好的性能提升。

盡管雙向LSTM-RNN的性能更好，但它并不適合實(shí)時系統(tǒng)，由于要利用較長時刻的未來信息，會使得該系統(tǒng)具有很大時延，主要用于一些離線語音識別任務(wù)?；诖?，研究人員提出了延遲受控 BLSTM和行卷積 BLSTM 等模型結(jié)構(gòu)，這些模型試圖構(gòu)建單向LSTM和BLSTM之間的折中：即前向LSTM保持不變，針對用來看未來信息的反向LSTM做了優(yōu)化。在LC-BLSTM結(jié)構(gòu)中，標(biāo)準(zhǔn)的反向LSTM被帶有最多N幀前瞻量的反向LSTM替代，而在行卷積模型中被集成了N幀前瞻量的行卷積替代。

基于FSMN的語音識別系統(tǒng)

目前國際上已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)在進(jìn)行 RNN 架構(gòu)下的研究。目前效果最好的基于BLSTM-RNN 的語音識別系統(tǒng)存在時延過大的問題，這對于實(shí)時的語音交互系統(tǒng)（如語音輸入法），并不合適。盡管可以通過 LC-BLSTM 和行卷積BLSTM將BLSTM做到實(shí)時語音交互系統(tǒng)，由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu)，海量數(shù)據(jù)下的RNN模型訓(xùn)練需要耗費(fèi)大量的時間。最后，由于RNN對上下文相關(guān)性的擬合較強(qiáng)，相對于DNN更容易陷入過擬合的問題，容易因?yàn)橛?xùn)練數(shù)據(jù)的局部問題而帶來額外的異常識別錯誤。

為了解決以上問題，科大訊飛結(jié)合傳統(tǒng)的DNN框架和RNN的特點(diǎn)，研發(fā)出了一種名為前饋型序列記憶網(wǎng)絡(luò)的新框架，具體如圖所示。FSMN的結(jié)構(gòu)采用非循環(huán)的前饋結(jié)構(gòu)，只需要180 ms的時延，就達(dá)到了和BLSTM-RNN相當(dāng)?shù)男Ч?/p>

FSMN 的結(jié)構(gòu)示意如圖所示，其主要是基于傳統(tǒng)DNN結(jié)構(gòu)的改進(jìn)，在DNN的隱層旁增加了一個“記憶模塊”，這個記憶模塊用來存儲對判斷當(dāng)前語音幀有用的語音信號的歷史信息和未來信息。上圖畫出了記憶模塊左右各記憶N 幀語音信息的時序展開結(jié)構(gòu)。需記憶的歷史和未來信息長度N可根據(jù)實(shí)際任務(wù)的需要來調(diào)整。FSMN 記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的，這點(diǎn)有別于傳統(tǒng)的基于循環(huán)反饋的 RNN 模型。采用這種前饋結(jié)構(gòu)存儲信息有兩大好處：首先，傳統(tǒng)雙向RNN必須等待語音輸入結(jié)束才能對當(dāng)前語音幀進(jìn)行判斷，雙向FSMN對未來信息進(jìn)行記憶時只需要等待有限長度的未來語音幀即可，這個優(yōu)點(diǎn)使得FSMN的時延是可控的。實(shí)驗(yàn)證明，使用雙向FSMN結(jié)構(gòu)，時延控制在180 ms時就能取得和傳統(tǒng)雙向RNN相當(dāng)?shù)男Ч?；其次，傳統(tǒng)簡單的 RNN 實(shí)際并不能記住無窮長的歷史信息，而是只能記住有限長的歷史信息，原因是其訓(xùn)練過程中存在梯度消失的問題。然而 FSMN的記憶網(wǎng)絡(luò)完全基于前饋展開，在模型訓(xùn)練過程中，梯度則沿著記憶塊與隱層的連接權(quán)重往回傳給各個時刻，對判斷當(dāng)前語音幀的影響的信息通過這些連接權(quán)重來決定，而且這種梯度傳播是可訓(xùn)練的，并且在任何時刻都是常數(shù)衰減，以上的實(shí)現(xiàn)方式使得FSMN也具有了類似LSTM 的長時記憶能力，這相當(dāng)于使用了一種更為簡單的方式解決了傳統(tǒng) RNN 中的梯度消失問題。另外，由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，也使得它的并行度更高，GPU計算能力可利用得更加充分，從而獲得效率更高的模型訓(xùn)練過程，并且FSMN結(jié)構(gòu)在穩(wěn)定性方面也表現(xiàn)得更加出色。

基于卷積神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)

卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積運(yùn)算（或卷積層），是另一種可以有效利用長時上下文語境信息的模型。繼 DNN 在大詞匯量連續(xù)語音識別上的成功應(yīng)用之后，CNN 又在 DNN-HMM 混合模型架構(gòu)下被重新引入。重新引入CNN最初只是為了解決頻率軸的多變性來提升模型的穩(wěn)定性，因?yàn)樵摶旌夏Ｐ椭械?HMM 已經(jīng)有很強(qiáng)的處理語音識別中可變長度話語問題的能力。早期CNN-HMM模型僅使用了 1～2 個卷積層，然后和全連接 DNN層堆疊在一起。后來，LSTM 等其他 RNN 層也被集成到了該模型中，從而形成了所謂的CNN-LSTM-DNN（CLDNN）架構(gòu)。

基于CNN-HMM框架的語音識別吸引了大量的研究者，但是始終鮮有重大突破，最基本的原因有兩個：首先是他們?nèi)匀徊捎霉潭ㄩL度的語音幀拼接作為輸入的傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的思路，導(dǎo)致模型不能看到足夠的上下文信息；其次是他們采用的卷積層數(shù)很少，一般只有1～2層，把CNN視作一種特征提取器來使用，這樣的卷積網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)能力十分有限。針對這些問題，科大訊飛在2016年提出了一種全新的語音識別框架，稱為全序列卷積神經(jīng)網(wǎng)絡(luò)（deep fully convolutional neural network，DFCNN）。實(shí)驗(yàn)證明，DFCNN比 BLSTM 語音識別系統(tǒng)這個學(xué)術(shù)界和工業(yè)界最好的系統(tǒng)識別率提升了 15%以上。

如圖所示，DFCNN先對時域的語音信號進(jìn)行傅里葉變換得到語音的語譜圖，DFCNN直接將一句語音轉(zhuǎn)化成一張圖像作為輸入，輸出單元則直接與最終的識別結(jié)果（比如音節(jié)或者漢字）相對應(yīng)。DFCNN的結(jié)構(gòu)中把時間和頻率作為圖像的兩個維度，通過較多的卷積層和池化（pooling）層的組合，實(shí)現(xiàn)對整句語音的建模。DFCNN的原理是把語譜圖看作帶有特定模式的圖像，而有經(jīng)驗(yàn)的語音學(xué)專家能夠從中看出里面說的內(nèi)容。

為了理解 DFCNN 的優(yōu)勢所在，下面從輸入端、模型結(jié)構(gòu)和輸出端 3 個角度更具體地分析。首先，在輸入端，傳統(tǒng)語音識別系統(tǒng)的提取特征方式是在傅里葉變換后用各種類型的人工設(shè)計的濾波器，比如Log Mel-Filter Bank，造成在語音信號頻域，尤其是高頻區(qū)域的信息損失比較明顯。另外，傳統(tǒng)語音特征采用非常大的幀移來降低運(yùn)算量，導(dǎo)致時域上的信息會有損失，當(dāng)說話人語速較快的時候，這個問題表現(xiàn)得更為突出。而DFCNN將語譜圖作為輸入，避免了頻域和時域兩個維度的信息損失，具有天然的優(yōu)勢。其次，從模型結(jié)構(gòu)上來看，為了增強(qiáng) CNN 的表達(dá)能力， DFCNN 借鑒了在圖像識別中表現(xiàn)最好的網(wǎng)絡(luò)配置，與此同時，為了保證 DFCNN 可以表達(dá)語音的長時相關(guān)性，通過卷積池化層的累積，DFCNN能看到足夠長的歷史和未來信息，有了這兩點(diǎn)，和BLSTM的網(wǎng)絡(luò)結(jié)構(gòu)相比，DFCNN在頑健性上表現(xiàn)更加出色。最后，從輸出端來看，DFCNN比較靈活，可以方便地和其他建模方式融合，比如和連接時序分類模型方案結(jié)合，以實(shí)現(xiàn)整個模型的端到端聲學(xué)模型訓(xùn)練。DFCNN語音識別框架可以方便地和其他多個技術(shù)點(diǎn)結(jié)合，實(shí)驗(yàn)證明，在數(shù)萬小時的中文語音識別任務(wù)上，和目前業(yè)界最好的語音識別框架 BLSTM-CTC 系統(tǒng)相比， DFCNN系統(tǒng)獲得了額外15%的性能提升。

大規(guī)模語音數(shù)據(jù)下神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練

相比于傳統(tǒng)的 GMM-HMM 系統(tǒng)，基于DNN-HMM 語音識別系統(tǒng)取得了巨大的性能提升。但是DNN聲學(xué)模型的訓(xùn)練卻非常耗時。舉個例子，在一個配置為E5-2697 v4的CPU上進(jìn)行 2 萬小時規(guī)模的語音數(shù)據(jù)的聲學(xué)模型訓(xùn)練，大概需要 116 天左右才能訓(xùn)練完。造成這種情況的潛在原因是將隨機(jī)梯度下降算法作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的基本算法，SGD算法收斂相對較慢，而且是一個串行算法，很難進(jìn)行并行化訓(xùn)練。而目前工業(yè)界主流的語音識別系統(tǒng)涉及的訓(xùn)練數(shù)據(jù)一般為幾千小時甚至幾萬小時級別，因此，提高在大規(guī)模語音數(shù)據(jù)下深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和訓(xùn)練效率，也成為了研究熱點(diǎn)和必須解決的問題。

由于深度神經(jīng)網(wǎng)絡(luò)的模型參數(shù)非常稀疏，利用這個特點(diǎn)，將深度神經(jīng)網(wǎng)絡(luò)模型中超過 80%的較小參數(shù)都設(shè)置為 0，幾乎沒有性能損失，同時模型尺寸大大減少，但是訓(xùn)練時間并沒有明顯減小，原因是參數(shù)稀疏性帶來的高度隨機(jī)內(nèi)存訪問并沒有得到太多的優(yōu)化。進(jìn)一步地，在深度神經(jīng)網(wǎng)絡(luò)中，用兩個低秩矩陣的乘積表示權(quán)重矩陣，實(shí)現(xiàn)了30%～50%的效率提升。

過使用多個CPU或者GPU并行訓(xùn)練來解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率是另外一種可行的方法。通常方式是：把訓(xùn)練數(shù)據(jù)分成許多小塊后并行地送到不同的機(jī)器來進(jìn)行矩陣運(yùn)算，從而實(shí)現(xiàn)并行訓(xùn)練。優(yōu)化方案是：在模型的每遍迭代中，先將訓(xùn)練數(shù)據(jù)分成N個完全不相交的子集，然后在每個子集中訓(xùn)練一個sub-MLP，最后把這些sub-MLP進(jìn)行合并網(wǎng)絡(luò)結(jié)合。為了進(jìn)一步提升并行效率，在上千個CPU核的計算集群實(shí)現(xiàn)了這種方式，深層網(wǎng)絡(luò)的訓(xùn)練主要是利用異步梯度下降算法。將異步梯度下降算法應(yīng)用到了多個GPU中。一種管道式的 BP 算法被提了出來，該方法利用不同的GPU單元來計算神經(jīng)網(wǎng)絡(luò)中不同層，實(shí)現(xiàn)并行訓(xùn)練的效果。實(shí)驗(yàn)證明，相對使用單個GPU訓(xùn)練，該方法通過使用4個GPU實(shí)現(xiàn)了3.1倍左右的效率提升。然而，不同計算單元之間極其頻繁的數(shù)據(jù)傳遞成為該類方法提升訓(xùn)練效率的主要瓶頸。為此，為了更好地實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練，一種新的基于狀態(tài)聚類的多深層神經(jīng)網(wǎng)絡(luò)建模方法被提出，該方法先將訓(xùn)練數(shù)據(jù)在狀態(tài)層面進(jìn)行聚類，在狀態(tài)層面進(jìn)行不相交的子集劃分，使得不同計算單元神經(jīng)網(wǎng)絡(luò)之間的數(shù)據(jù)傳遞規(guī)模大幅度減小，從而實(shí)現(xiàn)每個神經(jīng)網(wǎng)絡(luò)完全獨(dú)立的并行訓(xùn)練。使用4塊GPU，在聚類數(shù)為4類的情況下，在SWB （SwitchBoard）數(shù)據(jù)集上的實(shí)驗(yàn)表明，這種狀態(tài)聚類的多神經(jīng)網(wǎng)絡(luò)方法取得了約4倍的訓(xùn)練效率提升。

深度學(xué)習(xí)理論除了在聲學(xué)模型建模上獲得了廣泛的應(yīng)用外，在語音識別系統(tǒng)另外的重要組件——語言模型上也得到了應(yīng)用。在深度神經(jīng)網(wǎng)絡(luò)普及之前，語音識別系統(tǒng)主要采用傳統(tǒng)的統(tǒng)計語言模型N-gram模型進(jìn)行建模。N-gram模型也具備明顯的優(yōu)點(diǎn)，其結(jié)構(gòu)簡單且訓(xùn)練效率很高，但是 N-gram 的模型參數(shù)會隨著階數(shù)和詞表的增大而指數(shù)級增長，導(dǎo)致無法使用更高的階數(shù)，性能容易碰到瓶頸，在訓(xùn)練語料處于相對稀疏的狀態(tài)時，可以借助降權(quán)（discounting）和回溯（backing-off）等成熟的平滑算法解決低頻詞或不可見詞的概率估計問題，以獲得比較可靠的模型估計。

在20世紀(jì)初，一些淺層前饋神經(jīng)網(wǎng)絡(luò)被用于統(tǒng)計語言模型建模。神經(jīng)網(wǎng)絡(luò)語言模型是一種連續(xù)空間語言模型，平滑的詞概率分布函數(shù)使得它對于訓(xùn)練語料中的低頻詞和不可見詞的概率估計更為頑健，具有更好的推廣性，在語音識別任務(wù)上也取得了顯著的效果。最近幾年，相關(guān)研究人員也將深層神經(jīng)網(wǎng)絡(luò)用于語言模型建模，并取得了進(jìn)一步的性能提升。

深度學(xué)習(xí)、大數(shù)據(jù)和云計算之間的關(guān)系

基于深度學(xué)習(xí)的語音識別技術(shù)在21世紀(jì)初走向舞臺的中央，并不只是由于深度學(xué)習(xí)類機(jī)器學(xué)習(xí)算法的進(jìn)步，而是大數(shù)據(jù)、云計算和深度學(xué)習(xí)這3個要素相互促進(jìn)的結(jié)果。

不同于之前 GMM-HMM 語音識別框架表達(dá)能力有限、效果對于大規(guī)模數(shù)據(jù)易飽和的情況，深度學(xué)習(xí)框架所具備的多層非線性變換的深層結(jié)構(gòu)，則具有更強(qiáng)的表達(dá)與建模能力，使得語音識別模型對復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力得到了空前的提升，使得更大規(guī)模的海量數(shù)據(jù)的作用得以充分的發(fā)揮。大數(shù)據(jù)就像奶粉一樣，“哺育”了深度學(xué)習(xí)算法，讓深度學(xué)習(xí)算法變得越來越強(qiáng)大。

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)和產(chǎn)品的普及，更重要的是采用云計算的方式，使得多種類型的海量數(shù)據(jù)得以在云端匯集。而對大規(guī)模的數(shù)據(jù)的運(yùn)算的要求則又顯著提升了對于云計算方式的依賴，因此云計算成為了本次深度學(xué)習(xí)革命的關(guān)鍵推手之一。深度學(xué)習(xí)框架在云端的部署，則顯著增強(qiáng)了云計算的能力。

正是由于深度學(xué)習(xí)、大數(shù)據(jù)和云計算三者的相互促進(jìn)，才成就了語音技術(shù)的進(jìn)步，成就了人工智能的浪潮。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1821

文章
50367

瀏覽量
267072
語音技術(shù)

語音技術(shù)

+關(guān)注

關(guān)注
2

文章
227

瀏覽量
21814

原文標(biāo)題：離開語音技術(shù)的人工智能都是耍流氓

文章出處：【微信號：WW_CGQJS，微信公眾號：傳感器技術(shù)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

探究現(xiàn)代智能語音識別技術(shù)的起源及發(fā)展

評論