日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究現(xiàn)代智能語音識別技術(shù)的起源及發(fā)展

傳感器技術(shù) ? 來源:cc ? 2019-02-13 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音是人類最自然的交互方式。計算機(jī)發(fā)明之后,讓機(jī)器能夠“聽懂”人類的語言,理解語言中的內(nèi)在含義,并能做出正確的回答就成為了人們追求的目標(biāo)。這個過程中主要涉及3種技術(shù),即自動語音識別;自然語言處理(目的是讓機(jī)器能理解人的意圖)和語音合成(目的是讓機(jī)器能說話)

與機(jī)器進(jìn)行語音交流,讓它聽明白你在說什么。語音識別技術(shù)將人類這一曾經(jīng)的夢想變成了現(xiàn)實(shí)。語音識別技術(shù)就是“機(jī)器的聽覺系統(tǒng)”,該技術(shù)讓機(jī)器通過識別和理解,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。

現(xiàn)代智能語音識別技術(shù)的起源及發(fā)展

在1952年的貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國的Denes等人研制了第一個計算機(jī)語音識別系統(tǒng)。

大規(guī)模的語音識別研究始于上世紀(jì)70年代以后,并在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語音識別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。

同時,語音識別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型的技術(shù)思路。此外,業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路。

上世紀(jì)90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在上世界70年代由美國國防部遠(yuǎn)景研究計劃局資助的一項(xiàng)計劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進(jìn)入上世紀(jì)90年代,DARPA計劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識別裝置中的自然語言處理部分,識別任務(wù)設(shè)定為“航空旅行信息檢索”。

我國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。由于當(dāng)時條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國科學(xué)院聲學(xué)所開始了計算機(jī)語音識別。

進(jìn)入上世紀(jì)80年代以來,隨著計算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時,國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下,國內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

1986年,語音識別作為智能計算機(jī)系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下,中國開始組織語音識別技術(shù)的研究,并決定了每隔兩年召開一次語音識別的專題會議。自此,我國語音識別技術(shù)進(jìn)入了一個新的發(fā)展階段。

自2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。

將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語音識別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語音識別錯誤率降低了30%,是近20年來語音識別技術(shù)方面最快的進(jìn)步。

2009年前后,大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個大的解碼網(wǎng)絡(luò),提高了解碼的速度,為語音識別的實(shí)時應(yīng)用提供了基礎(chǔ)。

隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動終端的普及應(yīng)用,可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。

在語音識別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標(biāo)注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。

現(xiàn)如今,語音識別在移動終端上的應(yīng)用最為火熱,語音對話機(jī)器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。

語音識別技術(shù)的主要方法

目前具有代表性的語音識別方法主要有動態(tài)時間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等方法。

動態(tài)時間規(guī)整算法(Dynamic Time Warping,DTW)是在非特定人語音識別中一種簡單有效的方法,該算法基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別技術(shù)中出現(xiàn)較早、較常用的一種算法。在應(yīng)用DTW算法進(jìn)行語音識別時,就是將已經(jīng)預(yù)處理和分幀過的語音測試信號和參考語音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。

隱馬爾可夫模型(HMM)是語音信號處理中的一種統(tǒng)計模型,是由Markov鏈演變來的,所以它是基于參數(shù)模型的統(tǒng)計識別方法。由于其模式庫是通過反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲存好的模式樣本,且其識別過程中運(yùn)用待識別語音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對應(yīng)的最佳狀態(tài)序列作為識別輸出,因此是較理想的語音識別模型。

矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特征參數(shù)的標(biāo)量數(shù)據(jù)組成一個矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個小區(qū)域,每個小區(qū)域?qū)ふ乙粋€代表矢量,量化時落入小區(qū)域的矢量就用這個代表矢量代替。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運(yùn)算量實(shí)現(xiàn)最大可能的平均信噪比。

在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語音識別方法。其本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性,其強(qiáng)大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機(jī)制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認(rèn),但它對動態(tài)時間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態(tài)模式分類問題,并不涉及時間序列的處理。盡管學(xué)者們提出了許多含反饋的結(jié)構(gòu),但它們?nèi)圆蛔阋钥坍嬛T如語音信號這種時間序列的動態(tài)特性。由于ANN不能很好地描述語音信號的時間動態(tài)特性,所以常把ANN與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識別而克服HMM和ANN各自的缺點(diǎn)。近年來結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法研究取得了顯著進(jìn)展,其識別率已經(jīng)接近隱含馬爾可夫模型的識別系統(tǒng),進(jìn)一步提高了語音識別的魯棒性和準(zhǔn)確率。

支持向量機(jī)(Support vector machine)是應(yīng)用統(tǒng)計學(xué)理論的一種新的學(xué)習(xí)機(jī)模型,采用結(jié)構(gòu)風(fēng)險最小化原理(Structural Risk Minimization,SRM),有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險最小化方法的缺點(diǎn)。兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能,已經(jīng)被廣泛地應(yīng)用到模式識別領(lǐng)域。

語音識別技術(shù)模型在中深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用

深度學(xué)習(xí)是指利用多層的非線性信號和信息處理技術(shù),通過有監(jiān)督或者無監(jiān)督的方法,進(jìn)行信號轉(zhuǎn)換、特征提取以及模式分類等任務(wù)的機(jī)器學(xué)習(xí)類方法的總稱。因?yàn)椴捎蒙顚咏Y(jié)構(gòu)模型對信號和信息進(jìn)行處理,所以這里稱為“深度”學(xué)習(xí)。傳統(tǒng)的機(jī)器學(xué)習(xí)模型很多屬于淺層結(jié)構(gòu)模型,例如支持向量機(jī)、GMM、HMM、條件隨機(jī)場、線性或者非線性動態(tài)系統(tǒng)、單隱層的神經(jīng)網(wǎng)絡(luò)等。

原始的輸入信號只經(jīng)過比較少的層次(通常是一層)的線性或者非線性處理以達(dá)到信號與信息處理,是這些結(jié)構(gòu)模型的共同特點(diǎn)。淺層模型的優(yōu)點(diǎn)在于在數(shù)學(xué)上有比較完善的算法,并且結(jié)構(gòu)簡單、易于學(xué)習(xí)。但是淺層模型使用的線性或者非線性變換組合比較少,對于信號中復(fù)雜的結(jié)構(gòu)信息并不能有效地學(xué)習(xí),對于復(fù)雜信號的表達(dá)能力有局限性。而深層結(jié)構(gòu)的模型則更適合于處理復(fù)雜類型的信號,原因在于深層結(jié)構(gòu)具備多層非線性變換,具有更強(qiáng)的表達(dá)與建模能力。

人類語音信號產(chǎn)生和感知就是這樣一個極其復(fù)雜的過程,并且在生物學(xué)上被證明具有明顯的多層次甚至深層次的處理結(jié)構(gòu),所以,對于語音識別任務(wù),采用淺層結(jié)構(gòu)模型明顯有很大的局限性。利用深層次結(jié)構(gòu)中的多層非線性變換進(jìn)行語音信號中的結(jié)構(gòu)化信息和更高層信息的提取,是更加合理的選擇。

DNN在語音識別系統(tǒng)中的應(yīng)用和局限性

從2011年之后,基于DNN-HMM聲學(xué)模型在多種語言、多種任務(wù)的語音識別上取得了比傳統(tǒng) GMM-HMM 聲學(xué)模型大幅度且一致性的效果提升?;贒NN-HMM語音識別系統(tǒng)的基本框架如圖所示,采用DNN替換GMM模型來建模語音觀察概率,是其和傳統(tǒng)的 GMM-HMM 語音識別系統(tǒng)最大的不同。前饋型深度神經(jīng)網(wǎng)絡(luò)由于比較簡單,是最初主流的深層神經(jīng)網(wǎng)絡(luò)。

語音識別的特征提取需要首先對波形進(jìn)行加窗和分幀,然后再提取特征。訓(xùn)練 GMM 模型的輸入是單幀特征,DNN則一般采用多個相鄰幀拼接在一起作為輸入,這種方法使得語音信號更長的結(jié)構(gòu)信息得以描述,研究表明,特征拼接輸入是DNN相比于GMM可以獲得大幅度性能提升的關(guān)鍵因素。由于說話時的協(xié)同發(fā)音的影響,語音是一種各幀之間相關(guān)性很強(qiáng)的復(fù)雜時變信號,正要說的字的發(fā)音和前后好幾個字都有影響,并且影響的長度隨著說話內(nèi)容的不同而時變。雖然采用拼接幀的方式可以學(xué)到一定程度的上下文信息,但是由于DNN輸入的窗長(即拼接的幀數(shù))是事先固定的,因此DNN的結(jié)構(gòu)只能學(xué)習(xí)到固定的輸入到輸入的映射關(guān)系,導(dǎo)致其對時序信息的更長時相關(guān)性的建模靈活性不足。

遞歸神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用

語音信號具有明顯的協(xié)同發(fā)音現(xiàn)象,因此必須考慮長時相關(guān)性。由于循環(huán)神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的長時建模能力,使得 RNN也逐漸替代 DNN成為語音識別主流的建模方案。DNN 和 RNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示,RNN在隱層上增加了一個反饋連接,是其和DNN最大的不同。這意味著RNN 的隱層當(dāng)前時刻的輸入不但包括了來自上一層的輸出,還包括前一時刻的隱層輸出,這種循環(huán)反饋連接使得RNN原則上可以看到前面所有時刻的信息,這相當(dāng)于RNN具備了歷史記憶功能。對于語音這種時序信號來說,使用RNN建模顯得更加適合。

但是,傳統(tǒng)的 RNN 在訓(xùn)練過程中存在梯度消失的問題,導(dǎo)致該模型難以訓(xùn)練。為了克服梯度消失問題,有研究人員提出了長短時記憶RNN。LSTM-RNN 使用輸入門、輸出門和遺忘門來控制信息流,使得梯度能在相對更長的時間跨度內(nèi)穩(wěn)定地傳播。雙向LSTM-RNN (BLSTM-RNN)對當(dāng)前幀進(jìn)行處理時,可以利用歷史的語音信息和未來的語音信息,從而容易進(jìn)行更加準(zhǔn)確的決策,因此也能取得比單向LSTM更好的性能提升。

盡管雙向LSTM-RNN的性能更好,但它并不適合實(shí)時系統(tǒng),由于要利用較長時刻的未來信息,會使得該系統(tǒng)具有很大時延,主要用于一些離線語音識別任務(wù)?;诖?,研究人員提出了延遲受控 BLSTM和行卷積 BLSTM 等模型結(jié)構(gòu),這些模型試圖構(gòu)建單向LSTM和BLSTM之間的折中:即前向LSTM保持不變,針對用來看未來信息的反向LSTM做了優(yōu)化。在LC-BLSTM結(jié)構(gòu)中,標(biāo)準(zhǔn)的反向LSTM被帶有最多N幀前瞻量的反向LSTM替代,而在行卷積模型中被集成了N幀前瞻量的行卷積替代。

基于FSMN的語音識別系統(tǒng)

目前國際上已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)在進(jìn)行 RNN 架構(gòu)下的研究。目前效果最好的基于BLSTM-RNN 的語音識別系統(tǒng)存在時延過大的問題,這對于實(shí)時的語音交互系統(tǒng)(如語音輸入法),并不合適。盡管可以通過 LC-BLSTM 和行卷積BLSTM將BLSTM做到實(shí)時語音交互系統(tǒng),由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu),海量數(shù)據(jù)下的RNN模型訓(xùn)練需要耗費(fèi)大量的時間。最后,由于RNN對上下文相關(guān)性的擬合較強(qiáng),相對于DNN更容易陷入過擬合的問題,容易因?yàn)橛?xùn)練數(shù)據(jù)的局部問題而帶來額外的異常識別錯誤。

為了解決以上問題,科大訊飛結(jié)合傳統(tǒng)的DNN框架和RNN的特點(diǎn),研發(fā)出了一種名為前饋型序列記憶網(wǎng)絡(luò)的新框架,具體如圖所示。FSMN的結(jié)構(gòu)采用非循環(huán)的前饋結(jié)構(gòu),只需要180 ms的時延,就達(dá)到了和BLSTM-RNN相當(dāng)?shù)男Ч?/p>

FSMN 的結(jié)構(gòu)示意如圖所示,其主要是基于傳統(tǒng)DNN結(jié)構(gòu)的改進(jìn),在DNN的隱層旁增加了一個“記憶模塊”,這個記憶模塊用來存儲對判斷當(dāng)前語音幀有用的語音信號的歷史信息和未來信息。上圖畫出了記憶模塊左右各記憶N 幀語音信息的時序展開結(jié)構(gòu)。需記憶的歷史和未來信息長度N可根據(jù)實(shí)際任務(wù)的需要來調(diào)整。FSMN 記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的,這點(diǎn)有別于傳統(tǒng)的基于循環(huán)反饋的 RNN 模型。采用這種前饋結(jié)構(gòu)存儲信息有兩大好處:首先,傳統(tǒng)雙向RNN必須等待語音輸入結(jié)束才能對當(dāng)前語音幀進(jìn)行判斷,雙向FSMN對未來信息進(jìn)行記憶時只需要等待有限長度的未來語音幀即可,這個優(yōu)點(diǎn)使得FSMN的時延是可控的。實(shí)驗(yàn)證明,使用雙向FSMN結(jié)構(gòu),時延控制在180 ms時就能取得和傳統(tǒng)雙向RNN相當(dāng)?shù)男Ч?;其次,傳統(tǒng)簡單的 RNN 實(shí)際并不能記住無窮長的歷史信息,而是只能記住有限長的歷史信息,原因是其訓(xùn)練過程中存在梯度消失的問題。然而 FSMN的記憶網(wǎng)絡(luò)完全基于前饋展開,在模型訓(xùn)練過程中,梯度則沿著記憶塊與隱層的連接權(quán)重往回傳給各個時刻,對判斷當(dāng)前語音幀的影響的信息通過這些連接權(quán)重來決定,而且這種梯度傳播是可訓(xùn)練的,并且在任何時刻都是常數(shù)衰減,以上的實(shí)現(xiàn)方式使得FSMN也具有了類似LSTM 的長時記憶能力,這相當(dāng)于使用了一種更為簡單的方式解決了傳統(tǒng) RNN 中的梯度消失問題。另外,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也使得它的并行度更高,GPU計算能力可利用得更加充分,從而獲得效率更高的模型訓(xùn)練過程,并且FSMN結(jié)構(gòu)在穩(wěn)定性方面也表現(xiàn)得更加出色。

基于卷積神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)

卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積運(yùn)算(或卷積層),是另一種可以有效利用長時上下文語境信息的模型。繼 DNN 在大詞匯量連續(xù)語音識別上的成功應(yīng)用之后,CNN 又在 DNN-HMM 混合模型架構(gòu)下被重新引入。重新引入CNN最初只是為了解決頻率軸的多變性來提升模型的穩(wěn)定性,因?yàn)樵摶旌夏P椭械?HMM 已經(jīng)有很強(qiáng)的處理語音識別中可變長度話語問題的能力。早期CNN-HMM模型僅使用了 1~2 個卷積層,然后和全連接 DNN層堆疊在一起。后來,LSTM 等其他 RNN 層也被集成到了該模型中,從而形成了所謂的CNN-LSTM-DNN(CLDNN)架構(gòu)。

基于CNN-HMM框架的語音識別吸引了大量的研究者,但是始終鮮有重大突破,最基本的原因有兩個:首先是他們?nèi)匀徊捎霉潭ㄩL度的語音幀拼接作為輸入的傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的思路,導(dǎo)致模型不能看到足夠的上下文信息;其次是他們采用的卷積層數(shù)很少,一般只有1~2層,把CNN視作一種特征提取器來使用,這樣的卷積網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)能力十分有限。針對這些問題,科大訊飛在2016年提出了一種全新的語音識別框架,稱為全序列卷積神經(jīng)網(wǎng)絡(luò)(deep fully convolutional neural network,DFCNN)。實(shí)驗(yàn)證明,DFCNN比 BLSTM 語音識別系統(tǒng)這個學(xué)術(shù)界和工業(yè)界最好的系統(tǒng)識別率提升了 15%以上。

如圖所示,DFCNN先對時域的語音信號進(jìn)行傅里葉變換得到語音的語譜圖,DFCNN直接將一句語音轉(zhuǎn)化成一張圖像作為輸入,輸出單元則直接與最終的識別結(jié)果(比如音節(jié)或者漢字)相對應(yīng)。DFCNN的結(jié)構(gòu)中把時間和頻率作為圖像的兩個維度,通過較多的卷積層和池化(pooling)層的組合,實(shí)現(xiàn)對整句語音的建模。DFCNN的原理是把語譜圖看作帶有特定模式的圖像,而有經(jīng)驗(yàn)的語音學(xué)專家能夠從中看出里面說的內(nèi)容。

為了理解 DFCNN 的優(yōu)勢所在,下面從輸入端、模型結(jié)構(gòu)和輸出端 3 個角度更具體地分析。首先,在輸入端,傳統(tǒng)語音識別系統(tǒng)的提取特征方式是在傅里葉變換后用各種類型的人工設(shè)計的濾波器,比如Log Mel-Filter Bank,造成在語音信號頻域,尤其是高頻區(qū)域的信息損失比較明顯。另外,傳統(tǒng)語音特征采用非常大的幀移來降低運(yùn)算量,導(dǎo)致時域上的信息會有損失,當(dāng)說話人語速較快的時候,這個問題表現(xiàn)得更為突出。而DFCNN將語譜圖作為輸入,避免了頻域和時域兩個維度的信息損失,具有天然的優(yōu)勢。其次,從模型結(jié)構(gòu)上來看,為了增強(qiáng) CNN 的表達(dá)能力, DFCNN 借鑒了在圖像識別中表現(xiàn)最好的網(wǎng)絡(luò)配置,與此同時,為了保證 DFCNN 可以表達(dá)語音的長時相關(guān)性,通過卷積池化層的累積,DFCNN能看到足夠長的歷史和未來信息,有了這兩點(diǎn),和BLSTM的網(wǎng)絡(luò)結(jié)構(gòu)相比,DFCNN在頑健性上表現(xiàn)更加出色。最后,從輸出端來看,DFCNN比較靈活,可以方便地和其他建模方式融合,比如和連接時序分類模型方案結(jié)合,以實(shí)現(xiàn)整個模型的端到端聲學(xué)模型訓(xùn)練。DFCNN語音識別框架可以方便地和其他多個技術(shù)點(diǎn)結(jié)合,實(shí)驗(yàn)證明,在數(shù)萬小時的中文語音識別任務(wù)上,和目前業(yè)界最好的語音識別框架 BLSTM-CTC 系統(tǒng)相比, DFCNN系統(tǒng)獲得了額外15%的性能提升。

大規(guī)模語音數(shù)據(jù)下神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練

相比于傳統(tǒng)的 GMM-HMM 系統(tǒng),基于DNN-HMM 語音識別系統(tǒng)取得了巨大的性能提升。但是DNN聲學(xué)模型的訓(xùn)練卻非常耗時。舉個例子,在一個配置為E5-2697 v4的CPU上進(jìn)行 2 萬小時規(guī)模的語音數(shù)據(jù)的聲學(xué)模型訓(xùn)練,大概需要 116 天左右才能訓(xùn)練完。造成這種情況的潛在原因是將隨機(jī)梯度下降算法作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的基本算法,SGD算法收斂相對較慢,而且是一個串行算法,很難進(jìn)行并行化訓(xùn)練。而目前工業(yè)界主流的語音識別系統(tǒng)涉及的訓(xùn)練數(shù)據(jù)一般為幾千小時甚至幾萬小時級別,因此,提高在大規(guī)模語音數(shù)據(jù)下深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和訓(xùn)練效率,也成為了研究熱點(diǎn)和必須解決的問題。

由于深度神經(jīng)網(wǎng)絡(luò)的模型參數(shù)非常稀疏,利用這個特點(diǎn),將深度神經(jīng)網(wǎng)絡(luò)模型中超過 80%的較小參數(shù)都設(shè)置為 0,幾乎沒有性能損失,同時模型尺寸大大減少,但是訓(xùn)練時間并沒有明顯減小,原因是參數(shù)稀疏性帶來的高度隨機(jī)內(nèi)存訪問并沒有得到太多的優(yōu)化。進(jìn)一步地,在深度神經(jīng)網(wǎng)絡(luò)中,用兩個低秩矩陣的乘積表示權(quán)重矩陣,實(shí)現(xiàn)了30%~50%的效率提升。

過使用多個CPU或者GPU并行訓(xùn)練來解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率是另外一種可行的方法。通常方式是:把訓(xùn)練數(shù)據(jù)分成許多小塊后并行地送到不同的機(jī)器來進(jìn)行矩陣運(yùn)算,從而實(shí)現(xiàn)并行訓(xùn)練。優(yōu)化方案是:在模型的每遍迭代中,先將訓(xùn)練數(shù)據(jù)分成N個完全不相交的子集,然后在每個子集中訓(xùn)練一個sub-MLP,最后把這些sub-MLP進(jìn)行合并網(wǎng)絡(luò)結(jié)合。為了進(jìn)一步提升并行效率,在上千個CPU核的計算集群實(shí)現(xiàn)了這種方式,深層網(wǎng)絡(luò)的訓(xùn)練主要是利用異步梯度下降算法。將異步梯度下降算法應(yīng)用到了多個GPU中。一種管道式的 BP 算法被提了出來,該方法利用不同的GPU單元來計算神經(jīng)網(wǎng)絡(luò)中不同層,實(shí)現(xiàn)并行訓(xùn)練的效果。實(shí)驗(yàn)證明,相對使用單個GPU訓(xùn)練,該方法通過使用4個GPU實(shí)現(xiàn)了3.1倍左右的效率提升。然而,不同計算單元之間極其頻繁的數(shù)據(jù)傳遞成為該類方法提升訓(xùn)練效率的主要瓶頸。為此,為了更好地實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練,一種新的基于狀態(tài)聚類的多深層神經(jīng)網(wǎng)絡(luò)建模方法被提出,該方法先將訓(xùn)練數(shù)據(jù)在狀態(tài)層面進(jìn)行聚類,在狀態(tài)層面進(jìn)行不相交的子集劃分,使得不同計算單元神經(jīng)網(wǎng)絡(luò)之間的數(shù)據(jù)傳遞規(guī)模大幅度減小,從而實(shí)現(xiàn)每個神經(jīng)網(wǎng)絡(luò)完全獨(dú)立的并行訓(xùn)練。使用4塊GPU,在聚類數(shù)為4類的情況下,在SWB (SwitchBoard)數(shù)據(jù)集上的實(shí)驗(yàn)表明,這種狀態(tài)聚類的多神經(jīng)網(wǎng)絡(luò)方法取得了約4倍的訓(xùn)練效率提升。

深度學(xué)習(xí)理論除了在聲學(xué)模型建模上獲得了廣泛的應(yīng)用外,在語音識別系統(tǒng)另外的重要組件——語言模型上也得到了應(yīng)用。在深度神經(jīng)網(wǎng)絡(luò)普及之前,語音識別系統(tǒng)主要采用傳統(tǒng)的統(tǒng)計語言模型N-gram模型進(jìn)行建模。N-gram模型也具備明顯的優(yōu)點(diǎn),其結(jié)構(gòu)簡單且訓(xùn)練效率很高,但是 N-gram 的模型參數(shù)會隨著階數(shù)和詞表的增大而指數(shù)級增長,導(dǎo)致無法使用更高的階數(shù),性能容易碰到瓶頸,在訓(xùn)練語料處于相對稀疏的狀態(tài)時,可以借助降權(quán)(discounting)和回溯(backing-off)等成熟的平滑算法解決低頻詞或不可見詞的概率估計問題,以獲得比較可靠的模型估計。

在20世紀(jì)初,一些淺層前饋神經(jīng)網(wǎng)絡(luò)被用于統(tǒng)計語言模型建模。神經(jīng)網(wǎng)絡(luò)語言模型是一種連續(xù)空間語言模型,平滑的詞概率分布函數(shù)使得它對于訓(xùn)練語料中的低頻詞和不可見詞的概率估計更為頑健,具有更好的推廣性,在語音識別任務(wù)上也取得了顯著的效果。最近幾年,相關(guān)研究人員也將深層神經(jīng)網(wǎng)絡(luò)用于語言模型建模,并取得了進(jìn)一步的性能提升。

深度學(xué)習(xí)、大數(shù)據(jù)和云計算之間的關(guān)系

基于深度學(xué)習(xí)的語音識別技術(shù)在21世紀(jì)初走向舞臺的中央,并不只是由于深度學(xué)習(xí)類機(jī)器學(xué)習(xí)算法的進(jìn)步,而是大數(shù)據(jù)、云計算和深度學(xué)習(xí)這3個要素相互促進(jìn)的結(jié)果。

不同于之前 GMM-HMM 語音識別框架表達(dá)能力有限、效果對于大規(guī)模數(shù)據(jù)易飽和的情況,深度學(xué)習(xí)框架所具備的多層非線性變換的深層結(jié)構(gòu),則具有更強(qiáng)的表達(dá)與建模能力,使得語音識別模型對復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力得到了空前的提升,使得更大規(guī)模的海量數(shù)據(jù)的作用得以充分的發(fā)揮。大數(shù)據(jù)就像奶粉一樣,“哺育”了深度學(xué)習(xí)算法,讓深度學(xué)習(xí)算法變得越來越強(qiáng)大。

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)和產(chǎn)品的普及,更重要的是采用云計算的方式,使得多種類型的海量數(shù)據(jù)得以在云端匯集。而對大規(guī)模的數(shù)據(jù)的運(yùn)算的要求則又顯著提升了對于云計算方式的依賴,因此云計算成為了本次深度學(xué)習(xí)革命的關(guān)鍵推手之一。深度學(xué)習(xí)框架在云端的部署,則顯著增強(qiáng)了云計算的能力。

正是由于深度學(xué)習(xí)、大數(shù)據(jù)和云計算三者的相互促進(jìn),才成就了語音技術(shù)的進(jìn)步,成就了人工智能的浪潮。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1821

    文章

    50367

    瀏覽量

    267072
  • 語音技術(shù)
    +關(guān)注

    關(guān)注

    2

    文章

    227

    瀏覽量

    21814

原文標(biāo)題:離開語音技術(shù)的人工智能都是耍流氓

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    語音識別ic芯片分類工作原理,語音識別芯片分類

    設(shè)備執(zhí)行相應(yīng)動作。例如,在智能娃娃產(chǎn)品中,當(dāng)用戶說出“眨眨眼”,芯片識別指令后便會控制電機(jī)讓娃娃完成眨眼動作。除了語音識別功能,現(xiàn)代
    的頭像 發(fā)表于 04-24 15:14 ?171次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>ic芯片分類工作原理,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片分類

    ASPICE 的起源發(fā)展歷程(二)

    各行業(yè)定制化過程標(biāo)準(zhǔn)的核心基礎(chǔ)。 (二)行業(yè)定制:ASPICE 的正式誕生 隨著汽車電子技術(shù)發(fā)展,車載軟件的占比與復(fù)雜度持續(xù)提升,通用 SPICE 標(biāo)準(zhǔn)無法適配汽車行業(yè)對功能安全、失效管控的極致要求
    發(fā)表于 04-03 15:11

    語音識別芯片介紹,語音識別芯片工作原理解析

    智能交互不斷深入的今天,語音識別芯片正成為眾多設(shè)備實(shí)現(xiàn)語音控制與AI對話的關(guān)鍵部件。語音芯片廣義上涵蓋
    的頭像 發(fā)表于 04-01 16:26 ?260次閱讀

    語音識別芯片的功能與優(yōu)勢有哪些

    智能語音交互快速發(fā)展的今天,語音識別芯片作為核心部件,正逐漸成為各類智能設(shè)備不可或缺的組成部分
    的頭像 發(fā)表于 03-30 15:31 ?191次閱讀

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?427次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識別芯片作為人機(jī)交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的
    的頭像 發(fā)表于 11-14 17:11 ?1570次閱讀

    廣州唯創(chuàng)電子WTK6900H-24SS語音識別芯片:智能語音控制賦能臺燈創(chuàng)新應(yīng)用 | 語音IC廠家

    智能家居快速發(fā)展的今天,語音交互技術(shù)正在深刻改變?nèi)藗兣c家居設(shè)備的互動方式。臺燈作為日常生活中不可或缺的照明工具,其智能化升級已成為行業(yè)
    的頭像 發(fā)表于 11-05 09:20 ?995次閱讀
    廣州唯創(chuàng)電子WTK6900H-24SS<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:<b class='flag-5'>智能</b><b class='flag-5'>語音</b>控制賦能臺燈創(chuàng)新應(yīng)用 | <b class='flag-5'>語音</b>IC廠家

    廣州唯創(chuàng)電子WTK6900H-32N語音識別芯片:智能語音控制賦能LED燈帶創(chuàng)新應(yīng)用 | 語音IC廠家

    智能家居快速發(fā)展的今天,語音控制技術(shù)正以其獨(dú)特的便捷性和智能化特性,重新定義著人們與家居環(huán)境的交互方式。廣州唯創(chuàng)電子作為國內(nèi)領(lǐng)先的
    的頭像 發(fā)表于 11-04 08:53 ?844次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:<b class='flag-5'>智能</b><b class='flag-5'>語音</b>控制賦能LED燈帶創(chuàng)新應(yīng)用 | <b class='flag-5'>語音</b>IC廠家

    什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點(diǎn))

    離線語音識別芯片,是一種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯(lián)網(wǎng)也可以進(jìn)行語音控制。它內(nèi)設(shè)先進(jìn)的數(shù)字信號處理模塊及
    的頭像 發(fā)表于 10-31 15:27 ?706次閱讀

    廣州唯創(chuàng)電子WTK6900H-32N離線語音識別芯片:精準(zhǔn)遠(yuǎn)場識別引領(lǐng)智能電風(fēng)扇創(chuàng)新 | 語音IC廠家

    隨著人工智能技術(shù)的快速發(fā)展,語音交互正在成為智能家居領(lǐng)域的重要入口。廣州唯創(chuàng)電子作為專業(yè)的語音IC廠家,推出的WTK6900H-32N離線
    的頭像 發(fā)表于 10-31 09:03 ?863次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:精準(zhǔn)遠(yuǎn)場<b class='flag-5'>識別</b>引領(lǐng)<b class='flag-5'>智能</b>電風(fēng)扇創(chuàng)新 | <b class='flag-5'>語音</b>IC廠家

    如何選擇合適的語音識別芯片型號

    語音識別芯片(又稱語音識別IC)是現(xiàn)代智能設(shè)備的核心組件,與傳統(tǒng)
    的頭像 發(fā)表于 10-30 16:32 ?760次閱讀

    廣州唯創(chuàng)電子WTK6900H-32N語音識別芯片:AI降噪算法助力抽油煙機(jī)精準(zhǔn)語音控制 | 語音IC廠家

    現(xiàn)代智能家居快速發(fā)展的大背景下,廚房作為家庭生活的重要場景,其智能化程度卻一直受到環(huán)境噪音的制約。抽油煙機(jī)作為廚房核心電器,其運(yùn)行產(chǎn)生的噪音往往使得傳統(tǒng)
    的頭像 發(fā)表于 10-30 09:17 ?542次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:AI降噪算法助力抽油煙機(jī)精準(zhǔn)<b class='flag-5'>語音</b>控制 | <b class='flag-5'>語音</b>IC廠家

    語音識別系統(tǒng)的技術(shù)核心:從聲音到文字的智能轉(zhuǎn)換

    ? ? ? 語音識別技術(shù),也稱為自動語音識別(ASR),其核心目標(biāo)是將人類語音信號轉(zhuǎn)換為對應(yīng)的文
    的頭像 發(fā)表于 09-05 14:04 ?1021次閱讀

    智能語音交互升級,九芯語音識別芯片來助力

    在科技飛速發(fā)展的當(dāng)下,智能語音交互已經(jīng)深度融入我們的生活,從智能家居的便捷操控,到車載電子的安全駕駛輔助,再到智能玩具的趣味互動,
    的頭像 發(fā)表于 08-11 14:08 ?1211次閱讀
    <b class='flag-5'>智能</b><b class='flag-5'>語音</b>交互升級,九芯<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片來助力

    語音識別---大家怎么看呢?

    語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場。人們預(yù)計,未來10年內(nèi),
    發(fā)表于 08-09 10:54
    英山县| 那曲县| 长寿区| 丰县| 封开县| 克什克腾旗| 屏东县| 鹰潭市| 宜兴市| 嘉黎县| 毕节市| 丹东市| 泸西县| 讷河市| 阳朔县| 鄂托克旗| 公主岭市| 特克斯县| 河西区| 穆棱市| 中卫市| 垣曲县| 凤城市| 吉首市| 普格县| 莎车县| 盐山县| 类乌齐县| 洛扎县| 确山县| 曲阳县| 合作市| 衡东县| 武定县| 大方县| 游戏| 武夷山市| 车致| 玛沁县| 南和县| 天津市|