智能時(shí)代,語音識(shí)別
神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)
語音識(shí)別技術(shù)方便于長輩們?nèi)谌牒A繑?shù)據(jù)的互聯(lián)網(wǎng)時(shí)代,成為長輩們與外界交流的一大利器。不過,千萬不要認(rèn)為在未來人工智能時(shí)代中的語音識(shí)別僅僅是單純運(yùn)用到手機(jī)聊天中的識(shí)別錄入文字。語音識(shí)別技術(shù)隨著深度學(xué)習(xí)及高性能計(jì)算的不斷發(fā)展,正逐漸從實(shí)驗(yàn)室邁向工業(yè)領(lǐng)域。
語音識(shí)別簡史
1952年,美國AT&T貝爾實(shí)驗(yàn)室開發(fā)出了第一個(gè)基于電子計(jì)算機(jī)的語音識(shí)別系統(tǒng)Audrey,其可以識(shí)別10個(gè)英文數(shù)字,準(zhǔn)確率為98%;進(jìn)入60年代,語音識(shí)別領(lǐng)域的兩大突破是線性預(yù)測編碼,以及動(dòng)態(tài)時(shí)間規(guī)整技術(shù);
在60年代后期,隱馬爾可夫模型被Leonard E. Baum等人提出,HMM的提出是語音識(shí)別歷史上的一個(gè)重大突破,使當(dāng)時(shí)語音識(shí)別的錯(cuò)誤率大大降低;李開復(fù)等人則在1988年第一次實(shí)現(xiàn)了基于HMM的大詞匯量語音識(shí)別系統(tǒng)Sphinx。
另一方面,早在上世紀(jì)80年代,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)被引入語音識(shí)別。起初人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)多為簡單的多層感知機(jī),但受限于當(dāng)時(shí)的計(jì)算能力以及語音數(shù)據(jù)的稀少,人工神經(jīng)網(wǎng)絡(luò)并沒有在識(shí)別率上帶來很大的提升。
近年來,隨著計(jì)算能力的提升和語音數(shù)據(jù)的增加,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于語音識(shí)別任務(wù)中。深度神經(jīng)網(wǎng)絡(luò)技術(shù)的出現(xiàn),也進(jìn)一步提高了大規(guī)模連續(xù)語音識(shí)別的性能,目前已經(jīng)成為學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)內(nèi)容之一。
語音識(shí)別的技術(shù)支持
目前,在語音識(shí)別領(lǐng)域廣泛采用的神經(jīng)網(wǎng)絡(luò)有時(shí)延神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)以及基于長短期記憶的RNN等。
通常將這些深度神經(jīng)網(wǎng)絡(luò)模型與HMM模型結(jié)合構(gòu)建完整的聲學(xué)模型,并結(jié)合語言模型等提升語音識(shí)別性能。
在語言模型方面,雖然傳統(tǒng)的N元模型一直是主流技術(shù),但基于神經(jīng)網(wǎng)絡(luò)的語言模型從2012年開始被較為廣泛的研究,如RNN-LM、LSTM-LM等。
鑒于基于神經(jīng)網(wǎng)絡(luò)的語言模型的計(jì)算量較大,一般先利用N元模型初始化,然后再用基于神經(jīng)網(wǎng)絡(luò)的語言模型重打分,即神經(jīng)網(wǎng)絡(luò)語言模型并不直接用于解碼,而是在基線系統(tǒng)解碼結(jié)果的基礎(chǔ)上進(jìn)行得分重估。
同時(shí),RNN-CTC的出現(xiàn)使得語音識(shí)別擺脫了傳統(tǒng)方法中聲學(xué)模型、語言模型、解碼器等模塊化的束縛,通過采用對(duì)輸入輸出序列直接建模的方法,只需訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型即可進(jìn)行識(shí)別,因此被稱為端到端語音識(shí)別。
端到端的模型可以解決傳統(tǒng)方法中各個(gè)模型訓(xùn)練目標(biāo)不一致的問題。另外,由于實(shí)際中可獲取的文本數(shù)據(jù)比語音數(shù)據(jù)多得多,所以往往還會(huì)用文本數(shù)據(jù)訓(xùn)練一個(gè)更好的語言模型,與CTC神經(jīng)網(wǎng)絡(luò)結(jié)合使用。
深度神經(jīng)網(wǎng)絡(luò)用于人工智能應(yīng)用的問題在于其實(shí)時(shí)率等性能指標(biāo)還需有待提高,但是端到端語音識(shí)別開辟了人工智能的一個(gè)新方向,而且訓(xùn)練的過程相對(duì)簡單,因此人工智能方向上的端到端識(shí)別將會(huì)是未來的技術(shù)趨勢之一。此外人工智能再進(jìn)一步改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、改進(jìn)訓(xùn)練方法,逐步使人工智能性能達(dá)到工業(yè)水平和要求,進(jìn)入商用階段指日可待。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4844瀏覽量
108212 -
語音識(shí)別
+關(guān)注
關(guān)注
39文章
1825瀏覽量
116257 -
人工智能
+關(guān)注
關(guān)注
1821文章
50376瀏覽量
267084
發(fā)布評(píng)論請(qǐng)先 登錄
人工智能多模態(tài)與視覺大模型開發(fā)實(shí)戰(zhàn) - 2026必會(huì)
語音識(shí)別芯片介紹,語音識(shí)別芯片工作原理解析
AI人工智能語音識(shí)別控制模塊:自定義命令詞,全維度落地應(yīng)用場景
人工智能時(shí)代,如何打造網(wǎng)絡(luò)安全“新范式”
語音識(shí)別芯片有哪些(語音識(shí)別芯片AT680系列)
什么是離線語音識(shí)別芯片(離線語音識(shí)別芯片有哪些優(yōu)點(diǎn))
如何選擇合適的語音識(shí)別芯片型號(hào)
【產(chǎn)品介紹】Altair RapidMiner數(shù)據(jù)分析與人工智能平臺(tái)
利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能
挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!
關(guān)于人工智能處理器的11個(gè)誤解
關(guān)于語音識(shí)別在人工智能時(shí)代作用和分析介紹
評(píng)論