久久欧美成人视频,九九只有精品

語音識別是以語音為研究對象，通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。

語音識別技術歷史發(fā)展進程

語音識別的研究可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統(tǒng)，它是第一個可以識別十個英文數(shù)字的語音識別系統(tǒng)。

但真正取得實質(zhì)性進展，并將它作為一個重要的課題開展研究則是在60年代末70年代初。計算機技術的發(fā)展為語音識別的實現(xiàn)提供了硬件和軟件的可能，語音信號線性預測編碼（LPC）技術和動態(tài)時間規(guī)整（DTW）技術的提出，有效解決了語音信號的特征提取和不等長匹配問題。這一時期語音識別主要基于模板匹配原理，研究的領域局限在特定人，小詞匯表的孤立詞識別，實現(xiàn)了基于線性預測倒譜和DTW技術的特定人孤立詞語音識別系統(tǒng)；同時提出了矢量量化（VQ）和隱馬爾可夫模型（HMM）理論。

80年代HMM和ANN在語音識別中成功應用。李開復實現(xiàn)了第一個基于HMM的大詞匯量語音識別系統(tǒng)Sphinx。90年代隨著多媒體時代的來臨，大量企業(yè)開始投入巨資語音識別系統(tǒng)逐漸從實驗室走向?qū)嵱谩?0年代以來大數(shù)據(jù)、漣漪效應和深度神經(jīng)網(wǎng)絡帶來了語音識別爆發(fā)。

語音識別的過程

首先是聲音的輸入，輸入的音頻可以是實時的來自于麥克風，也可以來自于現(xiàn)成的音頻文件。然后是音頻信號的預處理，包括降噪、回聲消除、端點檢查和模數(shù)轉(zhuǎn)換等等。特征提取，就是從音頻信號中提取出對識別有用的信息，將這些信息拿到聲學模型中去匹配，會得到這些音頻信號的發(fā)音信息，比如這里例子中的“科大訊飛”四個字的發(fā)音信息。然后把這些發(fā)音信息拿到語言模型中匹配，找出最大概率的發(fā)這四個音的漢字。這樣一個識別的過程就完成了。

這過程中比較核心的部分就是聲學模型和語言模型的匹配和處理，HMM（隱馬爾科夫模型）和深度神經(jīng)網(wǎng)絡就是在這里發(fā)揮作用的。

由于HMM只需要少量的數(shù)據(jù)就能訓練出一個可用的模型，所以在上世界80、90年代，HMM技術在語音識別領域幾乎是處于統(tǒng)治地位的，直到移動互聯(lián)網(wǎng)還有大數(shù)據(jù)技術的爆發(fā)，數(shù)據(jù)的來源已經(jīng)完全不是問題的情況下，深度神經(jīng)網(wǎng)絡才逐漸讓HMM退居二線。下面我們以HMM為例，講解一下它在語音識別中是如何發(fā)揮作用的。

HMM淺析

首先和大家分享一個我在網(wǎng)上看到的關于異地戀的故事：小明有個女朋友在北京上學。

我們來給出一些假設條件，比如女朋友只有購物散步和宅家里這三種活動（這些叫可觀察到的狀態(tài)），天氣也只有多云晴天和下雨三種（這些叫隱藏的狀態(tài)，就是小明無法直接觀察到的狀態(tài)），如果第一天是多云的情況下，第二天還是多云的概率是0.5、晴天的概率0.3、下雨的概率0.2；再比如今天是晴天的情況下，女朋友去購物的概率是0.5，去散步的概率0.3，宅家里的概率0.2。那么所有上述的假設條件合在一起其實就形成了一個模型，這個模型就叫做HMM模型。

這三個問題在很早以前就有很多算法大師給出了解法，也就是說這些看起來很難解的問題對計算機來說都很快解出來。

那么這些和語音識別到底有什么關系？我將第二個問題和第三個問題抽象一下。

大家看這張PPT，左邊這個部分就對應剛剛的第二個問題：已知模型參數(shù)和女朋友的活動序列（就是可觀察狀態(tài)鏈），來求最大概率的隱藏狀態(tài)鏈（也就是這三天天氣的變化序列）。

而語音識別也是已知一個HMM和一段我們可觀察到的波形，來求這段音頻包含的最大概率的隱藏狀態(tài)，這里隱藏狀態(tài)鏈指的就是識別結(jié)果中的文字。

對于第三個問題，由于缺少了一個已知的HMM模型，所以我們需要先利用已知的歷史數(shù)據(jù)來訓練一個可用的模型，然后再來求識別結(jié)果。

同樣一個模型，同樣一套模型參數(shù)，各個狀態(tài)轉(zhuǎn)化和映射概率都沒有變，我們把可觀察狀態(tài)換成語音識別的輸入波形（或者說是波形特征），把隱藏狀態(tài)換成語音識別的輸出（也就是文字結(jié)果），就會發(fā)現(xiàn)這個HMM用來做語音識別簡直太合適啦。

比如這里的例子，這樣三個連續(xù)的波形隱含的文字到底是“是十四”還是“四十四”，我們只需要分別把它們的概率算出來，哪個概率大我們就認為是哪個結(jié)果。對于HMM模型未知的情況下，我們可以利用帶標注的數(shù)據(jù)按照鮑姆-韋爾奇算法訓練一個就可以了，足夠的數(shù)據(jù)就能訓練出趨于完美的模型。

注意，這個例子中我們并沒有區(qū)分聲學模型和語言模型，而是將兩者放在一起抽象出來一個大的模型，將波形直接映射成文字，而省去類似拼音發(fā)音的中間結(jié)果。事實上HMM也的確是既可以做聲學模型，也可以做語言模型。

訊飛開放平臺語音識別

本節(jié)公開課說的我們平臺的語音識別是專指語音聽寫的功能，就是將語音轉(zhuǎn)化成文字的功能，而和識別相關的命令詞識別和語義理解，會在后面的課程中為大家講解。

個性化識別指的是語音識別系統(tǒng)具備自動學習并適應用戶使用習慣的能力，你用的越多，它越懂你。

例如語言模型的個性化，我們可以將一些不容易識別的生僻的詞，比如人名地名等上傳到給我們云端，我們根據(jù)你上傳的信息有針對性的優(yōu)化你的語言模型，提高這些詞的識別率。后面會有視頻給大家演示這樣的效果。

目前我們訊飛的識別支持中文和英文，還支持中文的21種方言，其中粵語和四川話是免費開放就可以使用的，其他的方言需要通過商務合作后才能使用。

離線聽寫也是有的，在訊飛輸入法和訊飛語記app中都已經(jīng)使用了。大家要開發(fā)Android平臺的應用可以借助語記APP提供離線聽寫能力，來讓你自己的應用也具有離線聽寫的功能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音識別

語音識別

+關注

關注
39

文章
1825

瀏覽量
116266

日B视频亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

搜索歷史

回顧語音識別技術優(yōu)勢及產(chǎn)品落地之路的應用發(fā)展

評論