粉嫩精品在线,日韩久擦AV亚一区

百度公司提出的端對端神經網絡模型來進行語音識別，成功的代替了手工工程化部件的流水線操作，這讓整個語音識別技術更加便捷，而使用神經網絡來抽取輸入端的特征信息相當于人功抽取特征則更加全面。

集微網消息，近年來，語音識別技術得到了迅猛的發(fā)展，這得益于人工智能的快速發(fā)展，其中最為主要的學業(yè)界的各大神經網絡的出現，包括基礎的序列神經網絡模型RNN、LSTM和GRU。語音識別技術也已經進入到各行各業(yè)中，如工業(yè)、家電、通信和汽車電子等。于是，對于語音識別技術的要求也將更加嚴格了，更傾向于走向準確化和便捷化。

以往，構建語音識別模型主要是使用HMM的序列模型，再使用手工工程化部件來實現整個流水線操作，并且對于不同的語言的語音需要重新構建模型的結果特征。對此，國內語音識別技術第一梯隊公司百度便提出了使用端對端的神經網絡模型來進行語音識別工作，該專利為“端對端語音識別”（專利號：CN107408111A）。

首先，小編在這先介紹一下神經網絡端對端的學習方式。對于語音識別來說，端到端深度學習做的是，訓練一個深度神經網絡，輸入就是一段音頻，輸出直接是聽寫文本。其中這里的端表示輸入源數據端，另外一端是神經網絡處理的結果也就是我們最終需要的目標。這種訓練學習的方式能應對多種語言的語音識別的場景構建，因為僅僅是需要改變輸入端和輸出端，深度神經網絡的結構并不需要根據語言的語音不同而改變。

專利中提出的端對端的深度學習模型的架構圖如圖1所示。該架構包括訓練以攝取語譜并生成文本的遞歸神經網絡模型。首先，使用一個或更多個卷積層對語譜進行特征提取，緊接著，使用一個或多個遞歸層（雙向GRU神經網絡）對語譜的特征進行時序建模。最后再使用全連接層將遞歸層獲取的語譜信息進行全連接作為CTC（鏈結式時間分類算法：重點解決輸入數據與給定標簽的對齊問題）的輸入，經過Softmax計算輸出各個文本標簽的概率。

圖1端對端深度學習模型架構圖

經過上述端對端深度學習模型構建后，專利中還給出了端對端深度學習模型的訓練方法，如圖2所示。

百度端對端語音識別專利揭秘