日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

電子工程師 ? 來(lái)源:工程師李察 ? 2019-05-05 11:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經(jīng)網(wǎng)絡(luò)的調(diào)參無(wú)疑是一個(gè)巨大的工程。

如何在調(diào)參之前擁有更佳的表現(xiàn)?千辛萬(wàn)苦調(diào)好了但卻過(guò)擬合,如何擁有更好的泛化能力?這無(wú)疑是人肉調(diào)參的必經(jīng)之痛。一個(gè)通用的認(rèn)知是,訓(xùn)練數(shù)據(jù)會(huì)限制模型表現(xiàn)的上限,能擁有更好的訓(xùn)練數(shù)據(jù),無(wú)疑成功了一大截兒。

近日,Daniel S. Park 等人在自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)模型訓(xùn)練上,找到了一種簡(jiǎn)單卻強(qiáng)大的數(shù)據(jù)增強(qiáng)方法——SpecAugment。該操作另辟蹊徑,將原始語(yǔ)音數(shù)據(jù)生成的梅爾倒譜圖直接進(jìn)行圖像變換,擴(kuò)增訓(xùn)練數(shù)據(jù),化腐朽為神奇,結(jié)果很棒。

啥是自動(dòng)語(yǔ)音識(shí)別

自動(dòng)語(yǔ)音識(shí)別,即依托深度神經(jīng)網(wǎng)絡(luò)模型將語(yǔ)音自動(dòng)識(shí)別為文本輸入,無(wú)論是 Siri 助手還是微軟小冰,抑或占據(jù)生活一部分的微信,都有它的身影,相信這個(gè)時(shí)代的你也早已習(xí)慣用語(yǔ)音轉(zhuǎn)輸入解放雙手。

傳統(tǒng) ASR 模型的原始輸入數(shù)據(jù)一般先經(jīng)過(guò)預(yù)處理,將收集的音波轉(zhuǎn)化為頻譜圖如梅爾倒頻譜,也即梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC,一定程度上模擬了人耳對(duì)聲音的處理特點(diǎn))的譜圖。

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 音波轉(zhuǎn)化為梅爾倒頻譜圖結(jié)果示意圖(來(lái)源:Daniel S. Park,et al./ Google Brain)

梅爾倒譜的一般流程是將聲音信號(hào)進(jìn)行傅立葉轉(zhuǎn)換得到頻譜,再進(jìn)行取對(duì)數(shù)以及取逆傅立葉變換。

傳統(tǒng) ASR 模型擴(kuò)增數(shù)據(jù)一般是將收集到的音波進(jìn)行改變加速、減速、加背景噪音等變換來(lái)進(jìn)行數(shù)據(jù)集的豐富,最后,這種擴(kuò)增后的音頻也要轉(zhuǎn)化為頻譜圖。

然而,直接改變頻譜圖進(jìn)行數(shù)據(jù)擴(kuò)增,能否提升模型表現(xiàn)?畢竟,圖像領(lǐng)域的擴(kuò)增手段十分豐富,直接將頻譜作為圖像用一定手段進(jìn)行變換結(jié)果如何?

Daniel S. Park 等人的 SpecAugment 方法證明,這是一個(gè)簡(jiǎn)單易行的好路子,可以實(shí)現(xiàn)在線訓(xùn)練,計(jì)算成本低廉無(wú)需額外數(shù)據(jù),還能使 ASR 任務(wù) LibriSpeech 960h(語(yǔ)音識(shí)別技術(shù)的最權(quán)威主流的開(kāi)源數(shù)據(jù)集,包括近 1000 小時(shí)的英文發(fā)音和對(duì)應(yīng)文字)和 Switchboard 300h(交換機(jī)電話語(yǔ)音語(yǔ)料庫(kù))比目前最佳模型的表現(xiàn)更好。

SpecAugment 的“出彩”之處

首先,在模型訓(xùn)練之前將輸入數(shù)據(jù)——音頻數(shù)據(jù)的梅爾倒譜,進(jìn)行圖像處理,這也是 SpecAugment 這條野路出彩的基礎(chǔ)。即對(duì)梅爾倒頻譜的橫軸一段時(shí)間步長(zhǎng)的頻譜進(jìn)行左或右扭轉(zhuǎn)翹曲、或者掩蔽一段時(shí)長(zhǎng)的譜圖(時(shí)間屏蔽,對(duì)縱向進(jìn)行掩蔽)、或是某些梅爾頻率的信號(hào)(頻率屏蔽,對(duì)橫向進(jìn)行掩蔽),得到了一系列的擴(kuò)增樣本。

這樣的處理使得模型能夠?qū)W習(xí)到時(shí)間軸上發(fā)生損失變形的音頻、部分頻率缺失的音頻,以及丟失部分語(yǔ)音片段的音頻的特點(diǎn),增加了訓(xùn)練模型對(duì)這些信息的處理能力,也增強(qiáng)模型的泛化能力。

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 梅爾倒頻譜的擴(kuò)增變換手段:從上到下依次為沒(méi)有應(yīng)用增強(qiáng)、一定時(shí)間步長(zhǎng)的扭曲,頻率屏蔽和時(shí)間屏蔽。(來(lái)源:Daniel S. Park,et al/ Google Brain)

模型訓(xùn)練

輸入數(shù)據(jù)處理完畢后,訓(xùn)練語(yǔ)音識(shí)別模型,這里采用 LAS(Listen Attend and Spell networks)模型。LAS 模型主要是由 Listener 和 Speller 兩個(gè)子模型組成,其中 Listener 是一個(gè)聲學(xué)編碼器(Encoder,收集數(shù)據(jù),相當(dāng)于“聽(tīng)”),Speller 是一個(gè)基于注意力機(jī)制的解碼器(Decoder,將收集的特征翻譯成字符,相當(dāng)于“說(shuō)”)

訓(xùn)練 SpecAugment 的 Listener 子模型:輸入的梅爾倒譜首先經(jīng)兩層卷積神經(jīng)網(wǎng)絡(luò)(CNN),經(jīng)最大池化且步幅為 2,得到的結(jié)果輸入到 BLSTM(雙向長(zhǎng)短期交替記憶模型)中,產(chǎn)生尺寸為 d x w 的基于注意力機(jī)制的特征。

訓(xùn)練 SpecAugment 的 Speller 子模型:將上一步驟中基于注意力機(jī)制產(chǎn)生的特征向量輸入到一個(gè)二層 RNN(Recurrent Neural Network)模型中,訓(xùn)練集中的文本已用 WPM(Word Piece Model)進(jìn)行了 token 處理,利用集束搜索(Beam Search),集束寬為 8,得到 token 表示的預(yù)測(cè)文本(token 處理即分詞處理,之后進(jìn)行詞嵌入,自然語(yǔ)言處理利用詞嵌入來(lái)將詞向量化表示)。至此,實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文本過(guò)程。

提升表現(xiàn)

比較訓(xùn)練集擴(kuò)增前后訓(xùn)練出的 LAS 模型在測(cè)試集上的詞錯(cuò)誤率(Word Error Rate,WER),不改變?nèi)魏纬瑓?shù),測(cè)試結(jié)果錯(cuò)詞率顯著降低,可見(jiàn)無(wú)需調(diào)參,擴(kuò)增訓(xùn)練集效果明顯。

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 擴(kuò)增訓(xùn)練集與否的兩個(gè)模型在數(shù)據(jù)集 LibriSpeech 上有噪音測(cè)試集和無(wú)噪音測(cè)試集的表現(xiàn)。(來(lái)源:Daniel S. Park,et al/ Google Brain)

對(duì)于過(guò)擬合問(wèn)題,雖然訓(xùn)練集上利用擴(kuò)增的模型表現(xiàn)與無(wú)擴(kuò)增相差并不是很多,但在開(kāi)發(fā)集上,WER 有明顯的降低,說(shuō)明模型泛化能力提升,可以預(yù)測(cè)未訓(xùn)練過(guò)的數(shù)據(jù),過(guò)擬合得到解決。

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | 擴(kuò)增訓(xùn)練集與否的兩個(gè)模型在訓(xùn)練集、有噪音開(kāi)發(fā)集和無(wú)噪音開(kāi)發(fā)集集上的表現(xiàn)(來(lái)源:Daniel S. Park,et al/ Google Brain)

這個(gè)模型啥水平?

1)優(yōu)于現(xiàn)有最佳 ASR 模型

擴(kuò)增訓(xùn)練集后調(diào)整模型參數(shù)以及適當(dāng)訓(xùn)練迭代,使得模型表現(xiàn)達(dá)到最佳,在數(shù)據(jù)集 LibriSpeech 960h 和 Switchboard 300h 有無(wú)噪音的測(cè)試集上,擴(kuò)增模型表現(xiàn)與現(xiàn)有最佳模型的錯(cuò)詞率結(jié)果對(duì)比發(fā)現(xiàn),擴(kuò)增方法明顯取勝。無(wú)論是傳統(tǒng) ASR 模型(如 HMM)還是端到端的神經(jīng)網(wǎng)絡(luò)模型(如 CTC/ASG),采用 SpecAugment 方法訓(xùn)練后的 LAS 模型表現(xiàn)都明顯更好。

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同模型的表現(xiàn)(來(lái)源:Daniel S. Park,et al/ Google Brain)

2)優(yōu)于利用語(yǔ)言模型的 ASR 模型

引入利用大量純文本語(yǔ)料庫(kù)訓(xùn)練的語(yǔ)言模型(Language Models,LMs)能夠使 ASR 模型效果大大提升,因?yàn)榭梢杂谜Z(yǔ)料庫(kù)中的大量信息使模型功能更強(qiáng),這也是 ASR 任務(wù)的一個(gè)通用做法。語(yǔ)言模型一般是獨(dú)立訓(xùn)練的,使用 ASR 模型時(shí)需要占據(jù)一定內(nèi)存進(jìn)行存儲(chǔ),這使其難以在小型設(shè)備上應(yīng)用。而 SpecAugment 模型的優(yōu)勢(shì)是,即使不利用語(yǔ)言模型也優(yōu)于現(xiàn)有引入語(yǔ)言模型的 ASR 模型。這意味著語(yǔ)言模型的大內(nèi)存問(wèn)題,有了解決之路。

簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

圖 | LibriSpeech 960h 和 Switchboard 300h 數(shù)據(jù)集上不同 ASR 模型引入語(yǔ)言模型有否的表現(xiàn)(來(lái)源:Daniel S. Park,et al/ Google Brain)

總結(jié),利用改變頻譜圖的方式擴(kuò)增音頻數(shù)據(jù)樣本,訓(xùn)練出的 ASR 模型表現(xiàn)極佳,優(yōu)于現(xiàn)有最好模型,甚至超過(guò)引入語(yǔ)言模型,很好用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:簡(jiǎn)單粗暴而有效的改圖:自動(dòng)語(yǔ)音識(shí)別數(shù)據(jù)擴(kuò)增的“一條野路”

文章出處:【微信號(hào):deeptechchina,微信公眾號(hào):deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    還在搶信道?Wi-Fi 6E直接給你一條“專屬高速

    Wi-Fi6E的核心,不在“更快”,而在多了一條全新的6GHz頻段。簡(jiǎn)單理解:以前是兩高速(2.4GHz/5GHz)現(xiàn)在,直接多了一條
    的頭像 發(fā)表于 04-29 18:03 ?345次閱讀
    還在搶信道?Wi-Fi 6E直接給你<b class='flag-5'>一條</b>“專屬高速<b class='flag-5'>路</b>”

    ASR語(yǔ)音識(shí)別485模塊:語(yǔ)音喚醒設(shè)備,賦能工業(yè)自動(dòng)化控制

    幾個(gè)核心領(lǐng)域: 、工業(yè)機(jī)器人控制與自動(dòng)語(yǔ)音識(shí)別模塊正讓機(jī)器人的操作門(mén)檻從“懂代碼”變?yōu)椤奥?tīng)指令”,顯著提升效率與靈活性。 無(wú)代碼操控:操作人員可通過(guò)自然語(yǔ)言直接控制機(jī)器人,例如下
    的頭像 發(fā)表于 04-24 15:50 ?164次閱讀

    485AI語(yǔ)音識(shí)別模塊:多路語(yǔ)音控制,實(shí)現(xiàn)安防設(shè)備語(yǔ)音聯(lián)動(dòng)

    485AI語(yǔ)音識(shí)別模塊憑借工業(yè)級(jí)的RS485總線通信與離線/在線AI語(yǔ)音識(shí)別能力,應(yīng)用場(chǎng)景非常廣泛,粗略劃分可覆蓋超10大領(lǐng)域、數(shù)十種細(xì)分場(chǎng)景,核心集中在工業(yè)
    的頭像 發(fā)表于 04-22 15:17 ?183次閱讀

    簡(jiǎn)單認(rèn)識(shí)安信可VC系列離線語(yǔ)音識(shí)別模組

    VC系列是安信可基于云知聲US516P6芯片推出的離線語(yǔ)音識(shí)別模組,支持中英文雙語(yǔ)、150指令詞、98%識(shí)別率、100ms響應(yīng)。不需聯(lián)網(wǎng)、不需云端調(diào)用、
    的頭像 發(fā)表于 04-14 17:02 ?1097次閱讀

    瑞芯微(EASY EAI)RV1126B 語(yǔ)音識(shí)別

    1.語(yǔ)音識(shí)別簡(jiǎn)介語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別
    的頭像 發(fā)表于 01-21 10:43 ?1064次閱讀
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>

    語(yǔ)音識(shí)別IC分類,語(yǔ)音識(shí)別芯片的工作原理

    語(yǔ)音識(shí)別芯片,也叫語(yǔ)音識(shí)別集成電路,是種集聲音存儲(chǔ)、播放、錄音及語(yǔ)音
    的頭像 發(fā)表于 01-14 15:22 ?440次閱讀
    <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>IC分類,<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片的工作原理

    AIDC:自動(dòng)識(shí)別數(shù)據(jù)的未來(lái)趨勢(shì)與算力基石的雙重演進(jìn)

    在數(shù)字化轉(zhuǎn)型浪潮席卷全球的背景下,自動(dòng)識(shí)別數(shù)據(jù)采集(AIDC)技術(shù)不僅是連接物理世界與數(shù)字系統(tǒng)的“眼睛”,更是各行業(yè)提升效率的核心引擎。與此同時(shí),隨著人工智能的爆發(fā),AI數(shù)據(jù)中心(同樣縮寫(xiě)為AIDC)作為承載這些海量
    的頭像 發(fā)表于 12-30 16:56 ?2517次閱讀

    語(yǔ)音識(shí)別芯片有哪些(語(yǔ)音識(shí)別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語(yǔ)音識(shí)別芯片作為人機(jī)交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語(yǔ)音芯片不同,語(yǔ)音識(shí)別
    的頭像 發(fā)表于 11-14 17:11 ?1585次閱讀

    什么是離線語(yǔ)音識(shí)別芯片(離線語(yǔ)音識(shí)別芯片有哪些優(yōu)點(diǎn))

    離線語(yǔ)音識(shí)別芯片,是種集成了語(yǔ)音信號(hào)采集、前端處理和本地識(shí)別功能的專用集成電路,無(wú)須聯(lián)網(wǎng)也可以進(jìn)行語(yǔ)音
    的頭像 發(fā)表于 10-31 15:27 ?716次閱讀

    端到端語(yǔ)音交互數(shù)據(jù) 精準(zhǔn)賦能語(yǔ)音大模型進(jìn)階

    語(yǔ)音大模型從“能識(shí)別”向“懂語(yǔ)境”跨越的關(guān)鍵階段,高質(zhì)量場(chǎng)景化語(yǔ)音數(shù)據(jù)已成為制約技術(shù)突破的核心瓶頸。傳統(tǒng)語(yǔ)音
    的頭像 發(fā)表于 09-11 17:17 ?863次閱讀

    瑞芯微RK3576語(yǔ)音識(shí)別算法

    1.語(yǔ)音識(shí)別簡(jiǎn)介語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別
    的頭像 發(fā)表于 08-15 15:13 ?2490次閱讀
    瑞芯微RK3576<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>算法

    使用aicube進(jìn)行目標(biāo)檢測(cè)識(shí)別數(shù)字項(xiàng)目的時(shí)候,在評(píng)估環(huán)節(jié)卡住了,怎么解決?

    使用aicube進(jìn)行目標(biāo)檢測(cè)識(shí)別數(shù)字項(xiàng)目的時(shí)候,前面切正常 但是在評(píng)估環(huán)節(jié)卡住了,直顯示正在測(cè)試,但是完全沒(méi)有測(cè)試結(jié)果, 在部署完模型后在k230上運(yùn)行也沒(méi)有任何識(shí)別結(jié)果 期
    發(fā)表于 08-13 06:45

    語(yǔ)音識(shí)別---大家怎么看呢?

    語(yǔ)音識(shí)別門(mén)交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開(kāi)始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),
    發(fā)表于 08-09 10:54

    EASY EAl Orin Nano(RK3576) whisper語(yǔ)音識(shí)別訓(xùn)練部署教程

    1Whisper簡(jiǎn)介Whisper是OpenAI開(kāi)源的,識(shí)別語(yǔ)音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語(yǔ)音識(shí)別
    的頭像 發(fā)表于 07-25 15:21 ?1025次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>訓(xùn)練部署教程

    EASY EAl Orin Nano(RK3576) whisper語(yǔ)音識(shí)別訓(xùn)練部署教程

    Whisper是OpenAI開(kāi)源的,識(shí)別語(yǔ)音識(shí)別能力已達(dá)到人類水準(zhǔn)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。Whispe
    的頭像 發(fā)表于 07-17 14:55 ?2059次閱讀
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>訓(xùn)練部署教程
    忻州市| 张北县| 榆林市| 乐陵市| 万州区| 海口市| 汶川县| 泸州市| 龙州县| 新野县| 云梦县| 灌云县| 蒙自县| 磐石市| 云安县| 龙井市| 民丰县| 徐州市| 攀枝花市| 凌源市| 沾益县| 伊宁县| 伊春市| 徐州市| 屏南县| 瑞金市| 丹巴县| 两当县| 容城县| 永吉县| 陈巴尔虎旗| 土默特左旗| 封丘县| 佛冈县| 台江县| 荥经县| 新巴尔虎右旗| 五台县| 汨罗市| 高雄市| 安徽省|