日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音識別下一步發(fā)展如何?哪些技術(shù)可以使用?哪些價值可以發(fā)掘?

工程師鄧生 ? 來源:中關(guān)村在線 ? 作者:張彬 ? 2020-10-23 16:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2020科大訊飛全球1024開發(fā)者節(jié)今天正式拉開帷幕,伴隨著AI的發(fā)展,我們得以更全面和細致地洞察人們的生活習(xí)慣,并為人們提供更加智能和便捷的服務(wù)。在人工智能的應(yīng)用場景中,最重要的一個就是語音交互。針對這一點,科大訊飛AI研究院常務(wù)副院長劉聰做了細致的講解,讓我們對當前語音交互技術(shù)有了更清晰和深入的了解。

我們知道語音識別是訊飛的傳統(tǒng)強項,從早期的呼叫、導(dǎo)航到2010年發(fā)布的訊飛超腦語音云和輸入法,從而開啟了中文語音輸入的新時代。通過深度學(xué)習(xí)等框架持續(xù)的迭代效果,我們又陸續(xù)推出了方言識別、遠場交互、多麥克風陣列等相關(guān)的功能。2015年,我們又將人機交互的場景拓展到人人對話的場景。為此我們總結(jié)出三點,我們將語音聽寫從簡單場景的可用做到了通用。這種場景的好用,語音轉(zhuǎn)寫從原來的不好用,做到了像演講、會議、庭審等很多復(fù)雜場景的好用。像語音控制、命令喚醒,我們也是從簡單場景的可用,做到了復(fù)雜場景的好用。

隨著現(xiàn)在語音識別在更多場景的應(yīng)用,語音識別的下一步發(fā)展方向是什么?又有哪些技術(shù)可以從實驗室場景走向成熟,還有哪些價值得我們發(fā)掘?

首先,我們認為語音識別需要持續(xù)的去挑戰(zhàn)更加復(fù)雜的場景,去實現(xiàn)從語音到聲音,從單純的文字內(nèi)容識別到音頻的全場景解析。例如現(xiàn)在我們在泛娛樂當中,直播、短視頻,我們可以看到這里面有很多的更加復(fù)雜的聲音場景需要我們?nèi)ソ鉀Q。例如在直播的過程中,背景可能是復(fù)雜多樣的,可能有視頻聲、游戲聲或者音樂聲。此外直播連麥的時候還會經(jīng)常出現(xiàn)多人混疊的對話,這些對我們的語音識別都會有很大的影響。除此之外,這些視頻當中還會包含像笑聲、掌聲、各種音效等聲音,所以我們需要提出一些新的方案。當前的框架已經(jīng)難以去解決這樣一個復(fù)雜的問題。

針對這樣一個場景,我們一方面需要降低各種背景的噪聲對識別精度的影響。另外一方面,要有針對性的將我們感興趣的聲音提取出來。這里我們也是展示了全場景音頻解析的整體方案。首先我們是通過多分辨率特征提取的聲音檢測方案,再結(jié)合我們的序列訓(xùn)練,對一些相似聲音進行精細建模,可以實現(xiàn)將笑聲、音效等非語音的聲音和語音內(nèi)容分離。針對包含語音的有效內(nèi)容,我們也使用了語音降噪和分離的方案,綜合利用我們的聲音、文本、說話等信息,以及在有條件的情況下,還可以使用多模態(tài)的唇形、視線以及麥克風陣列的空間位置等信息來進行聯(lián)合建模。以上這些才能保證我們能夠持續(xù)保持語音合成以及語音識別技術(shù)的領(lǐng)先。

與此同時,我們也和合作伙伴一起,不斷提升在直播等復(fù)雜場景上的語音識別效果,并且準確率從60%提到了85%。未來我們相關(guān)的技術(shù)也會在我們的開放平臺——訊飛聽見等上線。未來,我們會做得更好,請大家繼續(xù)期待。
責任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能
    +關(guān)注

    關(guān)注

    8

    文章

    1757

    瀏覽量

    122222
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41370

    瀏覽量

    302743
  • 語音識別技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    13330
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    可以使用串口控制MP3播放的芯片

    可以使用串口控制MP3播放的芯片串口指令控制是音頻芯片領(lǐng)域應(yīng)用比較廣泛的交互方式之。相對而言純按鍵方案具備布線簡潔、可編程擴展、兼容性好等優(yōu)勢,特別適合需要和主控MCU協(xié)同工作的嵌入式場景。本篇
    的頭像 發(fā)表于 04-25 11:41 ?194次閱讀
    <b class='flag-5'>可以使</b>用串口控制MP3播放的芯片

    語音識別ic芯片分類工作原理,語音識別芯片分類

    設(shè)備執(zhí)行相應(yīng)動作。例如,在智能娃娃產(chǎn)品中,當用戶說出“眨眨眼”,芯片識別指令后便會控制電機讓娃娃完成眨眼動作。除了語音識別功能,現(xiàn)代語音識別
    的頭像 發(fā)表于 04-24 15:14 ?172次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>ic芯片分類工作原理,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片分類

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是種集聲音存儲、播放、錄音及語音
    的頭像 發(fā)表于 01-14 15:22 ?428次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識別芯片作為人機交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,
    的頭像 發(fā)表于 11-14 17:11 ?1572次閱讀

    廣州唯創(chuàng)電子WTK6900H-32N語音識別芯片:智能語音控制賦能LED燈帶創(chuàng)新應(yīng)用 | 語音IC廠家

    芯片,憑借其卓越的性能和精準的識別能力,在LED燈帶控制領(lǐng)域展現(xiàn)出強大的應(yīng)用價值,為智能照明系統(tǒng)帶來了革命性的創(chuàng)新突破。、核心技術(shù)優(yōu)勢1.1高性能
    的頭像 發(fā)表于 11-04 08:53 ?844次閱讀
    廣州唯創(chuàng)電子WTK6900H-32N<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:智能<b class='flag-5'>語音</b>控制賦能LED燈帶創(chuàng)新應(yīng)用 | <b class='flag-5'>語音</b>IC廠家

    什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點)

    離線語音識別芯片,是種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯(lián)網(wǎng)也可以
    的頭像 發(fā)表于 10-31 15:27 ?708次閱讀

    如何選擇合適的語音識別芯片型號

    語音識別芯片(又稱語音識別IC)是現(xiàn)代智能設(shè)備的核心組件,與傳統(tǒng)語音芯片相比,其最大特點是能夠主動識別
    的頭像 發(fā)表于 10-30 16:32 ?761次閱讀

    搭建自己的ubuntu系統(tǒng)之創(chuàng)建ubuntu虛擬機

    打開VMware軟件,點擊創(chuàng)建新的虛擬機。進入以下界面:選擇自定義,點擊“下一步”。選擇對應(yīng)VMware版本的兼容性,版本可在幫助-&gt;關(guān)于VMware Workstation中
    發(fā)表于 09-25 09:39

    ubuntu系統(tǒng)安裝之Vmware虛擬機安裝

    ,裝到自己電腦安裝軟件的分區(qū),點擊“下一步”。 勾選,點擊“下一步”。 勾選添加快捷方式,點擊“下一步”。 點擊“安裝”。 等待安裝完成。 點擊完成安裝。雙擊桌面上的VMware圖標“” 學(xué)習(xí)
    發(fā)表于 09-22 16:27

    語音識別---大家怎么看呢?

    語音識別門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未
    發(fā)表于 08-09 10:54

    晶圓級封裝:連接密度提升的關(guān)鍵一步

    了解晶圓級封裝如何進一步提高芯片的連接密度,為后續(xù)技術(shù)發(fā)展奠定基礎(chǔ)。
    的頭像 發(fā)表于 06-27 16:51 ?974次閱讀

    各位大佬,想問下為什么這個程序一步一步運行就可以讀出正確的讀數(shù),正常運行卻讀不出正確讀數(shù)

    各位大佬,想問下為什么這個程序一步一步運行就可以讀出正確的讀數(shù),正常運行卻讀不出正確讀數(shù)
    發(fā)表于 06-23 09:57

    智駕安全,發(fā)展到哪一步了?

    智駕安全,發(fā)展到哪一步了?
    的頭像 發(fā)表于 06-10 11:28 ?859次閱讀

    門鈴語音芯片有哪幾種型號可以選擇?

    門鈴語音芯片的選擇可以很廣泛!因為簡單的OTP語音芯片也可以用,高級點的FLASH語音芯片,或
    的頭像 發(fā)表于 06-09 15:58 ?839次閱讀

    明遠智睿SSD2351開發(fā)板:語音機器人領(lǐng)域的變革力量

    源的開發(fā)資料為開發(fā)者提供了深入研究和定制語音機器人功能的基礎(chǔ),開發(fā)者可以根據(jù)不同的應(yīng)用需求,對語音識別算法、語音合成引擎等進行優(yōu)化和改進。
    發(fā)表于 05-28 11:36
    定日县| 吴堡县| 汽车| 丘北县| 广州市| 灌南县| 浦县| 灵石县| 自贡市| 山西省| 临高县| 鸡东县| 兰西县| 静海县| 台州市| 舟山市| 通江县| 九台市| 崇仁县| 宜黄县| 托里县| 仙桃市| 常德市| 旬邑县| 新化县| 泌阳县| 阿合奇县| 闻喜县| 札达县| 交口县| 蓬溪县| 湘阴县| 蕉岭县| 革吉县| 阿克| 宣城市| 盖州市| 伊金霍洛旗| 留坝县| 纳雍县| 康定县|