日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于云的語音識別增長推動嵌入式語音技術(shù)

星星科技指導(dǎo)員 ? 來源:嵌入式計算設(shè)計 ? 作者:Todd Mozer ? 2022-08-11 14:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)今語音技術(shù)領(lǐng)域的許多最大玩家也是手機(jī)操作系統(tǒng) (OS) 市場的重量級人物。微軟是第一個組建語音團(tuán)隊的軟件/移動操作系統(tǒng)巨頭。在 1990 年代初期,比爾·蓋茨宣揚了語音用戶界面 (VUI) 的好處,并預(yù)測它們將在計算機(jī)上的人機(jī)交互中發(fā)揮作用。谷歌在 21 世紀(jì)初建立了一支由語音技術(shù)專家組成的精英團(tuán)隊,并通過其 Android 版本刺激了移動行業(yè)向語音界面和語音控制方向發(fā)展。蘋果一直是用戶體驗的王者,直到最近,由于準(zhǔn)確性方面的挑戰(zhàn),蘋果一直避免推動語音技術(shù)。然而,隨著收購 Siri(語音禮賓服務(wù))并將該公司的技術(shù)整合到 iPhone 4S 中,

由于多種原因,語音技術(shù)對移動行業(yè)變得至關(guān)重要,主要是因為說話比打字更容易,而且手機(jī)的外形設(shè)計是圍繞說話而不是打字而構(gòu)建的。此外,由于移動搜索的巨大收入潛力,移動操作系統(tǒng)提供商看到了將語音識別添加到他們的技術(shù)組合中的價值。

為什么是嵌入式?

VUI 的大部分繁重工作都是在云中執(zhí)行的。這就是大型操作系統(tǒng)廠商的大部分投資都花在了那里。云提供了一個具有幾乎無限 MIPS 和內(nèi)存的環(huán)境——這是高級語音搜索處理的兩個基本要素。隨著基于云的語音技術(shù)使用的增長,嵌入式領(lǐng)域似乎也出現(xiàn)了類似的趨勢。

嵌入式語音是唯一能夠在無法訪問云時啟用語音控制和輸入的解決方案——這是增加用戶體驗的必要功能。嵌入式語音還能夠消耗更少的 MIPS 和內(nèi)存,從而提高設(shè)備電池電量的效率。

客戶端/云語音使用的最佳方案需要在客戶端上進(jìn)行語音激活,并在云上解密文本和含義的繁重工作。這可以實現(xiàn)設(shè)備始終開啟并始終收聽的場景,因此無需按下客戶端上的按鈕即可發(fā)出和執(zhí)行語音命令。這種“不需要手或眼睛”的范例在汽車中為了安全目的而在家里為了方便起見特別有用。

例如,在最近推出的 Galaxy SII Android 手機(jī)中,三星的 Voice Talk 使用 Sensory 的 TrulyHandsfree 語音控制,一種嵌入式語音技術(shù),通過“Hey Galaxy”來激活手機(jī)。這句話調(diào)用了基于云的 Vlingo 識別服務(wù),該服務(wù)允許用戶在不接觸手機(jī)的情況下發(fā)出命令和輸入文本。

語音識別可以在低至 10 MIPS 和數(shù)萬字節(jié)內(nèi)存的設(shè)備上實現(xiàn)。Sensory 的語音芯片系列包括基于 8 位微控制器RISC 單芯片和利用小型嵌入式 DSP 的自然語言處理器。一般來說,在語音識別中投入的 MIPS 和內(nèi)存越多,產(chǎn)品的功能(響應(yīng)時間越快、詞匯量越大、語法越復(fù)雜)就越多。

無論什么平臺實現(xiàn)任務(wù),語音識別的一般方法都是相似的。多年來,隱馬爾可夫建模和神經(jīng)網(wǎng)絡(luò)等統(tǒng)計方法一直是語音識別的主要方法。從客戶端遷移到云端允許部署統(tǒng)計語言建模和更復(fù)雜的技術(shù)。

VUI 階段

要創(chuàng)建真正免提、免眼的用戶體驗,必須解決幾個技術(shù)階段。

第 1 階段:語音激活

這實質(zhì)上是在替換按鈕按下。識別器需要始終處于開啟狀態(tài),準(zhǔn)備好調(diào)用第 2 階段投入運行,并且能夠在非常嘈雜的情況下激活。第一階段的另一個關(guān)鍵標(biāo)準(zhǔn)是非??斓捻憫?yīng)時間。鑒于超過幾百毫秒的延遲可能會導(dǎo)致用戶在識別器收聽之前對階段 2 說話而導(dǎo)致準(zhǔn)確性問題,因此語音激活的響應(yīng)時間必須與按鈕的響應(yīng)時間相同,這幾乎是瞬時的。 簡單的命令和控制功能可以通過 Stage 1 識別系統(tǒng)或更復(fù)雜的 Stage 2 系統(tǒng)嵌入客戶端,該系統(tǒng)可以是嵌入式的或基于云的。

第 2 階段:語音識別和轉(zhuǎn)錄

更耗電且功能更強(qiáng)大的 Stage 2 識別器將所說的內(nèi)容翻譯成文本。如果目的是短信或語音撥號,則該過程可以在這里停止。如果用戶想要回答問題或訪問數(shù)據(jù),系統(tǒng)將進(jìn)入第 3 階段。由于第 1 階段識別器可以在高噪聲下做出響應(yīng),它可以降低汽車收音機(jī)或家庭 AV 的音量以協(xié)助第 2 階段識別。

第三階段:意圖和意義

這可能是這個過程中最大的挑戰(zhàn)。文本翻譯準(zhǔn)確,但它是什么意思?例如,互聯(lián)網(wǎng)搜索所需的查詢是什么?今天的“智能”可能會嘗試修改搜索以更好地適應(yīng)它認(rèn)為用戶想要的內(nèi)容。然而,計算機(jī)在識別意圖方面非常糟糕。Apple 的 Siri 智能助手是在國防部資助的 CALO 項目下開發(fā)的,涉及 300 多名研究人員,它可能是當(dāng)今智能解釋的最佳示例。

第四階段:數(shù)據(jù)搜索和查詢

根據(jù)查詢的不同,搜索數(shù)據(jù)并找到正確的結(jié)果可能很簡單,也可能很復(fù)雜。地圖數(shù)據(jù)和方向可能是可靠的,因為語法很好理解,地圖搜索的目標(biāo)很明確。隨著谷歌和其他搜索提供商在數(shù)據(jù)搜索功能上投入大量資金和時間,這一階段將繼續(xù)改善。

第 5 階段:語音響應(yīng)

對查詢的語音響應(yīng)是顯示響應(yīng)的一個很好的替代方案,這可能會導(dǎo)致駕駛員將視線從道路上移開或在家中造成不便。當(dāng)今最先進(jìn)的文本到語音系統(tǒng)具有高度可理解性,并且比以前的自動語音系統(tǒng)聽起來更自然。

為什么嵌入式識別器在第 1 階段替換按鈕需要這么長時間?

語音識別傳統(tǒng)上需要按鈕激活而不是語音激活。造成這種情況的主要原因是按鈕雖然讓人分心,但即使在嘈雜的環(huán)境中也是可靠且反應(yīng)靈敏的。這些類型的環(huán)境,例如汽車或繁忙的家,對于語音識別器來說可能具有挑戰(zhàn)性。一個聲控詞必須在汽車(車窗關(guān)閉、收音機(jī)打開和道路噪音)或家中(嬰兒哭泣、音樂或電視打開、電器運行)中產(chǎn)生響應(yīng),而無需用戶為它工作。 因此,直到最近,語音技術(shù)只有在用戶處于安靜環(huán)境中且麥克風(fēng)靠近嘴巴時才可靠。

對快速響應(yīng)時間的要求使這一挑戰(zhàn)進(jìn)一步復(fù)雜化。語音識別器通常需要數(shù)百毫秒才能確定用戶是否在開始處理語音之前完成了談話。識別系統(tǒng)可以接受這個時間延遲以產(chǎn)生答案或回復(fù)給消費者。然而,在第 1 階段,激活的響應(yīng)在第 2 階段調(diào)用另一個更復(fù)雜的識別器,消費者不會接受持續(xù)時間比按下按鈕時間長得多的延遲。延遲越長,在第 2 階段發(fā)生識別失敗的可能性就越大,因為用戶可能在第 2 階段識別器準(zhǔn)備好收聽之前開始說話。

嵌入式語音技術(shù)的最新進(jìn)展,例如 Sensory 的 TrulyHandsfree 語音界面,無需觸摸設(shè)備即可提供真正的 VUI。這些技術(shù)消除了嘈雜環(huán)境中固有的問題以及較長的響應(yīng)時間,使語音激活變得可行、準(zhǔn)確和方便。

消費電子產(chǎn)品中語音的未來

許多年前,電視觀眾不得不起身走到他們的單位更換頻道。遙控器的到來讓這一切都結(jié)束了,今天沒有人會買沒有遙控器的電視。盡管如此,我們?nèi)匀黄鹕碜叩轿覀兊拇蠖鄶?shù)計算設(shè)備前使用它們。隨著語音識別的改進(jìn),這將不再是必要的。

帶有語音觸發(fā)功能的免提設(shè)備的迅速興起將發(fā)展成為智能設(shè)備,這些設(shè)備可以聆聽我們所說的話并決定何時適合從客戶端轉(zhuǎn)到云端。他們還將決定何時以及如何做出回應(yīng),有可能演變成坐在后臺傾聽一切并決定何時提供幫助的助手。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    561

    文章

    8278

    瀏覽量

    368553
  • 嵌入式
    +關(guān)注

    關(guān)注

    5210

    文章

    20698

    瀏覽量

    337644
  • Android
    +關(guān)注

    關(guān)注

    12

    文章

    4035

    瀏覽量

    134611
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    語音識別ic芯片分類工作原理,語音識別芯片分類

    語音識別IC芯片,通俗講就是能讓機(jī)器“聽懂”人話的專用集成電路。與傳統(tǒng)的語音播放芯片不同,語音識別芯片最大優(yōu)勢在于具備
    的頭像 發(fā)表于 04-24 15:14 ?189次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>ic芯片分類工作原理,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片分類

    485AI語音識別模塊:多路語音控制,實現(xiàn)安防設(shè)備語音聯(lián)動

    485AI語音識別模塊憑借工業(yè)級的RS485總線通信與離線/在線AI語音識別能力,應(yīng)用場景非常廣泛,粗略劃分可覆蓋超10大領(lǐng)域、數(shù)十種細(xì)分場景,核心集中在工業(yè)自動化、智能樓宇、智慧農(nóng)業(yè)
    的頭像 發(fā)表于 04-22 15:17 ?180次閱讀

    思澤遠(yuǎn)科技語音芯片指南:在嵌入式產(chǎn)品中 融入語音播報

    隨著嵌入式技術(shù)的不斷發(fā)展,在產(chǎn)品中加入語音播報功能已成為提升用戶體驗的重要手段。然而,面對市面上琳瑯滿目的語音方案,工程師們往往感到無從下手。本文將從實際工程角度出發(fā),結(jié)合思澤遠(yuǎn)科技的
    的頭像 發(fā)表于 04-14 09:17 ?459次閱讀
    思澤遠(yuǎn)科技<b class='flag-5'>語音</b>芯片指南:在<b class='flag-5'>嵌入式</b>產(chǎn)品中 融入<b class='flag-5'>語音</b>播報

    語音識別芯片介紹,語音識別芯片工作原理解析

    在智能交互不斷深入的今天,語音識別芯片正成為眾多設(shè)備實現(xiàn)語音控制與AI對話的關(guān)鍵部件。語音芯片廣義上涵蓋語音播放、錄音及
    的頭像 發(fā)表于 04-01 16:26 ?265次閱讀

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?438次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    國產(chǎn)32位MCU語音識別方案

    在智能家居、工業(yè)控制及便攜設(shè)備領(lǐng)域,語音交互正成為人機(jī)界面的重要發(fā)展方向。針對離線語音識別需求,基于國產(chǎn)32位MCU的解決方案日益成熟,其中以CH32V307等為代表的32位MCU芯片,憑借高集成度與專用優(yōu)化,為
    的頭像 發(fā)表于 12-04 15:11 ?724次閱讀

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術(shù)飛速發(fā)展的今天,語音識別芯片作為人機(jī)交互的重要橋梁,正逐漸成為各類智能設(shè)備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,語音
    的頭像 發(fā)表于 11-14 17:11 ?1580次閱讀

    什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點)

    離線語音識別芯片,是一種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯(lián)網(wǎng)也可以進(jìn)行語音控制。它內(nèi)設(shè)先進(jìn)的數(shù)字信號處理模塊及
    的頭像 發(fā)表于 10-31 15:27 ?715次閱讀

    如何選擇合適的語音識別芯片型號

    語音識別芯片(又稱語音識別IC)是現(xiàn)代智能設(shè)備的核心組件,與傳統(tǒng)語音芯片相比,其最大特點是能夠主動識別
    的頭像 發(fā)表于 10-30 16:32 ?768次閱讀

    基于開源鴻蒙的語音識別語音合成應(yīng)用開發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進(jìn)行ASR語音識別與TTS語音合成應(yīng)用開發(fā)的流程。
    的頭像 發(fā)表于 08-25 14:26 ?4508次閱讀
    基于開源鴻蒙的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及<b class='flag-5'>語音</b>合成應(yīng)用開發(fā)樣例

    2025嵌入式行業(yè)現(xiàn)狀如何?

    2025嵌入式行業(yè)現(xiàn)狀如何? 一、市場規(guī)模與增長趨勢1.1 全球市場概況總體規(guī)模:2025年全球嵌入式系統(tǒng)市場規(guī)模預(yù)計突破1.2萬億美元,相當(dāng)于每天誕生3個“光谷”級產(chǎn)業(yè)集群。 驅(qū)動因素:物聯(lián)網(wǎng)
    發(fā)表于 08-25 11:34

    瑞芯微RK3576語音識別算法

    1.語音識別簡介語音識別技術(shù),也被稱為自動語音識別
    的頭像 發(fā)表于 08-15 15:13 ?2489次閱讀
    瑞芯微RK3576<b class='flag-5'>語音</b><b class='flag-5'>識別</b>算法

    語音識別---大家怎么看呢?

    語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),
    發(fā)表于 08-09 10:54

    語音識別芯片選型有哪些技術(shù)參數(shù)要注意

    語音識別芯片的使用場景越來越多涉及的范圍也越來越廣!那么語音芯片的選型就很重要了,選型不對直接影響產(chǎn)品的使用體驗,下面小編從不同的維度來給大家介紹語音
    的頭像 發(fā)表于 06-23 17:31 ?1105次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片選型有哪些<b class='flag-5'>技術(shù)</b>參數(shù)要注意

    【米爾-RK3562開發(fā)板試用評測】RK3562J開發(fā)板-語音識別功能測試(一)

    主要開發(fā)語言(系統(tǒng)已預(yù)裝或手動安裝) ??模型框架?? 采用 ??Vosk?? 離線語音識別框架 優(yōu)勢:支持嵌入式場景,資源占用低 ??模型文件準(zhǔn)備
    發(fā)表于 05-17 21:29
    建平县| 迁西县| 乡城县| 巴东县| 沂南县| 鄂尔多斯市| 嘉善县| 金堂县| 灯塔市| 德令哈市| 桃园县| 博野县| 彭阳县| 文登市| 武强县| 南丹县| 扎兰屯市| 西畴县| 阜平县| 雷山县| 湖南省| 桦甸市| 襄城县| 增城市| 许昌市| 白玉县| 呼玛县| 南城县| 周口市| 左贡县| 汉沽区| 大关县| 喀喇沁旗| 呼伦贝尔市| 抚远县| 许昌市| 五大连池市| 定边县| 博兴县| 宜章县| 保亭|