近日 Google Brain 團(tuán)隊(duì)對(duì)外發(fā)布了 Parrotron 項(xiàng)目,幫助人和設(shè)備更準(zhǔn)確地理解具有語音障礙的人。Parrotron 從音頻分析入手,從語音信號(hào)的角度來解決問題。它通過單個(gè)端到端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將來自語音障礙人士的語音,直接轉(zhuǎn)換為流利的合成語音,從而幫助他們解決交流上的問題。
Dimitri Kanevsky,出生于 50 年代的俄羅斯,他的成長階段經(jīng)歷了中蘇冷戰(zhàn),但他仍然完成學(xué)業(yè),并獲得了數(shù)學(xué)博士學(xué)位。
他的求學(xué)、工作足跡從俄羅斯開始,輾轉(zhuǎn)于以色列、德國,最終選擇留在了美國,并成為了谷歌的研究科學(xué)家,專注于語音識(shí)別算法領(lǐng)域。
似乎是一個(gè)學(xué)霸精英的人生路徑:受到良好的教育,獲得美國綠卡、光鮮的工作、152 項(xiàng)美國科學(xué)技術(shù)專利,最后在硅谷登頂人生巔峰。
故事卻遠(yuǎn)遠(yuǎn)沒這么簡單,Dimitri Kanevsky并不是一個(gè)普通人。大多數(shù)人都難以想到,他還是聽障人群中的一員。
Dimitri Kanevsky在一歲時(shí),因?yàn)樗幬飳?dǎo)致了耳聾,但他的家庭依舊為他選擇了正常的教育,他從小就開始學(xué)習(xí)讀唇、發(fā)聲,一直就讀于普通學(xué)校。并在十幾歲的時(shí)候,通過俄語發(fā)音的輔助,開始學(xué)習(xí)英語。
但在學(xué)習(xí)英語時(shí),因?yàn)槁犃φ系K、俄語發(fā)音差別等原因,他在語言交流上存在很大的障礙。他說出的語句比較模糊,常常是對(duì)方聽不懂的表達(dá)。甚至連對(duì)自己的家人的口頭關(guān)懷,都有可能無法遞達(dá)。
簡單來說,他說的英語大多數(shù)人很難直接聽懂,為了解決自己的問題,也幫助更多和自己面臨類似問題的人群,Dimitri Kanevsky一直在攻克語音識(shí)別方向的課題。
有時(shí)只為完成一些普通的交流
Dimitri Kanevsky需要借助語音轉(zhuǎn)文字的工具
在醫(yī)學(xué)上,這種說話不清楚的情況稱為「構(gòu)音障礙 dysarthria」。據(jù)統(tǒng)計(jì),因?yàn)樯眢w疾病而導(dǎo)致構(gòu)音障礙的情形,在全世界多達(dá)一百萬人。
構(gòu)音障礙是由于神經(jīng)病變,與言語有關(guān)的肌肉麻痹、收縮力減弱或運(yùn)動(dòng)不協(xié)調(diào)所致的言語障礙,通俗的說法是「口齒不清」。
比如中風(fēng),大腦麻痹,帕金森病,唐氏綜合癥, ALS(漸凍癥)等諸多疾病,都會(huì)造成這一狀況。
對(duì)方說了嘰里咕嚕的一堆
你聽到的卻是嗚嗚哇哇的一串雜音...
同樣在谷歌,一位叫Aubrie Lee 的品牌市場經(jīng)理,被診斷出罕見的肌肉萎縮癥(漸凍癥),導(dǎo)致她長時(shí)間要在輪椅上度過。
全身肌肉的不斷流失,也造成了她在交流上的困難。Aubrie 在聽力和發(fā)音上都異常吃力,還因?yàn)闊o法微笑而常常被人誤解。此外她還擁有多種口音,發(fā)音并不清晰,在對(duì)話時(shí)對(duì)方往往無法明白她的意思。
為了幫助 Dimitri Kanevsky 和 Aubrie Lee 這樣的同伴,解決他們?cè)谡Z言上的難題,構(gòu)音困難逐漸成了谷歌 AI 研究團(tuán)隊(duì)的一個(gè)科研方向。
關(guān)懷語言障礙者,谷歌推出突破性工具
幾年前,Kanevsky 帶著 30 年的語音識(shí)別經(jīng)驗(yàn),加入谷歌的 AI 研究組,那時(shí)還沒有能讓他和其他人正常溝通的便捷工具。每次開會(huì), Kanevsky 都需要提前預(yù)定 CART 服務(wù),依賴字幕員進(jìn)入到會(huì)議中,將語音信息敲到屏幕上進(jìn)行對(duì)話。
同樣的,Aubrie 和自己同事們,也都需要花費(fèi)很大的力氣,才能完成常人輕松勝任的工作交流。但這種窘境,正在慢慢地成為歷史。
2019 年 2 月,谷歌推出了一款A(yù)pp——Live Transcribe ,為便攜式的語言轉(zhuǎn)化帶來了曙光。它是一款即時(shí)轉(zhuǎn)錄真實(shí)世界語音的應(yīng)用程序,使用手機(jī)自帶的麥克風(fēng),即可將語音轉(zhuǎn)換為實(shí)時(shí)顯示的文字。
隨后,在 5 月份的谷歌I/O 大會(huì)上,Project Euphoria 被提出,這個(gè)計(jì)劃為 ALS 導(dǎo)致的語言受損人群,提供一套語音到文字的解決方案。
Project Euphoria 中
谷歌訓(xùn)練AI 模型以適應(yīng)語言障礙
在這個(gè)月,谷歌推出了一款新的 AI 工具 Parrotron,能夠直接將模糊的聲音,轉(zhuǎn)化成標(biāo)準(zhǔn)的合成音。這將解決語言障礙的技術(shù)又往前推進(jìn)了一步。
Parrotron 由端到端的深度神經(jīng)網(wǎng)絡(luò)組成,從音頻分析的角度入手,在使用時(shí),測試者對(duì)著手機(jī)等設(shè)備說話,就能快速的得到轉(zhuǎn)述后的標(biāo)準(zhǔn)發(fā)音。
在論文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中,Parrotrn 表現(xiàn)優(yōu)異,語音識(shí)別和轉(zhuǎn)化的正確率都有了新的突破。
Parrotron:將模糊話語,翻譯成清晰的語音
那這項(xiàng)看起來黑科技滿滿的技術(shù),究竟是怎么做到的呢?
Parrotron 是一個(gè)端到端的序列到序列模型,使用輸入/輸出語音對(duì)的并行語料庫訓(xùn)練,建立了模糊音與正常語句之間的映射。
Parrotron的結(jié)構(gòu)流程示意圖
網(wǎng)絡(luò)模型由注意力機(jī)制的編碼器和解碼器組成,最后由聲碼器合成時(shí)域波形,提供預(yù)測出的音頻信號(hào)。
編碼器將聲學(xué)幀序列轉(zhuǎn)換為隱藏的特征表示,解碼器將解析出表示以預(yù)測出頻譜圖。
操作上分為兩個(gè)步驟:首先,為標(biāo)準(zhǔn)流暢的音頻構(gòu)建語音到語音轉(zhuǎn)換模型,然后調(diào)整模型參數(shù)將模糊語音作為輸入,讓模型學(xué)會(huì)分辨和識(shí)別。
Kanevsky 和另一員工使用Parrotron
為了模擬 ALS 患者的語音特征,他們使用來自 Project Euphonia 的 ALS 語音語料庫,通過合成語言的方式制造模糊的語句,作為訓(xùn)練數(shù)據(jù)。
而對(duì)特定的個(gè)人,就由本人提供錄制的素材。
在經(jīng)過訓(xùn)練后,轉(zhuǎn)換模型能夠排除語言中的干擾因素,比如重音、韻律和背景噪音等影響;同時(shí)忽略掉所有非語言信息的干擾,包括說話者特征,環(huán)境因素,說話方式,僅分析和處理談話的內(nèi)容。
Parrontron 前兩位測試者:毫無懸念
要驗(yàn)證 Parrotron 的實(shí)際效果,自然還要看它在實(shí)踐中的表現(xiàn)。而測試的最佳人選,毫無疑問落到了Dimitri Kanevsky 和Aubrie Lee身上。
在實(shí)驗(yàn)中,Dimitri 錄制了一個(gè) 15 小時(shí)長的語料庫,讓模型學(xué)習(xí)他講話時(shí)的細(xì)微之處。通過學(xué)習(xí),模型在最后的翻譯中,在測試集里的翻譯錯(cuò)誤率,從開始的 89% 降低到了 32% 。
換句話說,使用 Parrotron 轉(zhuǎn)錄的語音,對(duì)方或者ASR (語音識(shí)別)系統(tǒng)能夠輕松的聽懂他了。
Kanevsky 使用Parrotron的詳情
隨后, Aubrie Lee 也進(jìn)行了測試,通過她貢獻(xiàn)的 1.5 小時(shí)講話內(nèi)容,模型翻譯出的準(zhǔn)確的語音,也讓她實(shí)現(xiàn)了清楚表達(dá)的愿望。
AI for Social Good:人工智能的使命
人工智能打造的無障礙項(xiàng)目,在最近幾年被頻繁地提出。許多極具關(guān)懷的技術(shù)紛紛出現(xiàn),在努力幫助殘障人士打開新奇的大門。
當(dāng)然,技術(shù)在服務(wù)這些人的同時(shí),也被這些特別的群體所推動(dòng)。比如Dimitri Kanevsky,因?yàn)樯钪獦?gòu)音障礙帶來的困境,他一直致力于語音辨識(shí)和通訊研究的研究工作。而Aubrie Lee則用熱烈而蓬勃的生活態(tài)度,鼓舞和督促著更多對(duì)殘障人群的研究投入。
Aubrie 還是跨學(xué)科藝術(shù)家、設(shè)計(jì)師
活躍在多個(gè)為殘疾人權(quán)益斗爭的平臺(tái)上
雖然目前的數(shù)據(jù)顯示,情況還并不樂觀:在全球所有的殘障人士中,只有十分之一的人,獲得了相應(yīng)的技術(shù)工具。但所幸的是,隨著一些喜人的進(jìn)步,很多情況都在發(fā)生改變。
作為科技大廠的谷歌,還在實(shí)施他們「AI for social good」的計(jì)劃,而諸如 Parrotron 之類的工具,大概就是朝著美好愿景踏進(jìn)的腳印。
在人工智能技術(shù)風(fēng)靡世界的當(dāng)下,我們看到了 AI 對(duì)藝術(shù)的改造和創(chuàng)造力,對(duì)社會(huì)生活的積極推動(dòng),但也看到了有人利用 AI 惡意換臉、拼接、無中生有。
希望 AI 能回歸科學(xué)的初心,幫助更多需要幫助的人,Make the world a better place!
-
谷歌
+關(guān)注
關(guān)注
27文章
6263瀏覽量
112112 -
語音識(shí)別
+關(guān)注
關(guān)注
39文章
1828瀏覽量
116298
原文標(biāo)題:谷歌的語音識(shí)別利器,最先造福了自己的員工
文章出處:【微信號(hào):smartman163,微信公眾號(hào):網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
雷曼光電入選ICDT 2026顯示行業(yè)十大突破性進(jìn)展榜單
Profinet轉(zhuǎn)CanOpen協(xié)議轉(zhuǎn)換網(wǎng)關(guān),破解工業(yè)設(shè)備“語言障礙”
泰凌微電子以突破性創(chuàng)新多維定義AIoT無線連接邊界
C語言特性
今日看點(diǎn):消息稱已有模組企業(yè)調(diào)整原定產(chǎn)品規(guī)劃;華為將發(fā)布 AI 領(lǐng)域突破性技術(shù)
今日看點(diǎn):谷歌芯片實(shí)現(xiàn)量子計(jì)算比經(jīng)典超算快13000倍;NFC 技術(shù)突破:讀取距離從 5 毫米提升至 20 毫米
AI賦能谷歌Chrome與Web工具全面升級(jí)
瀾起科技憑借在內(nèi)存接口和高速互連芯片領(lǐng)域的突破性創(chuàng)新榮膺《財(cái)富》中國科技50強(qiáng)
匠芯創(chuàng)發(fā)布新版GUI開發(fā)工具 新增多國語言設(shè)置等功能
時(shí)空壺新 T1,暑期海外暢行的語言橋梁
關(guān)懷語言障礙者,谷歌推出突破性工具
評(píng)論