據(jù)語(yǔ)言學(xué)家估計(jì),在全球化、文化同化等多種因素的影響下,到本世紀(jì)末,世界上約 7000 種的語(yǔ)言至少有一半將會(huì)消失。
記錄及振興瀕危語(yǔ)言的工作充滿挑戰(zhàn),其中部分原因在于缺乏相應(yīng)的文本和語(yǔ)音記錄。塞內(nèi)卡語(yǔ)是北美地區(qū)六個(gè)易洛魁聯(lián)盟所使用的語(yǔ)言之一,目前,僅有約 100 人將塞內(nèi)卡語(yǔ)作為第一語(yǔ)言,另有數(shù)百位非母語(yǔ)人士正在學(xué)習(xí)塞內(nèi)卡語(yǔ)。
自動(dòng)語(yǔ)音識(shí)別 (ASR) 技術(shù)已被廣泛應(yīng)用于轉(zhuǎn)寫(xiě)英語(yǔ)和漢語(yǔ)等大語(yǔ)種,這些語(yǔ)言的使用人數(shù)高達(dá)數(shù)百萬(wàn)至數(shù)十億。但對(duì)于塞內(nèi)卡語(yǔ)這類使用人數(shù)稀少且可用數(shù)據(jù)極度貧乏的語(yǔ)言來(lái)說(shuō),自動(dòng)語(yǔ)言識(shí)別技術(shù)發(fā)揮出的作用只是皮毛而已。
現(xiàn)在,紐約羅切斯特理工學(xué)院的一組研究人員以及布法羅大學(xué)的同事正在利用深度學(xué)習(xí)技術(shù)來(lái)增強(qiáng)自動(dòng)語(yǔ)音識(shí)別的功能。該項(xiàng)目現(xiàn)階段的工作核心是塞內(nèi)卡語(yǔ),但研究人員的愿景是將其應(yīng)用于全球各種瀕危語(yǔ)言的保護(hù),使之成為全人類共同文化歷史的重要組成部分。
“接觸不同的語(yǔ)言可以讓我們更多地了解大腦的運(yùn)作機(jī)制”,波士頓學(xué)院計(jì)算機(jī)科學(xué)助理教授兼羅切斯特理工學(xué)院研究員 Emily Prud'hommeaux 說(shuō)道,“在記錄一種語(yǔ)言時(shí),保存下來(lái)的不僅是這種語(yǔ)言本身,還有人類使用語(yǔ)言的基本方式”。
Prud’hommeaux 及其同事選擇從塞內(nèi)卡語(yǔ)開(kāi)始入手并非偶然。她表示,團(tuán)隊(duì)中有三名成員是塞內(nèi)卡人,在此類研究中,這種直接的聯(lián)系實(shí)屬罕見(jiàn)。
項(xiàng)目帶頭人是 Robbie Jimerson,他是羅切斯特理工學(xué)院 Golisano 計(jì)算與信息科學(xué)學(xué)院的博士研究生,也是塞內(nèi)卡印第安人部落中的一員,熱衷于保護(hù)塞內(nèi)卡語(yǔ)免于消亡。
“部落中的長(zhǎng)老為塞內(nèi)卡語(yǔ)的保護(hù)和推廣付出了很大的努力” ,Jimerson 說(shuō)道,“我也在尋找機(jī)會(huì)貢獻(xiàn)自己的一份力量”。
利用生成對(duì)抗網(wǎng)絡(luò)創(chuàng)建更多語(yǔ)言樣本
目前,該項(xiàng)目已經(jīng)進(jìn)行到了第三個(gè)年頭,在積累語(yǔ)言數(shù)據(jù)時(shí),研究人員遇到了一些挑戰(zhàn)。Jimerson 說(shuō),塞內(nèi)卡群體在與外人分享東西時(shí)十分謹(jǐn)慎,所以塞內(nèi)卡語(yǔ)的錄音資料非常少。而他則迎難而上。
一開(kāi)始,他把會(huì)說(shuō)塞內(nèi)卡語(yǔ)的朋友和老人當(dāng)作錄音對(duì)象,并請(qǐng)求這些人錄下他們和各自朋友的談話錄音。每當(dāng)有人在公共場(chǎng)合說(shuō)塞內(nèi)卡語(yǔ)時(shí),他都不會(huì)錯(cuò)過(guò)錄音的機(jī)會(huì)。此外,他還請(qǐng)家人錄下老人講述的古老傳說(shuō),同時(shí)也搜集了互聯(lián)網(wǎng)上一切可以公開(kāi)獲取的視頻和錄音資料。
研究團(tuán)隊(duì)精心編寫(xiě)了一款專門(mén)用來(lái)處理塞內(nèi)卡語(yǔ)的自動(dòng)語(yǔ)音識(shí)別模型,并通過(guò)生成對(duì)抗網(wǎng)絡(luò)利用有限的錄音創(chuàng)建出更多的語(yǔ)音樣本。該模型將錄音的波形文件轉(zhuǎn)換為字符流,同時(shí)計(jì)算出概率并進(jìn)行校正。
隨后,他們將得出的數(shù)據(jù)輸入深度學(xué)習(xí)模型,后者反過(guò)來(lái)增強(qiáng)了自動(dòng)語(yǔ)言識(shí)別模型的準(zhǔn)確度。
研究團(tuán)隊(duì)的網(wǎng)絡(luò)采用了兩種計(jì)算配置:其一是配備了九臺(tái)服務(wù)器的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,實(shí)驗(yàn)室中運(yùn)行著若干臺(tái) NVIDIA Tesla GPU;另一種是配備了大型服務(wù)器的大學(xué)集群,每臺(tái)服務(wù)器上運(yùn)行著 10 臺(tái)NVIDIA Tesla P4 GPU。每個(gè)集群都運(yùn)行著一系列深度學(xué)習(xí)框架,如 TensorFlow 和 Caffe。
“計(jì)算工程集群供計(jì)算機(jī)工程學(xué)院的所有學(xué)生使用,所以大家會(huì)‘爭(zhēng)搶’資源”,Ray Ptucha 如是說(shuō),他是羅切斯特理工學(xué)院計(jì)算機(jī)工程學(xué)院的助理教授,也是本項(xiàng)目的另一位成員。
有了這些彌足珍貴的集群,Jimerson 可以在運(yùn)行著NVIDIA TITAN X的本地機(jī)器上測(cè)試代碼并檢查模型的穩(wěn)定性,從而避免運(yùn)行可能會(huì)崩潰的模型,以至于為其他學(xué)生帶來(lái)不便。
準(zhǔn)確度更上一層樓
到目前為止,經(jīng)過(guò)團(tuán)隊(duì)的不懈努力,其自動(dòng)語(yǔ)音識(shí)別模型的文字錯(cuò)誤率已由 70% 降至 56%。Prud’hommeaux 稱,他們的目標(biāo)是將錯(cuò)誤率降低至 25%,這一水平相當(dāng)于幾年前使用自動(dòng)語(yǔ)音識(shí)別系統(tǒng)處理英語(yǔ)語(yǔ)音的水平。
團(tuán)隊(duì)可以積累的塞內(nèi)卡語(yǔ)語(yǔ)音和文字樣本越多,識(shí)別錯(cuò)誤率就會(huì)越低。(如今,英語(yǔ)自動(dòng)語(yǔ)音識(shí)別模型可以達(dá)到低至 5% 的錯(cuò)誤率。)
該團(tuán)隊(duì)取得的成果有望為全球其他語(yǔ)種的保護(hù)工作提供幫助。
據(jù) Prud’hommeaux 稱,團(tuán)隊(duì)已與一家存檔機(jī)構(gòu)達(dá)成協(xié)議,這是美國(guó)國(guó)家科學(xué)基金會(huì)為該項(xiàng)目提供的資助條件。當(dāng)他們開(kāi)展記錄瀕危語(yǔ)言的其他工作時(shí),可使用最終形成的語(yǔ)言存檔數(shù)據(jù)庫(kù)作為可用資源。
與此同時(shí),Prud’hommeaux 還表示,團(tuán)隊(duì)的工作將為只能利用有限數(shù)據(jù)量的深度學(xué)習(xí)研究提供思路。
-
人工智能
+關(guān)注
關(guān)注
1821文章
50385瀏覽量
267141 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5611瀏覽量
124666
原文標(biāo)題:人工智能幫助瀕危語(yǔ)言 “復(fù)活”
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
嵌入式人工智能課程(華清遠(yuǎn)見(jiàn))
開(kāi)發(fā)智能體配置-內(nèi)容合規(guī)
微軟與新思科技分享智能體人工智能技術(shù)的行業(yè)影響
航天宏圖人工智能技術(shù)深度賦能社會(huì)治理現(xiàn)代化
利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能
“人工智能+”,走老路難賺到新錢
挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
人工智能技術(shù)的現(xiàn)狀與未來(lái)發(fā)展趨勢(shì)
迅為RK3588開(kāi)發(fā)板Linux安卓麒麟瑞芯微國(guó)產(chǎn)工業(yè)AI人工智能
人工智能如何拯救瀕危語(yǔ)言
評(píng)論