近日,快商通Kriston AI Lab和新加坡國立大學(xué)聯(lián)合發(fā)表的論文《Modeling Code-Switch Languages Using Bilingual Parallel Corpus(使用平行語料為中英文語碼轉(zhuǎn)換建模)》被第58屆計算語言學(xué)年會 ACL 2020 錄用,論文介紹了一種通過機(jī)器學(xué)習(xí)算法建立語言模型的方法,主要用于解決中英混合文本數(shù)據(jù)缺失問題,是語音識別領(lǐng)域?qū)Χ嗾Z種切換語音識別的首次突破。
ACL是計算語言學(xué)和自然語言處理領(lǐng)域最重要的頂級會議,被CCF與清華共同列為頂級A類會議。今年,ACL共接收到超過3000篇投稿,雖未公布錄取率,但依照歷史平均錄取率23.7%來看,被收錄的論文代表了人工智能領(lǐng)域的世界領(lǐng)先水平。
多語種切換語音識別現(xiàn)狀:需求火熱,技術(shù)難突破
隨著全球化的演進(jìn),多語言通信成為越來越普遍的現(xiàn)象。例如在新加坡等東南亞地區(qū),英語作為大部分人的第一外語,會被自然而然地穿插在以中文為主的日常交流中。相對應(yīng)地,對多語種切換語音識別也成為當(dāng)下火熱的需求。
然而,多語種切換語音識別一直是語音領(lǐng)域面臨的重要挑戰(zhàn)之一,最主要的原因,是因為多語種切換數(shù)據(jù)的缺失。
語音識別系統(tǒng)訓(xùn)練,需要語音和文本兩方面的數(shù)據(jù)。通常,多語種切換的表達(dá)多在口語交流中出現(xiàn),因此,文本形式的多語種切換表達(dá)資源匱乏。
使用平行語料為中英文語碼轉(zhuǎn)換建模
快商通Kriston AI Lab瞄準(zhǔn)海外痛點需求,提出了一種基于注意力機(jī)制的雙語語言建模算法(BLAM),該算法綜合考慮兩種語言的詞序列上下文關(guān)系以及兩種語言間的語法差異。具體地,文章定義了兩種損失函數(shù),分別用于對單一語言的語法進(jìn)行約束以及對多語種切換表達(dá)的語法進(jìn)行約束。然后將兩種約束用于訓(xùn)練基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型。
這種方法,是現(xiàn)階段語音識別領(lǐng)域?qū)Χ嗾Z種切換的首次突破,其算法具有以下優(yōu)點:
1、兩種語言均可以作為主語語言,語碼轉(zhuǎn)換時兩種語言的比例不影響語音識別的性能;
2、語言模型混淆度(PPL)相對目前最好的多語種切換語言模型建模算法能降低20%以上,語音識別詞錯率相對目前最好的多語種切換語音識別算法能降低25%以上;
3、該算法可用于多語種切換的規(guī)范化,即,將兩個語種混雜的文本規(guī)范化為統(tǒng)一的語種表達(dá);
該算法可進(jìn)一步擴(kuò)展,用于句子生成以及機(jī)器翻譯。
技術(shù)全球化布局,構(gòu)建中國AI影響力
快商通Kriston AI Lab研究多語種切換的核心目的,是希望構(gòu)建更加便利、更加人性化的語音技術(shù)能力,進(jìn)而破除全球化發(fā)展難題,為用戶創(chuàng)造更大的價值。這一思想,與公司積極推動技術(shù)出海的戰(zhàn)略相吻合。
專注人工智能技術(shù)近10年,快商通Kriston AI Lab在算法原創(chuàng)和技術(shù)開發(fā)上都已形成深厚的積累,恰逢全球化背景,公司積極響應(yīng)海外市場需求,將語音識別、自然語言處理、聲紋識別、大數(shù)據(jù)等方面的核心技術(shù)逐漸向外延伸,自2017年以來,先后在新加坡、美國硅谷、俄羅斯莫斯科建立人工智能海外研究院,與俄羅斯科學(xué)院達(dá)成技術(shù)與人才方面的戰(zhàn)略合作。
未來,快商通還將持續(xù)保持合作共贏的態(tài)度,以AI為核心賦能海外市場,探索中國技術(shù)國際化路徑,在世界范圍內(nèi)構(gòu)建中國人工智能的影響力。
lw
-
語音識別技術(shù)
+關(guān)注
關(guān)注
0文章
55瀏覽量
13330 -
人工智能
+關(guān)注
關(guān)注
1821文章
50367瀏覽量
267062 -
ACL
+關(guān)注
關(guān)注
0文章
61瀏覽量
12873
發(fā)布評論請先 登錄
晶科能源TOPCon/鈣鈦礦疊層技術(shù)突破獲權(quán)威認(rèn)證
FLIR熱成像技術(shù)助力英國頂尖學(xué)府在電卡效應(yīng)研究領(lǐng)域取得重大突破
RECOM與上海電力大學(xué)聯(lián)合編譯專業(yè)著作
Keysight與新加坡研究機(jī)構(gòu)合作推進(jìn)量子計算研究
上海交通大學(xué)與華為聯(lián)合項目入選CEIC 2025技術(shù)創(chuàng)新案例
新加坡國立大學(xué):研究基于二維材料的多屬性傳感平臺
全北國立大學(xué):研究可穿戴汗液傳感貼片,用于無創(chuàng)連續(xù)健康監(jiān)測
維度網(wǎng) | 鈣鈦礦硅串聯(lián)太陽能電池穩(wěn)定性研究取得新進(jìn)展
理想汽車12篇論文入選全球五大AI頂會
中國芯片研制獲重大突破 全球首款亞埃米級快照光譜成像芯片
達(dá)坦能源TAPP智能無線井下壓力監(jiān)測系統(tǒng)取得重大突破
思必馳與上海交大聯(lián)合實驗室研究成果入選兩大頂級會議
后摩智能四篇論文入選三大國際頂會
云知聲四篇論文入選自然語言處理頂會ACL 2025
中軟國際在大型銀行AI項目領(lǐng)域?qū)崿F(xiàn)重大突破
語音識別重大突破!快商通&新加坡國立大學(xué)聯(lián)合論文入選ACL 2020
評論