麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(Computer Science and Artificial Intelligence Laboratory,CSAIL)的研究人員最近開(kāi)發(fā)出了一種新的計(jì)算機(jī)算法,可以幫助語(yǔ)言學(xué)家自動(dòng)破譯歷史上消失已久失的古語(yǔ)言。
官方指出,該系統(tǒng)能夠自動(dòng)破譯已消失的語(yǔ)言,且無(wú)需對(duì)這一語(yǔ)言與其他語(yǔ)言的關(guān)系有深入的了解。他們還表明,該系統(tǒng)自身就可以確定語(yǔ)言之間的關(guān)系,并可以用它來(lái)證實(shí)最近的一項(xiàng)表明 Iberian 語(yǔ)言實(shí)際上與 Basque 語(yǔ)言無(wú)關(guān)的學(xué)術(shù)研究。
CSAIL 方面稱(chēng),最近的研究表明,大多數(shù)曾經(jīng)存在過(guò)的語(yǔ)言已經(jīng)不再被使用。其中有數(shù)十種已滅絕語(yǔ)言也已被認(rèn)為是“未破譯”的語(yǔ)言。這就意味著,大眾對(duì)它們的語(yǔ)法(grammar)、詞匯(vocabulary)或句法(syntax)都了解不足,也無(wú)法理解其文本的意思。
而研究這些“未破譯”的語(yǔ)言,除了是出于學(xué)術(shù)上的好奇心。還在于,不理解語(yǔ)言我們就會(huì)錯(cuò)過(guò)與講這些語(yǔ)言的人有關(guān)的一整套知識(shí)體系。然而不幸的是,大多數(shù)滅絕語(yǔ)言的相關(guān)記錄都非常的少,導(dǎo)致科學(xué)家無(wú)法使用谷歌翻譯之類(lèi)的機(jī)器翻譯工具或 AI 算法來(lái)對(duì)其進(jìn)行解密。
因此,此次 CSAIL 團(tuán)隊(duì)推出這一新算法的最終目的就是,旨在只用幾千個(gè)單詞,就可以破譯語(yǔ)言學(xué)家?guī)资陙?lái)難以理解的失傳語(yǔ)言。
本次研究由 MIT 教授 Regina Barzilay 牽頭,依賴(lài)于基于歷史語(yǔ)言學(xué)(historical linguistics)見(jiàn)解的幾項(xiàng)原則。例如,語(yǔ)言通常僅以某些可預(yù)測(cè)的方式發(fā)展。具體表現(xiàn)為:一種給定的語(yǔ)言很少會(huì)直接添加或刪除整個(gè)音節(jié),但是很可能會(huì)發(fā)生某些近似發(fā)音的替換。像母語(yǔ)中帶有“p”發(fā)音的單詞就可能會(huì)在其后代演變中變?yōu)椤癰”,但是由于明顯的發(fā)音差異,變?yōu)椤発”的可能性則較小。
通過(guò)整合這些原則和其他語(yǔ)言學(xué)約束,Barzilay 和 MIT 博士生 Jiaming Luo 開(kāi)發(fā)了一種解密算法,該算法可以處理可能的轉(zhuǎn)換的巨大空間以及輸入中引導(dǎo)信號(hào)的稀缺性。該算法學(xué)習(xí)將語(yǔ)言聲音嵌入多維空間,在該多維空間中,相應(yīng)矢量之間的距離反映了不同發(fā)音的差異。這種設(shè)計(jì)使他們能夠捕獲語(yǔ)言變化的相關(guān)模式,并將其表達(dá)為計(jì)算約束(computational constraints)。生成的模型可以將古代語(yǔ)言中的單詞進(jìn)行細(xì)分,并將其映射到相關(guān)語(yǔ)言中的對(duì)應(yīng)單詞。
該項(xiàng)目建立在 Barzilay 和 Luo 去年寫(xiě)的一篇論文的基礎(chǔ)上, 這篇論文解密了已滅絕的 Ugaritic 和 Linear B 語(yǔ)言,后者以前需要數(shù)十年的時(shí)間才能被人類(lèi)解碼。但是,兩個(gè)項(xiàng)目之間的主要區(qū)別在于,該團(tuán)隊(duì)此前就已經(jīng)知道這些語(yǔ)言分別與希伯來(lái)語(yǔ)和希臘語(yǔ)的早期形式有關(guān)。
新算法可以推斷語(yǔ)言之間的關(guān)系,這是語(yǔ)言解密中的最大挑戰(zhàn)之一。該算法可以評(píng)估兩種語(yǔ)言之間的相似度,當(dāng)對(duì)已知語(yǔ)言進(jìn)行測(cè)試時(shí),它甚至可以準(zhǔn)確地識(shí)別出該語(yǔ)言屬于哪個(gè)語(yǔ)系(language families)。不僅如此,算法生成的模型可以將古語(yǔ)言中的單詞進(jìn)行細(xì)分,并將其一一映射到“相關(guān)”語(yǔ)言中的對(duì)應(yīng)單詞上去。
在未來(lái)的工作中,該團(tuán)隊(duì)希望擴(kuò)展到將文本與已知語(yǔ)言的相關(guān)單詞相關(guān)聯(lián)的范圍之外,這種方法被稱(chēng)為“基于同源的破譯方法”。其表示,“例如,我們可以識(shí)別文本中涉及到的所有人或地點(diǎn)的信息,然后可以根據(jù)已知的歷史證據(jù)對(duì)其進(jìn)行進(jìn)一步的調(diào)查。這些實(shí)體識(shí)別(entity recognition)方法如今已廣泛用于各種文本處理應(yīng)用程序中,并且具有很高的準(zhǔn)確性。但是關(guān)鍵的研究問(wèn)題在于,在沒(méi)有任何古代語(yǔ)言訓(xùn)練數(shù)據(jù)的情況下,這項(xiàng)任務(wù)是否可行? ”
責(zé)編AJX
-
算法
+關(guān)注
關(guān)注
23文章
4810瀏覽量
98617 -
MIT
+關(guān)注
關(guān)注
3文章
254瀏覽量
25043 -
機(jī)器翻譯
+關(guān)注
關(guān)注
0文章
141瀏覽量
15556
發(fā)布評(píng)論請(qǐng)先 登錄
算法工程師需要具備哪些技能?
C語(yǔ)言的PID算法
C語(yǔ)言增量式PID的通用算法
用于單片機(jī)幾種C語(yǔ)言算法
C語(yǔ)言的常見(jiàn)算法
C語(yǔ)言和單片機(jī)C語(yǔ)言有什么差異
復(fù)雜的軟件算法硬件IP核的實(shí)現(xiàn)
巡檢機(jī)器人落地攻略:RK3576驅(qū)動(dòng)12路低延遲視覺(jué)
AES和SM4算法的可重構(gòu)分析
花椒直播首次開(kāi)源推流器組件 為鴻蒙開(kāi)發(fā)者提供高性能推流解決方案
【嘉楠堪智K230開(kāi)發(fā)板試用體驗(yàn)】K230機(jī)器視覺(jué)相關(guān)功能體驗(yàn)
智能復(fù)合機(jī)器人:糾偏算法如何重塑工業(yè)精度與效率?
MIT推新型機(jī)器算法,可破譯消失已久的古語(yǔ)言
評(píng)論