來(lái)源:科學(xué)網(wǎng)
得益于神經(jīng)網(wǎng)絡(luò)——從人腦獲得靈感的計(jì)算機(jī)算式——的發(fā)展,自動(dòng)化的語(yǔ)言翻譯已經(jīng)存在了相當(dāng)長(zhǎng)一段時(shí)間。但訓(xùn)練這些網(wǎng)絡(luò)需要海量數(shù)據(jù):數(shù)以千萬(wàn)計(jì)的逐句翻譯,以展示人類(lèi)如何做這項(xiàng)工作?,F(xiàn)在,兩篇新論文表明神經(jīng)網(wǎng)絡(luò)可以在無(wú)需平行文本的情況下學(xué)習(xí)翻譯——這一令人震驚的進(jìn)展或讓人們獲得許多不同語(yǔ)言的文獻(xiàn)記錄。
“想象一下,你給一個(gè)人很多中文書(shū)籍和阿拉伯書(shū)籍,而且它們沒(méi)有任何重疊性,然后一個(gè)人需要學(xué)習(xí)將其從中文翻譯為阿拉伯語(yǔ)。這聽(tīng)起來(lái)似乎不可能,對(duì)吧?”其中一項(xiàng)研究的第一作者、西班牙圣西巴提巴斯克國(guó)家大學(xué)(UPV)計(jì)算機(jī)專(zhuān)家Mikel Artetxe說(shuō),“但我們證明計(jì)算機(jī)可以做到這一點(diǎn)。”
大多數(shù)機(jī)器學(xué)習(xí)——神經(jīng)網(wǎng)絡(luò)和其他從經(jīng)驗(yàn)中學(xué)習(xí)的計(jì)算機(jī)算式會(huì)受到“監(jiān)督”。計(jì)算機(jī)會(huì)進(jìn)行推測(cè),然后接收到正確答案,并據(jù)此調(diào)整相應(yīng)的過(guò)程。在教一臺(tái)計(jì)算機(jī)如何在諸如英語(yǔ)和法語(yǔ)之間進(jìn)行翻譯時(shí),這種模式會(huì)非常有效,因?yàn)楹芏辔墨I(xiàn)在這兩種語(yǔ)言中同時(shí)存在。但它對(duì)于罕見(jiàn)的語(yǔ)言,或者是那些沒(méi)有很多平行文本的通用語(yǔ)言并不奏效。
這兩篇尚未經(jīng)過(guò)同行評(píng)議的新文章均已被提交給明年的國(guó)際學(xué)習(xí)表征會(huì)議,它們聚焦了另一種方法:不監(jiān)督機(jī)器學(xué)習(xí)。一開(kāi)始,計(jì)算機(jī)在沒(méi)有人類(lèi)老師告訴它們其推測(cè)是否正確的情況下建設(shè)雙語(yǔ)詞典。這是因?yàn)檎Z(yǔ)言在詞匯結(jié)合方面有著很強(qiáng)的相似性。例如,在各種語(yǔ)言中,桌子和椅子的詞匯經(jīng)常會(huì)一起使用。因此,如果計(jì)算機(jī)將這些共現(xiàn)性像一個(gè)城市巨大的公路地圖那樣描繪出來(lái),那么不同語(yǔ)言的地圖就會(huì)彼此相似,只不過(guò)它們擁有不同的名字。如此一來(lái),計(jì)算機(jī)就能找出將一個(gè)地圖集覆蓋在另一個(gè)地圖集上的最佳方法。瞧!一本雙語(yǔ)詞典出現(xiàn)了。
這兩篇文章運(yùn)用了非常類(lèi)似的方法,均能在語(yǔ)句層面進(jìn)行翻譯。它們均使用兩種訓(xùn)練策略,即回譯和去噪。在回譯中,一種語(yǔ)言中的一句話被粗略地翻譯成另一種語(yǔ)言,然后再被轉(zhuǎn)譯回最初的語(yǔ)言。如果回譯的語(yǔ)句與最初語(yǔ)句并不相同,那么將對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行調(diào)整,從而使它們?cè)谙乱淮畏g得更加準(zhǔn)確。去噪類(lèi)似于回譯,但它不是從一種語(yǔ)言翻譯為另一種語(yǔ)言,然后再轉(zhuǎn)換為原語(yǔ)言,而是在一個(gè)句子中加入噪音(重新編排或是刪除詞匯),并嘗試將其翻譯到原語(yǔ)言中去。這兩種方法相結(jié)合教會(huì)了網(wǎng)絡(luò)更深層次的語(yǔ)言結(jié)構(gòu)。
不過(guò),這兩種技術(shù)之間也有些微差異。UPV的系統(tǒng)在訓(xùn)練過(guò)程中進(jìn)行了更多的回譯。而另一個(gè)由位于法國(guó)巴黎的臉譜網(wǎng)計(jì)算機(jī)科學(xué)家與其合作者研發(fā)的系統(tǒng),則在翻譯過(guò)程中加入了額外的步驟。在將其“解碼”為另一種語(yǔ)言之前,兩套系統(tǒng)都會(huì)將一種語(yǔ)言的一個(gè)句子編碼為一種更加抽象的表征,但臉譜網(wǎng)的系統(tǒng)驗(yàn)證了中間的“語(yǔ)言”是真正抽象的。Artetxe和Artetxe均表示,他們可以通過(guò)應(yīng)用對(duì)方論文中的技術(shù)來(lái)改善自己的結(jié)果。
在兩篇文章之間進(jìn)行的唯一直接對(duì)比結(jié)果中——對(duì)摘自同一組約3000萬(wàn)個(gè)語(yǔ)句在英語(yǔ)和法語(yǔ)文本之間進(jìn)行翻譯,兩套系統(tǒng)在雙向翻譯中均獲得了15分的雙語(yǔ)評(píng)估分?jǐn)?shù)(用來(lái)衡量翻譯準(zhǔn)確性)。這個(gè)分值沒(méi)有谷歌翻譯高(該系統(tǒng)所用的受監(jiān)督的方法得分為40分),也不如人類(lèi)翻譯得分高(超過(guò)50分),但卻比逐字翻譯要好得多。作者表示,兩套系統(tǒng)可以很容易地通過(guò)變?yōu)椤鞍氡O(jiān)督性”得到改善,即把數(shù)千個(gè)平行的語(yǔ)句加入到它們的訓(xùn)練中。
除了不需要平行文本進(jìn)行跨語(yǔ)言翻譯之外,Artetxe和Lample均表示,他們的系統(tǒng)有助于進(jìn)行諸如英語(yǔ)和法語(yǔ)之間的常用翻譯匹配,特別是如果平行文本是同一類(lèi)的話,如新聞報(bào)道。但除此之外,人們還希望將其翻譯為不同類(lèi)型的文本,如街頭俚語(yǔ)或是醫(yī)學(xué)術(shù)語(yǔ)?!暗@一切尚處于新生階段?!盇rtetxe的共同作者Eneko Agirre說(shuō),“我們剛剛開(kāi)始了一個(gè)新的研究大道,現(xiàn)在我們還不知道它會(huì)通向哪里。”
中國(guó)北京計(jì)算機(jī)學(xué)家、其工作對(duì)上述兩項(xiàng)研究產(chǎn)生影響的Di He說(shuō):“在沒(méi)有人類(lèi)監(jiān)督的情況下,計(jì)算機(jī)能夠?qū)W習(xí)翻譯,這令人吃驚?!盇rtetxe說(shuō),他的方法和Lample的方法被上傳到arXiv預(yù)印本服務(wù)平臺(tái)的時(shí)間前后僅相隔1天,這樣的時(shí)間巧合令人吃驚?!巴瑫r(shí),它意味著這種方法的確是正確的方向?!?/p>
-
人工智能
+關(guān)注
關(guān)注
1821文章
50453瀏覽量
267506
原文標(biāo)題:人工智能“自學(xué)”做翻譯
文章出處:【微信號(hào):aiangelclub,微信公眾號(hào):人工智能天使會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
GT20L24F6Y標(biāo)準(zhǔn)點(diǎn)陣多國(guó)語(yǔ)言字庫(kù)芯片:開(kāi)啟多語(yǔ)言顯示新境界
GT32L24F0210標(biāo)準(zhǔn)點(diǎn)陣多國(guó)語(yǔ)言字庫(kù)芯片:多語(yǔ)言顯示的理想之選
GT32L24A180標(biāo)準(zhǔn)點(diǎn)陣中外文字庫(kù)芯片:多語(yǔ)言顯示的理想之選
計(jì)算機(jī)專(zhuān)業(yè)408考研科目
京東多語(yǔ)言質(zhì)量解決方案
工控機(jī)與普通計(jì)算機(jī)的核心差異解析
阿里巴巴國(guó)際站關(guān)鍵字搜索 API 實(shí)戰(zhàn):3 步搞定多語(yǔ)言適配 + 限流破局,詢(xún)盤(pán)量提升 40%
速賣(mài)通全球運(yùn)營(yíng)利器:商品詳情接口多語(yǔ)言 + 合規(guī) + 物流適配技術(shù)全解析
【作品合集】賽昉科技VisionFive 2單板計(jì)算機(jī)開(kāi)發(fā)板測(cè)評(píng)
聲智科技出席2025年北京市多語(yǔ)種AI語(yǔ)音翻譯大賽
工業(yè)計(jì)算機(jī)的重要性
自動(dòng)化計(jì)算機(jī)經(jīng)過(guò)加固后有什么好處?
自動(dòng)化計(jì)算機(jī)的功能與用途
工業(yè)計(jì)算機(jī)與商用計(jì)算機(jī)的區(qū)別有哪些
工業(yè)計(jì)算機(jī)如何設(shè)計(jì)用于沖擊和振動(dòng)
計(jì)算機(jī)很快或能翻譯更多語(yǔ)言
評(píng)論