Google翻譯添加對(duì)梵文等24種語(yǔ)言的支持

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2022-05-16
2872
Google本周宣布,Google翻譯(Google Translate)將添加包括梵文在內(nèi)的24種語(yǔ)言的支持,讓Google Translate所能翻譯的語(yǔ)言類(lèi)別達(dá)到133種。

0512-googlefan_yi_-960.jpg

Google本周宣布,Google翻譯(Google Translate)將添加包括梵文在內(nèi)的24種語(yǔ)言的支持,讓Google Translate所能翻譯的語(yǔ)言類(lèi)別達(dá)到133種。

此次添加的24種語(yǔ)言多半出現(xiàn)在印度或非洲,屬于相對(duì)冷門(mén)的語(yǔ)言,其中最受歡迎的是擁有5,000萬(wàn)使用人口的Bhojpuri,而最少的則是只有2萬(wàn)人仍在使用的梵文。此外,這24種語(yǔ)言也是首批采用零樣本機(jī)器翻譯(Zero-Shot Machine Translation)而出爐的成品。

Translate_New-Languages.jpg

圖片來(lái)源/Google

目前全球大約有3億人口使用這24種語(yǔ)言,除了5,000萬(wàn)散落在北印、尼泊爾與斐濟(jì)的人口說(shuō)著B(niǎo)hojpuri之外,非洲約有4,000萬(wàn)人口使用Lingala,非洲的埃塞俄比亞及肯尼亞有3,700萬(wàn)人口使用Oromo,北印有3,400萬(wàn)人口使用Maithili,印度東北方有2,500萬(wàn)人口使用Assamese。

Google表示,即使現(xiàn)有的翻譯服務(wù)覆蓋了全球大多數(shù)人使用的語(yǔ)言,但這些語(yǔ)言只有100種左右,約占全球所說(shuō)語(yǔ)言的1%,況且熱門(mén)的語(yǔ)言多半集中在歐洲,而非洲或美洲的許多語(yǔ)言都被忽略。

Google指出,要替這些冷門(mén)語(yǔ)言創(chuàng)建翻譯模型并不容易,它們不僅缺乏數(shù)字資料,也因語(yǔ)言識(shí)別(LangID)模型品質(zhì)不佳而難以自網(wǎng)絡(luò)上搜集,再加上機(jī)器翻譯(ML)模型通常需要在大量平行翻譯文本上進(jìn)行訓(xùn)練,在缺乏這類(lèi)的資料時(shí),ML模型只能自有限的單語(yǔ)文本學(xué)習(xí)。

對(duì)于讓Google Translate添加對(duì)上述24種缺乏資源的語(yǔ)言的翻譯能力,Google則是開(kāi)發(fā)了專(zhuān)門(mén)的神經(jīng)語(yǔ)言識(shí)別模型,再輔以新穎的過(guò)濾方式,來(lái)創(chuàng)建單語(yǔ)資料集。

Google先是針對(duì)超過(guò)1,000種語(yǔ)言訓(xùn)練了一個(gè)基于Transformer的半監(jiān)督LangID模型。該模型利用MAsked Sequence-to-Sequence(MASS)來(lái)強(qiáng)化LangID的任務(wù),MASS會(huì)隨機(jī)移除所輸入的標(biāo)記串行,簡(jiǎn)單地混淆輸入,并訓(xùn)練該模型來(lái)預(yù)測(cè)這些串行。Google把該LangID模型應(yīng)用在一個(gè)已經(jīng)由CLD3語(yǔ)言識(shí)別模型過(guò)濾的資料集,再訓(xùn)練它來(lái)識(shí)別類(lèi)似的語(yǔ)言集群。

接著以權(quán)衡文本重要性的開(kāi)源Term Frequency-Inverse Internet Frequency(TF-IIF)項(xiàng)目來(lái)過(guò)濾該資料集,去除屬于高資源語(yǔ)言的句子,并開(kāi)發(fā)各種特定語(yǔ)言的過(guò)濾器來(lái)移除異常。

經(jīng)過(guò)層層的過(guò)濾之后,終于得到了支持上千種語(yǔ)言、具備單語(yǔ)文本的資料集,其中有400種語(yǔ)言擁有超過(guò)10萬(wàn)個(gè)句子,在以人力評(píng)估其中的68種語(yǔ)言后,發(fā)現(xiàn)有超過(guò)7成具備高品質(zhì)的語(yǔ)言?xún)?nèi)容。

有了該資料集之后,Google開(kāi)發(fā)了一種簡(jiǎn)單卻實(shí)用的零資源翻譯做法,所謂的零資源指的是它們既無(wú)平行翻譯文本,也沒(méi)有特定語(yǔ)言的翻譯例子。不過(guò),除了單語(yǔ)文本之外,該模型也搭配了所有豐富資源語(yǔ)言的平行翻譯文本,借以訓(xùn)練模型的翻譯能力,并通過(guò)MASS來(lái)讓該模型如何僅自單語(yǔ)文本來(lái)學(xué)習(xí)這些語(yǔ)言的表示方法,這讓Google得以訓(xùn)練出一個(gè)支持1,138種語(yǔ)言的大型翻譯模型。

此次被Google Translate納入的24種語(yǔ)言想必是其中品質(zhì)相對(duì)較高的成品。Google指出,它們是該公司采用零樣本機(jī)器翻譯的首批語(yǔ)言,沒(méi)有看過(guò)任何樣本就能翻譯成其它語(yǔ)言,只是就算該技術(shù)令人印象深刻,卻不完美,未來(lái)將持續(xù)改善相關(guān)的各種模型,以讓這些冷門(mén)語(yǔ)言的翻譯效果足以媲美西班牙文或德文。

原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家