Google翻譯添加對梵文等24種語言的支持

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2022-05-16
2547
Google本周宣布,Google翻譯(Google Translate)將添加包括梵文在內(nèi)的24種語言的支持,讓Google Translate所能翻譯的語言類別達到133種。

0512-googlefan_yi_-960.jpg

Google本周宣布,Google翻譯(Google Translate)將添加包括梵文在內(nèi)的24種語言的支持,讓Google Translate所能翻譯的語言類別達到133種。

此次添加的24種語言多半出現(xiàn)在印度或非洲,屬于相對冷門的語言,其中最受歡迎的是擁有5,000萬使用人口的Bhojpuri,而最少的則是只有2萬人仍在使用的梵文。此外,這24種語言也是首批采用零樣本機器翻譯(Zero-Shot Machine Translation)而出爐的成品。

Translate_New-Languages.jpg

圖片來源/Google

目前全球大約有3億人口使用這24種語言,除了5,000萬散落在北印、尼泊爾與斐濟的人口說著Bhojpuri之外,非洲約有4,000萬人口使用Lingala,非洲的埃塞俄比亞及肯尼亞有3,700萬人口使用Oromo,北印有3,400萬人口使用Maithili,印度東北方有2,500萬人口使用Assamese。

Google表示,即使現(xiàn)有的翻譯服務覆蓋了全球大多數(shù)人使用的語言,但這些語言只有100種左右,約占全球所說語言的1%,況且熱門的語言多半集中在歐洲,而非洲或美洲的許多語言都被忽略。

Google指出,要替這些冷門語言創(chuàng)建翻譯模型并不容易,它們不僅缺乏數(shù)字資料,也因語言識別(LangID)模型品質(zhì)不佳而難以自網(wǎng)絡上搜集,再加上機器翻譯(ML)模型通常需要在大量平行翻譯文本上進行訓練,在缺乏這類的資料時,ML模型只能自有限的單語文本學習。

對于讓Google Translate添加對上述24種缺乏資源的語言的翻譯能力,Google則是開發(fā)了專門的神經(jīng)語言識別模型,再輔以新穎的過濾方式,來創(chuàng)建單語資料集。

Google先是針對超過1,000種語言訓練了一個基于Transformer的半監(jiān)督LangID模型。該模型利用MAsked Sequence-to-Sequence(MASS)來強化LangID的任務,MASS會隨機移除所輸入的標記串行,簡單地混淆輸入,并訓練該模型來預測這些串行。Google把該LangID模型應用在一個已經(jīng)由CLD3語言識別模型過濾的資料集,再訓練它來識別類似的語言集群。

接著以權(quán)衡文本重要性的開源Term Frequency-Inverse Internet Frequency(TF-IIF)項目來過濾該資料集,去除屬于高資源語言的句子,并開發(fā)各種特定語言的過濾器來移除異常。

經(jīng)過層層的過濾之后,終于得到了支持上千種語言、具備單語文本的資料集,其中有400種語言擁有超過10萬個句子,在以人力評估其中的68種語言后,發(fā)現(xiàn)有超過7成具備高品質(zhì)的語言內(nèi)容。

有了該資料集之后,Google開發(fā)了一種簡單卻實用的零資源翻譯做法,所謂的零資源指的是它們既無平行翻譯文本,也沒有特定語言的翻譯例子。不過,除了單語文本之外,該模型也搭配了所有豐富資源語言的平行翻譯文本,借以訓練模型的翻譯能力,并通過MASS來讓該模型如何僅自單語文本來學習這些語言的表示方法,這讓Google得以訓練出一個支持1,138種語言的大型翻譯模型。

此次被Google Translate納入的24種語言想必是其中品質(zhì)相對較高的成品。Google指出,它們是該公司采用零樣本機器翻譯的首批語言,沒有看過任何樣本就能翻譯成其它語言,只是就算該技術(shù)令人印象深刻,卻不完美,未來將持續(xù)改善相關(guān)的各種模型,以讓這些冷門語言的翻譯效果足以媲美西班牙文或德文。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
個人VIP