Meta的AI翻譯器可以解釋無文字的語(yǔ)言 扎克伯格以閩南話舉例

來源:cnBeta.COM
作者:ugmbbc
時(shí)間:2022-10-20
1872
世界上大約7000種已知的語(yǔ)言中,有將近一半的語(yǔ)言,也就是其中的十分之四是口耳相傳,沒有包含書面內(nèi)容。

世界上大約7000種已知的語(yǔ)言中,有將近一半的語(yǔ)言,也就是其中的十分之四是口耳相傳,沒有包含書面內(nèi)容。這些無文字的語(yǔ)言給現(xiàn)代機(jī)器學(xué)習(xí)翻譯系統(tǒng)帶來了一個(gè)獨(dú)特的問題,因?yàn)樗鼈兺ǔP枰诜g到新語(yǔ)言之前將口頭語(yǔ)言轉(zhuǎn)換為書面文字,并將文字還原為語(yǔ)音,但Meta公司已經(jīng)通過其最新的開源語(yǔ)言AI進(jìn)展解決了這個(gè)問題。

cc850317253a2f7.webp.jpg

作為Meta公司通用語(yǔ)音翻譯器(UST)項(xiàng)目的一部分,該項(xiàng)目正致力于開發(fā)實(shí)時(shí)語(yǔ)音到語(yǔ)音的翻譯,以便元宇宙居民能夠更容易地進(jìn)行互動(dòng)(讀作:互相進(jìn)行性騷擾)。作為這個(gè)項(xiàng)目的一部分,Meta的研究人員研究了福建閩南話,這是一種散居在亞洲各地的無文字語(yǔ)言,也是臺(tái)灣地區(qū)的主流語(yǔ)言之一。

機(jī)器學(xué)習(xí)翻譯系統(tǒng)通常需要大量可標(biāo)記的語(yǔ)言例子,包括書面和口語(yǔ)來進(jìn)行訓(xùn)練--這正是像閩南話這樣的無文字語(yǔ)言所不具備的。為了解決這個(gè)問題,"Meta使用語(yǔ)音到單元的翻譯(S2UT),將輸入的語(yǔ)音直接轉(zhuǎn)換為Meta以前開創(chuàng)的聲學(xué)單元序列,"首席執(zhí)行官馬克-扎克伯格在周三的一篇博文中解釋說。"然后,我們從這些單元生成波形。此外,UnitY被采用為雙通解碼機(jī)制,第一通解碼器生成相關(guān)語(yǔ)言(普通話)的文本,第二通解碼器創(chuàng)建單元。"

"我們利用普通話作為中間語(yǔ)言來建立偽標(biāo)簽,我們首先將英語(yǔ)(或上面說的閩南話)語(yǔ)音翻譯成普通話文本,然后我們?cè)俜g成閩南話(或英語(yǔ))并將其加入訓(xùn)練數(shù)據(jù)。"目前,該系統(tǒng)允許講福建話的人與講英語(yǔ)的人交談,盡管很生硬,且該模型一次只能翻譯一個(gè)完整的句子。但扎克伯格相信,這項(xiàng)技術(shù)最終可以應(yīng)用于更多語(yǔ)言,并將改進(jìn)到提供實(shí)時(shí)翻譯的程度。

扎克伯格宣布,除了Meta已經(jīng)從這個(gè)項(xiàng)目中開源的模型和訓(xùn)練數(shù)據(jù)外,該公司還將發(fā)布一個(gè)基于閩南話話語(yǔ)料庫(kù)的首個(gè)語(yǔ)音翻譯基準(zhǔn)系統(tǒng),以及"語(yǔ)音矩陣,一個(gè)用Meta的創(chuàng)新數(shù)據(jù)挖掘技術(shù)LASER挖掘的語(yǔ)音翻譯大料庫(kù)"。這個(gè)系統(tǒng)將使研究人員能夠創(chuàng)建他們自己的語(yǔ)音到語(yǔ)音翻譯(S2ST)系統(tǒng)。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:cnBeta.COM
版權(quán)說明:本文內(nèi)容來自于cnBeta.COM,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家