Meta發(fā)布4合一Seamless Communication翻譯AI模型組件，支持近百種語(yǔ)言輸入

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2023-12-05

Meta上周公布翻譯AI模型組件Seamless Communication，包含提供更精準(zhǔn)再現(xiàn)說(shuō)話者情緒、及延遲僅2秒的幾近同步翻譯能力的新模型，支持近百種語(yǔ)言輸入。

1204-seamless_communication-seamlessexpressive_demo-meta-960_0.jpg

Meta上周（11/30）公布翻譯AI模型組件Seamless Communication，包含提供更精準(zhǔn)再現(xiàn)說(shuō)話者情緒、及延遲僅2秒的幾近同步翻譯能力的新模型，支持近百種語(yǔ)言輸入。

Seamless Communication為Meta為慶祝其AI研究機(jī)構(gòu)基礎(chǔ)AI研究（Fundamental AI Research，F(xiàn)AIR）成立10周年而發(fā)布的研究成果之一。Seamless Communication是以8月公布的多語(yǔ)雙模（文本、語(yǔ)音）翻譯模型SeamlessM4T第2版為基礎(chǔ)而發(fā)展出的組件，號(hào)稱能在翻譯時(shí)保存不同語(yǔ)言的說(shuō)話表情，以及說(shuō)話者講話同時(shí)加速翻譯。

這個(gè)組件其實(shí)由4個(gè)模型組成，其中之一是SeamlessM4T第2代，以及SeamlessExpressive、SeamlessStreaming與Seamless。SeamlessExpressive是一種口譯模型，解決傳統(tǒng)AI翻譯時(shí)無(wú)法抓住聲音語(yǔ)調(diào)、停頓和重點(diǎn)，而失去情感和意圖的重要信號(hào)的問(wèn)題。SeamlessExpressive是第一個(gè)掌握跨語(yǔ)言表情的公開(kāi)系統(tǒng)。它使用的模型能保存說(shuō)話者情緒、風(fēng)格、說(shuō)話速度、停頓和節(jié)奏，又能維持翻譯品質(zhì)。目前SeamlessExpressive支持英、中、西、法、德、義語(yǔ)。

SeamlessStreaming是同步翻譯模型，主打2秒延遲的語(yǔ)音和文本翻譯，可支持口譯（speech-to-speech translation，S2ST）、聽(tīng)寫翻譯（speech-to-text translation，S2TT）及自動(dòng)語(yǔ)音識(shí)別（Automatic speech recognition，ASR）。在后二種任務(wù)上，SeamlessStreaming支持將近100種語(yǔ)言輸入及輸出，而在口譯同步翻譯則支持100種語(yǔ)言輸入、36種語(yǔ)言輸出。最后一種模型Seamless則是融合這三種語(yǔ)言模型于一。

Meta也將示范視頻公布在GitHub以及HuggingFace網(wǎng)站上。

Meta

上一篇：AWS正式發(fā)布專為Rust和Kotlin設(shè)計(jì)的SDK

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章