Google用于YouTube的通用語音模型，現(xiàn)可識別超過100種語言

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時間：2023-03-09

Google在去年的時候宣布，將要構(gòu)建一個能夠支持1,000種語言的機器學(xué)習(xí)模型，現(xiàn)在發(fā)布階段性研究成果，Google的通用語音模型（USM）已經(jīng)能夠支持100種語言，這項成果目前發(fā)表在arXiv論文預(yù)印本網(wǎng)站。

研究人員提到，傳統(tǒng)的監(jiān)督式學(xué)習(xí)方法欠缺可擴展性，要將語音技術(shù)擴展至更多的語言，便需要有足夠多的資料訓(xùn)練高品質(zhì)模型。過去資料準(zhǔn)備的常見方法，需要以人工手動標(biāo)記音頻資料，而這是耗時且昂貴的過程，更何況對于缺乏資源的語言，更是難以收集足夠的訓(xùn)練資料。而自我監(jiān)督式的學(xué)習(xí)，反而可以利用純音頻資料，因此更可能達到擴展至數(shù)百種語言的目標(biāo)。

Google的通用語音模型則是使用自我監(jiān)督式學(xué)習(xí)，運用大型未標(biāo)記的多語言資料集預(yù)訓(xùn)練模型編碼器，并使用較小的標(biāo)記資料集進行微調(diào)，使模型能夠識別缺乏資源的語言。通用語音模型具有20億參數(shù)，使用1,200小時的語音和280億條文本句子進行訓(xùn)練。

通用語音模型主要用于YouTube，不只可以對英語和漢語執(zhí)行自動語音識別，甚至還可以識別資源缺乏的阿薩姆語、馬達加斯加語和宿霧語等。目前通用語音模型能夠?qū)?00多種語言執(zhí)行自動語音識別，盡管該模型所使用的標(biāo)記訓(xùn)練資料集，僅有Whisper模型的七分之一，但是在跨多種語言的語音識別任務(wù)，卻有相同甚至更佳的表現(xiàn)。

通用語音模型在其中73種語言，平均每種語言的訓(xùn)練資料不到3,000小時，卻實現(xiàn)了低于30%的單詞錯誤率，而這是Google過去從未達到的成果。在各種公開的資料集測試，包括CORAAL、SpeechStew和FLEURS，與Whisper模型相比較，通用語音模型的單詞錯誤率都較低。研究人員還利用CoVoST資料集微調(diào)通用語音模型，和Whisper的語音翻譯能力進行比較，通用語音模型無論是在資源可用性低、中和高的語言，BLEU分?jǐn)?shù)都較Whisper更佳。

Google YouTube

上一篇：WhatsApp Android版Beta程序被發(fā)現(xiàn)正展開平板接口測試

原文鏈接：點擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章