Google用于YouTube的通用語音模型,現(xiàn)可識別超過100種語言

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-03-09
1497
Google在去年的時候宣布,將要構(gòu)建一個能夠支持1,000種語言的機(jī)器學(xué)習(xí)模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項成果目前發(fā)表在arXiv論文預(yù)印本網(wǎng)站。

fireshot_capture_168-universal_speech_model.jpg

Google在去年的時候宣布,將要構(gòu)建一個能夠支持1,000種語言的機(jī)器學(xué)習(xí)模型,現(xiàn)在發(fā)布階段性研究成果,Google的通用語音模型(USM)已經(jīng)能夠支持100種語言,這項成果目前發(fā)表在arXiv論文預(yù)印本網(wǎng)站。

研究人員提到,傳統(tǒng)的監(jiān)督式學(xué)習(xí)方法欠缺可擴(kuò)展性,要將語音技術(shù)擴(kuò)展至更多的語言,便需要有足夠多的資料訓(xùn)練高品質(zhì)模型。過去資料準(zhǔn)備的常見方法,需要以人工手動標(biāo)記音頻資料,而這是耗時且昂貴的過程,更何況對于缺乏資源的語言,更是難以收集足夠的訓(xùn)練資料。而自我監(jiān)督式的學(xué)習(xí),反而可以利用純音頻資料,因此更可能達(dá)到擴(kuò)展至數(shù)百種語言的目標(biāo)。

Google的通用語音模型則是使用自我監(jiān)督式學(xué)習(xí),運用大型未標(biāo)記的多語言資料集預(yù)訓(xùn)練模型編碼器,并使用較小的標(biāo)記資料集進(jìn)行微調(diào),使模型能夠識別缺乏資源的語言。通用語音模型具有20億參數(shù),使用1,200小時的語音和280億條文本句子進(jìn)行訓(xùn)練。

通用語音模型主要用于YouTube,不只可以對英語和漢語執(zhí)行自動語音識別,甚至還可以識別資源缺乏的阿薩姆語、馬達(dá)加斯加語和宿霧語等。目前通用語音模型能夠?qū)?00多種語言執(zhí)行自動語音識別,盡管該模型所使用的標(biāo)記訓(xùn)練資料集,僅有Whisper模型的七分之一,但是在跨多種語言的語音識別任務(wù),卻有相同甚至更佳的表現(xiàn)。

通用語音模型在其中73種語言,平均每種語言的訓(xùn)練資料不到3,000小時,卻實現(xiàn)了低于30%的單詞錯誤率,而這是Google過去從未達(dá)到的成果。在各種公開的資料集測試,包括CORAAL、SpeechStew和FLEURS,與Whisper模型相比較,通用語音模型的單詞錯誤率都較低。研究人員還利用CoVoST資料集微調(diào)通用語音模型,和Whisper的語音翻譯能力進(jìn)行比較,通用語音模型無論是在資源可用性低、中和高的語言,BLEU分?jǐn)?shù)都較Whisper更佳。

原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家