Google云計(jì)算語(yǔ)音轉(zhuǎn)文本服務(wù)采用Conformer新模型，將大幅提升識(shí)別品質(zhì)

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-04-24

Google云計(jì)算在其語(yǔ)音轉(zhuǎn)文本API（Speech-to-Text API，STT）采用Conformer新模型，以提高STT所支持23種語(yǔ)言和61種區(qū)域口音的語(yǔ)音識(shí)別準(zhǔn)確性。

fireshot_capture_1211_-_stt_model.max-2800x2800.jpg_2800x2435_-_storage.googleapis.com_.jpg

Google云計(jì)算在其語(yǔ)音轉(zhuǎn)文本API（Speech-to-Text API，STT）采用Conformer新模型，以提高STT所支持23種語(yǔ)言和61種區(qū)域口音的語(yǔ)音識(shí)別準(zhǔn)確性。新模型可能與現(xiàn)有模型的功能略有不同，不過皆提供相同的穩(wěn)定性和支持。

Google提到，這是一項(xiàng)重大技術(shù)改進(jìn)，使用當(dāng)前最新的機(jī)器學(xué)習(xí)技術(shù)，是他們?cè)谡Z(yǔ)音識(shí)別神經(jīng)串行到串行模型研究8年來的階段性成果，其經(jīng)過大量研究和優(yōu)化，使模型能夠適用于不同的用例、噪音環(huán)境，并提供最佳的結(jié)果。

Google解釋了新模型與當(dāng)前模型的不同，過去自動(dòng)語(yǔ)音識(shí)別技術(shù)都是基于單獨(dú)的聲音、發(fā)音和語(yǔ)言模型，這三個(gè)單獨(dú)的組件會(huì)獨(dú)立訓(xùn)練，最后組裝在一起進(jìn)行語(yǔ)音識(shí)別，而Conformer新模型，則是單一神經(jīng)網(wǎng)絡(luò)。

與過去需要組合三個(gè)獨(dú)立模型的方法不同，Conformer模型能夠更有效地使用模型參數(shù)，由于這個(gè)架構(gòu)是帶有卷積層（Convolution Layer）的Transformer模型，因此才稱為Conformer，該架構(gòu)能夠捕捉語(yǔ)音信號(hào)中的區(qū)域和全局資訊。

開發(fā)者現(xiàn)在使用STT API可立即看到新模型所帶來的品質(zhì)改進(jìn)，雖然用戶仍然可以通過調(diào)整模型，來改進(jìn)模型性能，但是Conformer新模型不需要用戶進(jìn)行任何動(dòng)作，就能明顯感覺品質(zhì)提升。

新模型支持更多不同類型的語(yǔ)音、噪音和聲音條件，使得用戶可以將語(yǔ)音技術(shù)嵌入應(yīng)用程序中，并在更多環(huán)境產(chǎn)生更準(zhǔn)確的輸出。智能應(yīng)用程序的用戶，將可以自然地用更長(zhǎng)的句子，跟應(yīng)用程序交互，不需要擔(dān)心語(yǔ)音能否被準(zhǔn)確截取。

用戶只要在使用STT API時(shí)，添加新標(biāo)簽latest long和latest short，便可以訪問最新的Conformer模型，latest long針對(duì)視頻等應(yīng)用設(shè)計(jì)，可以處理長(zhǎng)篇語(yǔ)音，而latest short則是用于命令或是短語(yǔ)上，能提供更好地品質(zhì)和低延遲。

Google Cloud 谷歌云云計(jì)算

上一篇：2022年社交媒體營(yíng)銷：9個(gè)推薦的Instagram數(shù)據(jù)分析工具！

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章