Google云計(jì)算語(yǔ)音轉(zhuǎn)文本服務(wù)采用Conformer新模型,將大幅提升識(shí)別品質(zhì)

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2022-04-24
2459
Google云計(jì)算在其語(yǔ)音轉(zhuǎn)文本API(Speech-to-Text API,STT)采用Conformer新模型,以提高STT所支持23種語(yǔ)言和61種區(qū)域口音的語(yǔ)音識(shí)別準(zhǔn)確性。

fireshot_capture_1211_-_stt_model.max-2800x2800.jpg_2800x2435_-_storage.googleapis.com_.jpg

Google云計(jì)算在其語(yǔ)音轉(zhuǎn)文本API(Speech-to-Text API,STT)采用Conformer新模型,以提高STT所支持23種語(yǔ)言和61種區(qū)域口音的語(yǔ)音識(shí)別準(zhǔn)確性。新模型可能與現(xiàn)有模型的功能略有不同,不過(guò)皆提供相同的穩(wěn)定性和支持。

Google提到,這是一項(xiàng)重大技術(shù)改進(jìn),使用當(dāng)前最新的機(jī)器學(xué)習(xí)技術(shù),是他們?cè)谡Z(yǔ)音識(shí)別神經(jīng)串行到串行模型研究8年來(lái)的階段性成果,其經(jīng)過(guò)大量研究和優(yōu)化,使模型能夠適用于不同的用例、噪音環(huán)境,并提供最佳的結(jié)果。

Google解釋了新模型與當(dāng)前模型的不同,過(guò)去自動(dòng)語(yǔ)音識(shí)別技術(shù)都是基于單獨(dú)的聲音、發(fā)音和語(yǔ)言模型,這三個(gè)單獨(dú)的組件會(huì)獨(dú)立訓(xùn)練,最后組裝在一起進(jìn)行語(yǔ)音識(shí)別,而Conformer新模型,則是單一神經(jīng)網(wǎng)絡(luò)。

與過(guò)去需要組合三個(gè)獨(dú)立模型的方法不同,Conformer模型能夠更有效地使用模型參數(shù),由于這個(gè)架構(gòu)是帶有卷積層(Convolution Layer)的Transformer模型,因此才稱為Conformer,該架構(gòu)能夠捕捉語(yǔ)音信號(hào)中的區(qū)域和全局資訊。

開(kāi)發(fā)者現(xiàn)在使用STT API可立即看到新模型所帶來(lái)的品質(zhì)改進(jìn),雖然用戶仍然可以通過(guò)調(diào)整模型,來(lái)改進(jìn)模型性能,但是Conformer新模型不需要用戶進(jìn)行任何動(dòng)作,就能明顯感覺(jué)品質(zhì)提升。

新模型支持更多不同類型的語(yǔ)音、噪音和聲音條件,使得用戶可以將語(yǔ)音技術(shù)嵌入應(yīng)用程序中,并在更多環(huán)境產(chǎn)生更準(zhǔn)確的輸出。智能應(yīng)用程序的用戶,將可以自然地用更長(zhǎng)的句子,跟應(yīng)用程序交互,不需要擔(dān)心語(yǔ)音能否被準(zhǔn)確截取。

用戶只要在使用STT API時(shí),添加新標(biāo)簽latest long和latest short,便可以訪問(wèn)最新的Conformer模型,latest long針對(duì)視頻等應(yīng)用設(shè)計(jì),可以處理長(zhǎng)篇語(yǔ)音,而latest short則是用于命令或是短語(yǔ)上,能提供更好地品質(zhì)和低延遲。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家