Google云計(jì)算在其語(yǔ)音轉(zhuǎn)文本API(Speech-to-Text API,STT)采用Conformer新模型,以提高STT所支持23種語(yǔ)言和61種區(qū)域口音的語(yǔ)音識(shí)別準(zhǔn)確性。新模型可能與現(xiàn)有模型的功能略有不同,不過(guò)皆提供相同的穩(wěn)定性和支持。
Google提到,這是一項(xiàng)重大技術(shù)改進(jìn),使用當(dāng)前最新的機(jī)器學(xué)習(xí)技術(shù),是他們?cè)谡Z(yǔ)音識(shí)別神經(jīng)串行到串行模型研究8年來(lái)的階段性成果,其經(jīng)過(guò)大量研究和優(yōu)化,使模型能夠適用于不同的用例、噪音環(huán)境,并提供最佳的結(jié)果。
Google解釋了新模型與當(dāng)前模型的不同,過(guò)去自動(dòng)語(yǔ)音識(shí)別技術(shù)都是基于單獨(dú)的聲音、發(fā)音和語(yǔ)言模型,這三個(gè)單獨(dú)的組件會(huì)獨(dú)立訓(xùn)練,最后組裝在一起進(jìn)行語(yǔ)音識(shí)別,而Conformer新模型,則是單一神經(jīng)網(wǎng)絡(luò)。
與過(guò)去需要組合三個(gè)獨(dú)立模型的方法不同,Conformer模型能夠更有效地使用模型參數(shù),由于這個(gè)架構(gòu)是帶有卷積層(Convolution Layer)的Transformer模型,因此才稱為Conformer,該架構(gòu)能夠捕捉語(yǔ)音信號(hào)中的區(qū)域和全局資訊。
開(kāi)發(fā)者現(xiàn)在使用STT API可立即看到新模型所帶來(lái)的品質(zhì)改進(jìn),雖然用戶仍然可以通過(guò)調(diào)整模型,來(lái)改進(jìn)模型性能,但是Conformer新模型不需要用戶進(jìn)行任何動(dòng)作,就能明顯感覺(jué)品質(zhì)提升。
新模型支持更多不同類型的語(yǔ)音、噪音和聲音條件,使得用戶可以將語(yǔ)音技術(shù)嵌入應(yīng)用程序中,并在更多環(huán)境產(chǎn)生更準(zhǔn)確的輸出。智能應(yīng)用程序的用戶,將可以自然地用更長(zhǎng)的句子,跟應(yīng)用程序交互,不需要擔(dān)心語(yǔ)音能否被準(zhǔn)確截取。
用戶只要在使用STT API時(shí),添加新標(biāo)簽latest long和latest short,便可以訪問(wèn)最新的Conformer模型,latest long針對(duì)視頻等應(yīng)用設(shè)計(jì),可以處理長(zhǎng)篇語(yǔ)音,而latest short則是用于命令或是短語(yǔ)上,能提供更好地品質(zhì)和低延遲。