微軟供Azure用戶定制化STT模型，改進(jìn)語音轉(zhuǎn)文本準(zhǔn)確度

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-12-08

微軟更新Azure認(rèn)知服務(wù)的語音功能，通過定制化語音轉(zhuǎn)文本功能，進(jìn)一步提高應(yīng)用程序和產(chǎn)品的語音轉(zhuǎn)文本準(zhǔn)確性。

微軟更新Azure認(rèn)知服務(wù)的語音功能，通過定制化語音轉(zhuǎn)文本功能，進(jìn)一步提高應(yīng)用程序和產(chǎn)品的語音轉(zhuǎn)文本準(zhǔn)確性。新的定制化語音模型，是以基礎(chǔ)模型加以訓(xùn)練，用戶可以利用文本資料來訓(xùn)練模型，強(qiáng)化特定領(lǐng)域字匯的識(shí)別能力，或是通過帶有轉(zhuǎn)錄的音頻資料，提高應(yīng)用程序?qū)μ囟ㄒ纛l條件的識(shí)別能力。

Azure Cognitive Services for Speech讓用戶可以簡單地構(gòu)建語音應(yīng)用程序，該服務(wù)支持多達(dá)140種語言，使用戶能高精確度地將語音轉(zhuǎn)錄成文本，或是將文本轉(zhuǎn)成自然的語音，甚至進(jìn)行翻譯。而新的定制化語音功能，可供用戶定制化語音轉(zhuǎn)文本引擎，根據(jù)應(yīng)用程序的常用詞匯，定制化語音模型，并且自訂聲音模型適應(yīng)用戶的說話風(fēng)格。

用戶只要上傳自定義語音文本或是音頻資料，就能夠簡單創(chuàng)建定制化模型，這些模型會(huì)與微軟的語音模型結(jié)合后，部署到定制化語音轉(zhuǎn)文本端點(diǎn)，使終端用戶從各種設(shè)備上訪問。

微軟提供用戶以四種方式定制化語音模型，第一種是最簡單的方式，用戶能以詞匯列表添加諸如參與者姓名、產(chǎn)品和行話列表，提高模型對這些詞匯的識(shí)別能力，這是一種不需要模型訓(xùn)練，就能即時(shí)強(qiáng)化準(zhǔn)確度的方式。

第二種方法則是使用純文本，微軟提到，這也是簡單的定制化語音模型的方式，因?yàn)橄袷窃诟鞣N體育賽事使用的詞匯差距很大，因此通過純文本就可針對特定運(yùn)動(dòng)構(gòu)建定制化模型，提高賽事詞匯精確度。

第三種是以結(jié)構(gòu)化文本的形式，適用于強(qiáng)化語音中句子模式的文本資料，針對特定單詞或是短語有所不同的話語。同時(shí)，用戶也可以使用音頻資料，訓(xùn)練定制化語音模型，這將能改善模型對于特定口音、說話風(fēng)格或是背景噪音的識(shí)別能力。

Azure 微軟云

上一篇：AWS推可視化工具Application Composer協(xié)助用戶架構(gòu)云計(jì)算應(yīng)用程序

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章