微軟更新Azure認(rèn)知服務(wù)的語音功能,通過定制化語音轉(zhuǎn)文本功能,進(jìn)一步提高應(yīng)用程序和產(chǎn)品的語音轉(zhuǎn)文本準(zhǔn)確性。新的定制化語音模型,是以基礎(chǔ)模型加以訓(xùn)練,用戶可以利用文本資料來訓(xùn)練模型,強(qiáng)化特定領(lǐng)域字匯的識別能力,或是通過帶有轉(zhuǎn)錄的音頻資料,提高應(yīng)用程序?qū)μ囟ㄒ纛l條件的識別能力。
Azure Cognitive Services for Speech讓用戶可以簡單地構(gòu)建語音應(yīng)用程序,該服務(wù)支持多達(dá)140種語言,使用戶能高精確度地將語音轉(zhuǎn)錄成文本,或是將文本轉(zhuǎn)成自然的語音,甚至進(jìn)行翻譯。而新的定制化語音功能,可供用戶定制化語音轉(zhuǎn)文本引擎,根據(jù)應(yīng)用程序的常用詞匯,定制化語音模型,并且自訂聲音模型適應(yīng)用戶的說話風(fēng)格。
用戶只要上傳自定義語音文本或是音頻資料,就能夠簡單創(chuàng)建定制化模型,這些模型會與微軟的語音模型結(jié)合后,部署到定制化語音轉(zhuǎn)文本端點(diǎn),使終端用戶從各種設(shè)備上訪問。
微軟提供用戶以四種方式定制化語音模型,第一種是最簡單的方式,用戶能以詞匯列表添加諸如參與者姓名、產(chǎn)品和行話列表,提高模型對這些詞匯的識別能力,這是一種不需要模型訓(xùn)練,就能即時強(qiáng)化準(zhǔn)確度的方式。
第二種方法則是使用純文本,微軟提到,這也是簡單的定制化語音模型的方式,因為像是在各種體育賽事使用的詞匯差距很大,因此通過純文本就可針對特定運(yùn)動構(gòu)建定制化模型,提高賽事詞匯精確度。
第三種是以結(jié)構(gòu)化文本的形式,適用于強(qiáng)化語音中句子模式的文本資料,針對特定單詞或是短語有所不同的話語。同時,用戶也可以使用音頻資料,訓(xùn)練定制化語音模型,這將能改善模型對于特定口音、說話風(fēng)格或是背景噪音的識別能力。