微軟更新Azure認(rèn)知服務(wù)的語(yǔ)音功能,通過(guò)定制化語(yǔ)音轉(zhuǎn)文本功能,進(jìn)一步提高應(yīng)用程序和產(chǎn)品的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性。新的定制化語(yǔ)音模型,是以基礎(chǔ)模型加以訓(xùn)練,用戶(hù)可以利用文本資料來(lái)訓(xùn)練模型,強(qiáng)化特定領(lǐng)域字匯的識(shí)別能力,或是通過(guò)帶有轉(zhuǎn)錄的音頻資料,提高應(yīng)用程序?qū)μ囟ㄒ纛l條件的識(shí)別能力。
Azure Cognitive Services for Speech讓用戶(hù)可以簡(jiǎn)單地構(gòu)建語(yǔ)音應(yīng)用程序,該服務(wù)支持多達(dá)140種語(yǔ)言,使用戶(hù)能高精確度地將語(yǔ)音轉(zhuǎn)錄成文本,或是將文本轉(zhuǎn)成自然的語(yǔ)音,甚至進(jìn)行翻譯。而新的定制化語(yǔ)音功能,可供用戶(hù)定制化語(yǔ)音轉(zhuǎn)文本引擎,根據(jù)應(yīng)用程序的常用詞匯,定制化語(yǔ)音模型,并且自訂聲音模型適應(yīng)用戶(hù)的說(shuō)話風(fēng)格。
用戶(hù)只要上傳自定義語(yǔ)音文本或是音頻資料,就能夠簡(jiǎn)單創(chuàng)建定制化模型,這些模型會(huì)與微軟的語(yǔ)音模型結(jié)合后,部署到定制化語(yǔ)音轉(zhuǎn)文本端點(diǎn),使終端用戶(hù)從各種設(shè)備上訪問(wèn)。
微軟提供用戶(hù)以四種方式定制化語(yǔ)音模型,第一種是最簡(jiǎn)單的方式,用戶(hù)能以詞匯列表添加諸如參與者姓名、產(chǎn)品和行話列表,提高模型對(duì)這些詞匯的識(shí)別能力,這是一種不需要模型訓(xùn)練,就能即時(shí)強(qiáng)化準(zhǔn)確度的方式。
第二種方法則是使用純文本,微軟提到,這也是簡(jiǎn)單的定制化語(yǔ)音模型的方式,因?yàn)橄袷窃诟鞣N體育賽事使用的詞匯差距很大,因此通過(guò)純文本就可針對(duì)特定運(yùn)動(dòng)構(gòu)建定制化模型,提高賽事詞匯精確度。
第三種是以結(jié)構(gòu)化文本的形式,適用于強(qiáng)化語(yǔ)音中句子模式的文本資料,針對(duì)特定單詞或是短語(yǔ)有所不同的話語(yǔ)。同時(shí),用戶(hù)也可以使用音頻資料,訓(xùn)練定制化語(yǔ)音模型,這將能改善模型對(duì)于特定口音、說(shuō)話風(fēng)格或是背景噪音的識(shí)別能力。