微軟供Azure用戶(hù)定制化STT模型,改進(jìn)語(yǔ)音轉(zhuǎn)文本準(zhǔn)確度

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2022-12-08
2432
微軟更新Azure認(rèn)知服務(wù)的語(yǔ)音功能,通過(guò)定制化語(yǔ)音轉(zhuǎn)文本功能,進(jìn)一步提高應(yīng)用程序和產(chǎn)品的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性。

pexels-photo-7731376.jpg

微軟更新Azure認(rèn)知服務(wù)的語(yǔ)音功能,通過(guò)定制化語(yǔ)音轉(zhuǎn)文本功能,進(jìn)一步提高應(yīng)用程序和產(chǎn)品的語(yǔ)音轉(zhuǎn)文本準(zhǔn)確性。新的定制化語(yǔ)音模型,是以基礎(chǔ)模型加以訓(xùn)練,用戶(hù)可以利用文本資料來(lái)訓(xùn)練模型,強(qiáng)化特定領(lǐng)域字匯的識(shí)別能力,或是通過(guò)帶有轉(zhuǎn)錄的音頻資料,提高應(yīng)用程序?qū)μ囟ㄒ纛l條件的識(shí)別能力。

Azure Cognitive Services for Speech讓用戶(hù)可以簡(jiǎn)單地構(gòu)建語(yǔ)音應(yīng)用程序,該服務(wù)支持多達(dá)140種語(yǔ)言,使用戶(hù)能高精確度地將語(yǔ)音轉(zhuǎn)錄成文本,或是將文本轉(zhuǎn)成自然的語(yǔ)音,甚至進(jìn)行翻譯。而新的定制化語(yǔ)音功能,可供用戶(hù)定制化語(yǔ)音轉(zhuǎn)文本引擎,根據(jù)應(yīng)用程序的常用詞匯,定制化語(yǔ)音模型,并且自訂聲音模型適應(yīng)用戶(hù)的說(shuō)話風(fēng)格。

用戶(hù)只要上傳自定義語(yǔ)音文本或是音頻資料,就能夠簡(jiǎn)單創(chuàng)建定制化模型,這些模型會(huì)與微軟的語(yǔ)音模型結(jié)合后,部署到定制化語(yǔ)音轉(zhuǎn)文本端點(diǎn),使終端用戶(hù)從各種設(shè)備上訪問(wèn)。

微軟提供用戶(hù)以四種方式定制化語(yǔ)音模型,第一種是最簡(jiǎn)單的方式,用戶(hù)能以詞匯列表添加諸如參與者姓名、產(chǎn)品和行話列表,提高模型對(duì)這些詞匯的識(shí)別能力,這是一種不需要模型訓(xùn)練,就能即時(shí)強(qiáng)化準(zhǔn)確度的方式。

第二種方法則是使用純文本,微軟提到,這也是簡(jiǎn)單的定制化語(yǔ)音模型的方式,因?yàn)橄袷窃诟鞣N體育賽事使用的詞匯差距很大,因此通過(guò)純文本就可針對(duì)特定運(yùn)動(dòng)構(gòu)建定制化模型,提高賽事詞匯精確度。

第三種是以結(jié)構(gòu)化文本的形式,適用于強(qiáng)化語(yǔ)音中句子模式的文本資料,針對(duì)特定單詞或是短語(yǔ)有所不同的話語(yǔ)。同時(shí),用戶(hù)也可以使用音頻資料,訓(xùn)練定制化語(yǔ)音模型,這將能改善模型對(duì)于特定口音、說(shuō)話風(fēng)格或是背景噪音的識(shí)別能力。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:十輪網(wǎng)
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家