日前,微軟發(fā)布最新 Azure 神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù) Uni-TTSv3 多語(yǔ)言語(yǔ)音合成模型。與上一代語(yǔ)音合成模型相比,Uni-TTSv3 語(yǔ)音合成保真度更高、速度更快、訓(xùn)練時(shí)間更短,更降本增效。借助 Uni-TTSv3,微軟升級(jí)美語(yǔ)合成女聲 Jenny。全新升級(jí)的 Jenny Multilingual Neural,擁有跨語(yǔ)言能力,支持 14 個(gè)國(guó)家和地區(qū)的語(yǔ)言。
IT之家獲悉,此外,基于 Uni-TTSv3 而構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)定制語(yǔ)音服務(wù),也擴(kuò)展了跨語(yǔ)言定制服務(wù)功能,客戶(hù)只需提供一個(gè)語(yǔ)言的錄音數(shù)據(jù)作為語(yǔ)料,即可訓(xùn)練定制模型同時(shí)說(shuō)多個(gè)語(yǔ)言。
Jenny Multilingual Neural 音頻示例:
隨著技術(shù)不斷迭代,微軟智能語(yǔ)音性能已能媲美真人,并支持超過(guò) 110 個(gè)國(guó)家和地區(qū)的語(yǔ)言,提供超過(guò) 270 個(gè)神經(jīng)網(wǎng)絡(luò)聲音。為進(jìn)一步拓寬語(yǔ)音使用場(chǎng)景,滿(mǎn)足各行業(yè)客戶(hù)的多元化需求,微軟智能語(yǔ)音也在不斷探索新的服務(wù)和能力:
跨語(yǔ)種語(yǔ)音技術(shù)需求:僅用一個(gè)音色就能生成同時(shí)覆蓋全球用戶(hù)的多語(yǔ)言應(yīng)用需求,譬如在虛擬游戲中創(chuàng)建具有多語(yǔ)言能力的 NPC (Non-Player Character , 非玩家角色),在智能客服等場(chǎng)景中使用多種語(yǔ)言與用戶(hù)交談,提升用戶(hù)體驗(yàn)。
穩(wěn)定高效的平臺(tái)需求:使語(yǔ)音模型更加魯棒(robust,系統(tǒng)穩(wěn)定性),即使在定制服務(wù)場(chǎng)景中,也可以不受外界環(huán)境影響,穩(wěn)定、高效的處理不同類(lèi)型的訓(xùn)練數(shù)據(jù)。
新一代神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成技術(shù) Uni-TTSv3 的提出,旨在解決上述訴求并完善如下功能:
保真度高
Uni-TTSv3 是非自回歸語(yǔ)音合成模型,基于 FastSpeech 2(快速高質(zhì)量語(yǔ)音合成模型) 構(gòu)建,通過(guò)直接使用真實(shí)語(yǔ)音進(jìn)行訓(xùn)練,并引入更多有關(guān)語(yǔ)速、語(yǔ)調(diào)、重音模式等語(yǔ)音變化信息,提高合成語(yǔ)音質(zhì)量。經(jīng)行業(yè)公認(rèn)的、專(zhuān)業(yè)評(píng)估語(yǔ)音自然度的 MOS(Mean Opinion Score 平均意見(jiàn)評(píng)分)評(píng)測(cè)結(jié)果顯示,智能合成女聲 Jenny Multilingual Neural 的各語(yǔ)種語(yǔ)音平均評(píng)分達(dá)到 4.2 分以上(總分 5 分),語(yǔ)音保真度高。
Uni-TTSv3 模型結(jié)構(gòu)圖
多語(yǔ)言通用
Uni-TTSv3 是強(qiáng)大的多語(yǔ)言語(yǔ)音模型,在多語(yǔ)言和多說(shuō)話(huà)人數(shù)據(jù)集上訓(xùn)練。Uni-TTSv3 通過(guò)訓(xùn)練來(lái)自 50 多個(gè)不同地域和口音的發(fā)音人在不同場(chǎng)景下錄制的超過(guò) 3,000 個(gè)小時(shí)的語(yǔ)音數(shù)據(jù),構(gòu)建多語(yǔ)言通用基礎(chǔ)語(yǔ)音模型,確保 AI 語(yǔ)音在語(yǔ)速、語(yǔ)調(diào)和重音模式等不變的情況下演繹多國(guó)語(yǔ)言。
訓(xùn)練時(shí)間更短
Uni-TTSv3 授權(quán) Azure 語(yǔ)音合成平臺(tái)和自定義神經(jīng)語(yǔ)音支持多語(yǔ)種語(yǔ)音。借助 Uni-TTSv3 升級(jí)自定義神經(jīng)語(yǔ)音訓(xùn)練管道,支持客戶(hù)用更短的訓(xùn)練時(shí)間創(chuàng)建高質(zhì)量的語(yǔ)音模型。與上一代語(yǔ)音合成模型相比,Uni-TTSv3 調(diào)優(yōu)過(guò)程簡(jiǎn)單,尤其在聲學(xué)訓(xùn)練部分,訓(xùn)練時(shí)間顯著減少 50% 左右,更加降本增效。
Uni-TTSv3 模型訓(xùn)練示意圖
你可以點(diǎn)此鏈接試用體驗(yàn) Uni-TTSv3 多語(yǔ)言語(yǔ)音合成模型,并使用微軟 Azure 有聲內(nèi)容制作平臺(tái)制作高質(zhì)量合成語(yǔ)音。