微軟Azure AI又一里程碑:Neural TTS新模型呈現(xiàn)真人般情感飽滿的AI語音

來源: IT之家
作者:遠(yuǎn)洋
時間:2022-01-28
13501
如何讓AI語音有效模仿人類對話的豐富動態(tài)與情感,已成為全球研究者的共同挑戰(zhàn)。

IT之家1月27日消息,如何讓AI語音有效模仿人類對話的豐富動態(tài)與情感,已成為全球研究者的共同挑戰(zhàn)。據(jù)微軟官方消息,就在不久前,微軟Azure Neural TTS(神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音)推出的新一代模型“Uni-TTS v4”在這一領(lǐng)域取得了里程碑式的重大突破。在“2021國際語音合成大賽(Blizzard Challenge 2021)”的測試中,Uni-TTS v4的語音表現(xiàn)與通用數(shù)據(jù)集上的自然語音相比幾乎沒有明顯差別,展現(xiàn)出足以“叫板”真人對話的實力。Uni-TTSv4的研究出發(fā)點是XYZ-代碼,它是三種認(rèn)知屬性的聯(lián)合表示:單語文本(X),音頻或視覺感官信號(Y),以及多語言(Z)。

cd4cbbf4-94c4-449c-b71e-82591042993e.png

用戶可以在Azure TTS在線服務(wù)中使用自創(chuàng)文本來創(chuàng)建新的demo。目前Uni-TTS v4可支持TTS語言庫中7個語種的8個語音,研發(fā)團(tuán)隊還將持續(xù)使用最新模型優(yōu)化Neural TTS已支持的其它語言以及自定義神經(jīng)語音,以便能讓用戶通過Azure TTS API、Microsoft Office和Edge browser直接獲得更出色的新一代TTS語音。

官方介紹,為了讓TTS在以上兩方面獲得提升,Uni-TTS v4在聲學(xué)建模中引入了兩項重要更新,研究團(tuán)隊首先采用了一個帶有transformer和卷積塊的新架構(gòu),以更好地模擬聲學(xué)模型中的局部和全局依賴關(guān)系;其次,從顯性視角(身份ID、語種ID、音調(diào)、語速)和隱性視角(話語級和音素級韻律)系統(tǒng)地對變量信息進(jìn)行建模。這些視角分別使用監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),確保端到端的音頻具有足夠自然的表現(xiàn)力。

IT之家了解到,作為微軟Azure認(rèn)知服務(wù)中的強(qiáng)大語音合成功能,Neural TTS可用于幫助開發(fā)者將文本轉(zhuǎn)換為真人一般的逼真自然語音,常被用于語音助手場景、文字朗讀功能,及作為輔助性工具等等,同時也被整合到微軟的Edge Read Aloud、Immersive Reader和Word Read Aloud等旗艦產(chǎn)品中,還被AT&T、Duolingo、Progressive等眾多客戶采用。Neural TTS已擁有330多個音色,支持來自不同國家和地區(qū)的近130種語言或方言。用戶和企業(yè)可以通過搜索“Azure TTS”進(jìn)入產(chǎn)品網(wǎng)站,測試體驗Neural TTS的豐富預(yù)設(shè)語音,抑或錄制并上傳自己的樣本,來創(chuàng)建獨有的自定義語音。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于IT之家,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多