微軟Azure AI又一里程碑:Neural TTS新模型呈現(xiàn)真人般情感飽滿的AI語音

來源: IT之家
作者:遠洋
時間:2022-01-28
13487
如何讓AI語音有效模仿人類對話的豐富動態(tài)與情感,已成為全球研究者的共同挑戰(zhàn)。

IT之家1月27日消息,如何讓AI語音有效模仿人類對話的豐富動態(tài)與情感,已成為全球研究者的共同挑戰(zhàn)。據微軟官方消息,就在不久前,微軟Azure Neural TTS(神經網絡文本轉語音)推出的新一代模型“Uni-TTS v4”在這一領域取得了里程碑式的重大突破。在“2021國際語音合成大賽(Blizzard Challenge 2021)”的測試中,Uni-TTS v4的語音表現(xiàn)與通用數(shù)據集上的自然語音相比幾乎沒有明顯差別,展現(xiàn)出足以“叫板”真人對話的實力。Uni-TTSv4的研究出發(fā)點是XYZ-代碼,它是三種認知屬性的聯(lián)合表示:單語文本(X),音頻或視覺感官信號(Y),以及多語言(Z)。

cd4cbbf4-94c4-449c-b71e-82591042993e.png

用戶可以在Azure TTS在線服務中使用自創(chuàng)文本來創(chuàng)建新的demo。目前Uni-TTS v4可支持TTS語言庫中7個語種的8個語音,研發(fā)團隊還將持續(xù)使用最新模型優(yōu)化Neural TTS已支持的其它語言以及自定義神經語音,以便能讓用戶通過Azure TTS API、Microsoft Office和Edge browser直接獲得更出色的新一代TTS語音。

官方介紹,為了讓TTS在以上兩方面獲得提升,Uni-TTS v4在聲學建模中引入了兩項重要更新,研究團隊首先采用了一個帶有transformer和卷積塊的新架構,以更好地模擬聲學模型中的局部和全局依賴關系;其次,從顯性視角(身份ID、語種ID、音調、語速)和隱性視角(話語級和音素級韻律)系統(tǒng)地對變量信息進行建模。這些視角分別使用監(jiān)督學習和無監(jiān)督學習,確保端到端的音頻具有足夠自然的表現(xiàn)力。

IT之家了解到,作為微軟Azure認知服務中的強大語音合成功能,Neural TTS可用于幫助開發(fā)者將文本轉換為真人一般的逼真自然語音,常被用于語音助手場景、文字朗讀功能,及作為輔助性工具等等,同時也被整合到微軟的Edge Read Aloud、Immersive Reader和Word Read Aloud等旗艦產品中,還被AT&T、Duolingo、Progressive等眾多客戶采用。Neural TTS已擁有330多個音色,支持來自不同國家和地區(qū)的近130種語言或方言。用戶和企業(yè)可以通過搜索“Azure TTS”進入產品網站,測試體驗Neural TTS的豐富預設語音,抑或錄制并上傳自己的樣本,來創(chuàng)建獨有的自定義語音。

立即登錄,閱讀全文
版權說明:
本文內容來自于IT之家,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家