Google宣布在其文本轉(zhuǎn)人聲(Text-to-Speech,TTS)API推出自定義語音功能,該新功能讓用戶可以使用自己的錄音,訓(xùn)練自定義語音模型,以創(chuàng)造出獨(dú)特的語音體驗(yàn)。官方提到,對于想要創(chuàng)建品牌形象的企業(yè)而言,使用獨(dú)特的聲音,有助于在交互式語音應(yīng)用中,創(chuàng)建具差異化的用戶體驗(yàn)。
自定義語音讓用戶只需要提交錄音,就可以直接在TTS API中訪問新語音,系統(tǒng)提供指南,指引用戶生成高品質(zhì)自定義TTS語音模型的方法,當(dāng)模型訓(xùn)練完成后,用戶只需要在調(diào)用TTS API時(shí),參照模型ID,就可以開始使用新訓(xùn)練的語音模型。
Google考量負(fù)責(zé)任的AI治理程序,評估了自定義語音TTS以及合成媒體的道德疑慮,為減輕可能造成的潛在危害,用戶在采用自定義TTS之前,需要經(jīng)過一個審查流程,確保每個用例皆符合Google的AI原則,并且要求驗(yàn)證配音員,提供Google云計(jì)算指定語句的音頻文件,以算是取得配音員的同意。
目前自定義TTS自定義語音功能正式支持包括英語、西班牙語、法語、意大利語、德語、葡萄牙語和日語,其他語言則還需要再等等。