Meta發(fā)布Voicebox AI語(yǔ)音生成模型、僅需2秒聲音樣本就可讓你說(shuō)出6國(guó)語(yǔ)言

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2023-06-25

Meta目前發(fā)布了Voicebox AI模型，相對(duì)于只能使用文本或圖片回復(fù)的競(jìng)品模型，Voicebox AI模型的優(yōu)勢(shì)主要如其名，能夠生成用于回復(fù)的音頻消息。

Voicebox可以制作高質(zhì)量的音頻剪輯并編輯預(yù)先錄制的音頻，例如移除汽車(chē)音箱或狗叫聲的同時(shí)保留音頻的內(nèi)容和風(fēng)格。該模型也是多語(yǔ)言的，僅需2秒聲音樣本，可以產(chǎn)生六種語(yǔ)言的語(yǔ)音。

未來(lái)像Voicebox這樣的多用途生成AI模型可以為元宇宙中的虛擬助手和NPC角色提供自然的聲音，也可以讓視障人士聽(tīng)到朋友由文本傳來(lái)轉(zhuǎn)為語(yǔ)音的內(nèi)容，AI會(huì)用他們的聲音朗讀這些文本消息。

Meta表示，Voicebox具有多功能性，可以實(shí)現(xiàn)各種任務(wù)，包括：

上下文文本到語(yǔ)音合成：使用短至兩秒的音頻樣本，Voicebox可以匹配音頻風(fēng)格并將其用于文本到語(yǔ)音生成。

語(yǔ)音編輯和降噪：Voicebox可以重新創(chuàng)建被噪音打斷的部分語(yǔ)音或替換說(shuō)錯(cuò)的詞，而無(wú)需重新錄制整個(gè)語(yǔ)音。例如，您可以識(shí)別被狗叫聲打斷的一段語(yǔ)音，將其裁剪，然后指示Voicebox重新生成該段內(nèi)容。

跨語(yǔ)言風(fēng)格轉(zhuǎn)換：比方說(shuō)某人以一段英語(yǔ)演講的內(nèi)容，Voicebox可以生成他以不同語(yǔ)言演講的內(nèi)容。將來(lái)可以使用此功能來(lái)幫助人們以自然、真實(shí)的方式進(jìn)行交流，即使他們不會(huì)說(shuō)同一種語(yǔ)言。

Diverse speech sampling：從不同的數(shù)據(jù)中學(xué)習(xí)后，Voicebox可以生成更能代表人們?cè)诂F(xiàn)實(shí)世界中使用上述六種語(yǔ)言的談話方式的語(yǔ)音。

Voicebox AI模型的特色，圖源Meta

Meta表示，Voicebox可以為基于AI的虛擬助手或元宇宙中的NPC提供自然而真實(shí)的語(yǔ)音效果。而對(duì)于無(wú)障礙方面而言，Voicebox也可以對(duì)聲帶受損的人群提供一定的協(xié)助作用。

不過(guò)，Meta表示Voicebox AI模型目前仍處于研發(fā)階段。Meta表示，他們意識(shí)到這種人工智能技術(shù)在虛假偽造方面，可能會(huì)帶來(lái)潛在危害。事實(shí)上，在新聞上也已經(jīng)聽(tīng)過(guò)有些詐騙集團(tuán)利用與本人幾乎一樣的聲音來(lái)進(jìn)行詐騙的案例出現(xiàn)過(guò)了，因此Meta目前正在努力找到一種有效的方式來(lái)區(qū)分真實(shí)語(yǔ)音和由Voicebox生成的音頻，在找到解決方案前，暫時(shí)不會(huì)向公眾公開(kāi)提供。

AI Meta 音頻媒體

上一篇：Instagram將推出自己的AI聊天機(jī)器人擁有30種性格

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章