AI大佬放大招:Stability AI正式推出音頻生成工具Stable Audio

來源:GameLook
作者:GameLook
時間:2023-09-16
1873
繼推出文生圖模型Stable Diffusion后,AIGC領域的明星初創(chuàng)公司Stability AI在近日推出了全新產(chǎn)品Stable Audio,入局了音頻生成賽道。

640.jpg

繼推出文生圖模型Stable Diffusion后,AIGC領域的明星初創(chuàng)公司Stability AI在近日推出了全新產(chǎn)品Stable Audio,入局了音頻生成賽道。

Stable Audio由Stability AI內部的聲音實驗室Harmonai研發(fā),采用了與Stable Diffusion類似的擴散模型技術。據(jù)了解,此次Stable Audio訓練所采用的數(shù)據(jù)集授權自合作伙伴AudioSparx,包含時長19500小時的80萬條音頻文件。

GameLook此前曾報道過一眾AI音頻生成產(chǎn)品。如谷歌的開源模型MusicLM、AIVA、基于機器學習的Mubert等,Meta也在今年8月開源了音頻生成模型AudioCraft。

與Stable Diffusion一樣,該產(chǎn)品同樣采用自然語言生成模式,用戶可以輸入一系列詞語,對音樂的流派、速度、配器、情緒甚至應用場景進行指定。如用戶可以輸入“迪斯科,合成器,鼓機,120BPM,器樂,鋼琴,吉他”。

從試聽效果來看,相較于競爭對手,Stable Audio在聲音品質上有著較為長足的進步,較少出現(xiàn)AI生成音頻中常有的嘈雜感、壓縮感。但與人工創(chuàng)作的音樂相比,在音樂的配器上仍顯得有些雜亂。

Stability AI并未在官方頁面中指明Stable Audio可生成的音樂流派,不過從GameLook的試聽感受上來看,該產(chǎn)品在EDM、氛圍音樂、Disco等電子音樂上表現(xiàn)更好,而在爵士、搖滾等注重器樂的音樂上較為薄弱。

在商業(yè)化上,Stability AI開啟了與Midjourney類似的包月訂閱模式,推出了付費與免費兩個檔位。免費檔允許用戶每月生成20條音頻,持續(xù)時長45秒,且不可商用;定價11.99美元的檔位則允許用戶每月生成500條最高90秒音頻文件,并可用于商業(yè)項目。

640 (1).jpg

Stability AI此次并未對Stable Audio模型進行開源,這與該公司一貫擁抱開源社區(qū)的作風不一致,一些觀察者猜測或是與訓練集的授權協(xié)議有關。不過Stablity AI承諾,Harmonai將在未來開源另一款使用不同數(shù)據(jù)訓練的模型,將基于Stable Audio的代碼,允許用戶自行訓練音頻模型。

而Stability AI同時還表示,該公司對音頻訓練的方式進行了改進:“音頻擴散模型往往在較長的音頻文件中截取區(qū)塊并進行訓練,以適應擴散模型的訓練時長?!边@種訓練方法或導致生成的音樂缺頭去尾。而Stable Audio在訓練時參照了音頻的文字元數(shù)據(jù),持續(xù)時長和開始時間,因此可以該產(chǎn)品可以對任意時間的音頻進行生成。

Stability AI在聲明中表示:“Stable Audio代表著Stability AI對音頻生成研究的前沿水平。我們將持續(xù)對模型架構,數(shù)據(jù)集和訓練方式進行迭代,提升輸出的品質、可操控性、輸出速度與輸出時長?!?/p>

隨著Stablity AI的入局,AI音頻生成的賽道再加一員干將。隨著游戲開發(fā)規(guī)格不斷提升,廠商對游戲配樂的要求也在隨之上漲。在游戲界推進AIGC應用的如今,AI音頻生成或許也將成為一個重要的發(fā)展方向。

不過,在GameLook看來,AI音頻生成技術在游戲界的地位有些尷尬。最顯著的原因是,大部分游戲廠商對游戲音頻的重視程度仍然不足。即便是一線大廠,對音頻部門投入的預算至多不過千萬元人民幣。相較于動輒數(shù)百人的美術團隊,大部分廠商的音頻團隊僅有個位數(shù)成員,乃至于完全采用外包模式。

在產(chǎn)值有限的情況下,AIGC能帶來的降本效果并不突出,大廠投入研發(fā)資源的意愿也會相應受限,市場規(guī)模也難以撐起面向游戲開發(fā)場景專門研發(fā)的第三方AI產(chǎn)品。

此外,AIGC產(chǎn)品還要與高度成熟的商業(yè)音效庫、音樂庫以及較為廉價高效的音頻外包相競爭。而在高規(guī)格產(chǎn)品這片日益重要的市場,越來越多頭部廠商開始投資自建內部的配樂團隊,而AIGC又難以從品質上與高規(guī)格的商業(yè)作曲團隊相匹敵。

而或許,隨著生成模型的不斷迭代,未來AI生成的音樂內容將在品質和可用性上有著較大的提升,乃至于真正實現(xiàn)足不出戶打造大師級配樂。從AI文生圖產(chǎn)品的發(fā)展歷程上來看,如果能夠借助開源社區(qū)的廣泛力量持續(xù)迭代,達成這樣的效果并非天方夜譚。而屆時,游戲界也必然會主動擁抱AI音頻產(chǎn)品。

立即登錄,閱讀全文
AI
原文鏈接:點擊前往 >
文章來源:GameLook
版權說明:本文內容來自于GameLook,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家