以ChatGPT、Midjourney等為代表大模型AI產(chǎn)品在公眾中的迅速走紅,標(biāo)志了這一輪AIGC應(yīng)用的技術(shù)爆發(fā)。但這些文生圖、文生文賽道的成功產(chǎn)品的萬丈光芒之下,人們似乎忽視了另一條探索起步更早、重要性也并不遜色的AIGC賽道:音樂和音效。
人類對(duì)利用計(jì)算機(jī)作曲的技術(shù)探索源遠(yuǎn)流長。早在1960年,俄羅斯學(xué)者Rudolf Zaripov就發(fā)表了歷史上首篇利用計(jì)算機(jī)算法進(jìn)行譜曲的論文。2012年,西班牙馬拉加大學(xué)利用仿生學(xué)技術(shù)打造了作曲計(jì)算機(jī)Iamus,隨后與倫敦交響樂團(tuán)合作推出了首張由AI作曲的現(xiàn)代古典樂專輯《Iamus》。
作曲電腦Iamus
而在大模型時(shí)代到來前,市面上早已出現(xiàn)多款利用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等人工智能技術(shù)賦能的商業(yè)化AI音樂生成產(chǎn)品。其中較為知名的包括成立于2014年的Amper Music,該公司隨后并入商業(yè)媒體內(nèi)容庫公司Shutterstock,為其提供自定義音樂生成服務(wù)。
另一款產(chǎn)品AIVA則憑借出色的生成性能,在2017年被法國的作曲家權(quán)利協(xié)會(huì)SACEM認(rèn)證為首個(gè)“AI作曲家”。類似產(chǎn)品還包括被TikTok收購的Jukedeck、擁有文生音頻能力的Mubert等。
而不少AI技術(shù)公司也躍躍欲試,通過切入這條賽道。如OpenAI此前曾推出過音頻產(chǎn)品Jukebox,谷歌也在今年1月推出專攻音樂生成的大語言模型MusicLM。這些產(chǎn)品目前還僅以技術(shù)原型的形式存在,但從官方演示的生成效果上來說,儼然已經(jīng)有模有樣。
作為結(jié)合聲光效的綜合型娛樂媒介,游戲公司們都在快速上馬AIGC開發(fā)流程。但GameLook不禁好奇:AI究竟將何時(shí)、以何種形態(tài)落地于游戲音頻開發(fā)應(yīng)用層?
AIGC如何助力解決游戲音頻三大需求?
要解決這個(gè)問題,我們需要梳理實(shí)際游戲開發(fā)流程中的聲音需求。在游戲開發(fā)中所需使用到的聲音類內(nèi)容大體可以被拆分為三個(gè)主要大類:角色配音、音效與配樂。而根據(jù)類別的不同,AIGC技術(shù)可行的應(yīng)用深度也不盡相同。
在眼下的角色配音領(lǐng)域,AIGC早已出現(xiàn)了不少的現(xiàn)成的用例,表現(xiàn)出了極高的應(yīng)用潛力——這很大程度上得益于TTS(語音合成)技術(shù)的飛速發(fā)展。如今,AI驅(qū)動(dòng)的語音合成已經(jīng)很大程度上克服了分句、語調(diào)等帶來的“機(jī)械味”,并可以實(shí)現(xiàn)較為初步的抑揚(yáng)頓挫與情感表達(dá)。
玩家對(duì)《未定事件簿》AI角色“莫弈”做出的點(diǎn)評(píng)
如《未定事件簿》、《時(shí)空中的繪旅人》等頭部產(chǎn)品早從去年起就上馬了小部分AI聲優(yōu)試水。針對(duì)AI語音的實(shí)裝效果,玩家們給出了普遍好評(píng)。盡管配音效果在細(xì)膩度上尚無法完全與專業(yè)聲優(yōu)相匹敵,但在日常語音等低權(quán)重場景,AI合成語音已然可以覆蓋掉大部分需求。而像地圖導(dǎo)航播報(bào)語音、有聲書、甚至買量素材等高語音需求量的場景中,AI合成語音已然開始逐步投入應(yīng)用。
而在音效方面,對(duì)音效品質(zhì)要求不高的公司如今大多會(huì)購買或使用免費(fèi)音效庫來填充游戲聲音,另一部分廠商則采取自行制作或外包給第三方Foley團(tuán)隊(duì)的形式制作游戲中的音效。而隨著游戲題材多元化發(fā)展,仙俠、奇幻、二次元題材中的音效往往沒有現(xiàn)實(shí)原型。在這種情況下,想要憑借統(tǒng)一的大模型在兼顧高品質(zhì)的情況下產(chǎn)出合用的音效,并非易事。
但這并不意味著這一場景無法被AI滲透。某二次元頭部大廠的相關(guān)負(fù)責(zé)人在近期的研報(bào)問答中表示,目前的音效合成主要采取由調(diào)音師在音房中創(chuàng)作demo的形式,容易造成靈感枯竭。而該公司正在實(shí)驗(yàn)通過AIGC生成多種不同風(fēng)格Demo的形式,為音效師提供創(chuàng)作靈感和原型,進(jìn)而加速創(chuàng)作過程。
在配樂方面,隨著游戲精品化趨勢的鋪開,如米哈游、鷹角等頭部公司如今已將游戲配樂打造為穩(wěn)固游戲世界觀、建立情感連接、延申線下活動(dòng)的重要載體,而生成式AI較為難以滿足這類高價(jià)值需求。
但另一方面,如微信小游戲、超休閑這類輕敘事、低成本的品類往往對(duì)游戲配樂沒有過高需求。在傳統(tǒng)上,這類開發(fā)者會(huì)采取向商業(yè)曲庫購買音軌的方式,而生成式大模型的出現(xiàn),為這一類游戲配樂的創(chuàng)作開啟了無窮的想象空間。
自然語言交互:AIGC配樂創(chuàng)作究竟長啥樣?
相較于此前的AI技術(shù)進(jìn)步,本輪生成式AI的熱潮將“自然語言輸入”的概念進(jìn)行了廣泛普及。通過自然語言prompt向AI描述自己的需求進(jìn)而實(shí)現(xiàn)定向生成,是眼下人們與AI互動(dòng)的標(biāo)準(zhǔn)形式。這意味著,在商業(yè)曲庫中逐個(gè)軌道試聽,苦苦尋找與自己游戲產(chǎn)品調(diào)性一致的配樂的日子即將成為過去式,未來的游戲開發(fā)廠商可以將配樂場景轉(zhuǎn)化為文字Prompt喂給AI,精準(zhǔn)返回符合需求的游戲音樂。
而當(dāng)前,最接近這類使用體驗(yàn)的AIGC音樂商業(yè)產(chǎn)品是提供了“文生音樂(text-to-music)”選項(xiàng)的Mubert。一名YouTube博主近日向我們演示了Mubert的生成功能。
如視頻所見,Mubert可以被部署到谷歌的云端Google Colab云服務(wù)器中運(yùn)行。用戶可以在Prompt一欄指定場景內(nèi)容、風(fēng)格、情緒、曲風(fēng)等內(nèi)容。此外,用戶還可設(shè)定生成出的音樂長度,并自由調(diào)整是否使其“循環(huán)”,這一功能的存在為創(chuàng)作游戲配樂提供了很大的便利。
谷歌在年初發(fā)布的大模型MusicLM與Mubert近似,但這款實(shí)驗(yàn)性的模型向我們展示了“圖生音樂”、片段定制等更高級(jí)的AIGC功能,讓我們一瞥更廣闊的AIGC未來。
在論文中,谷歌演示了多種生成方式,其中“Story Mode”的生成方式允許用戶在Prompt中通過加入時(shí)間坐標(biāo)的方式,為每一段生成單獨(dú)指定內(nèi)容調(diào)性。此外,谷歌還嘗試了將知名畫作的百科詞條輸入模型中進(jìn)行生成。如輸入梵高的著名畫作《星空》后,MusicLM為我們帶來了一段靜謐的鋼琴獨(dú)奏,的確符合圖片的整體調(diào)性。
這讓GameLook不禁遐想,而在多模態(tài)大模型呼之欲出的未來,或許開發(fā)者可以連文字輸入詞都直接擺脫,將自己游戲場景的圖片、乃至游戲的場景和劇情本身直接輸入至大語言模型,一步到位地生成最為匹配的游戲配樂。又或者,游戲可以直接擺脫預(yù)設(shè)音軌的負(fù)擔(dān),由AIGC引擎根據(jù)游戲角色所在的位置和所處的情景進(jìn)行“涌現(xiàn)式”的生成,真正實(shí)現(xiàn)“移步換景”,讓每名玩家都能擁有最具個(gè)性化的游戲體驗(yàn)。
版權(quán)問題藏隱憂
在人人感嘆AI日新月異,AIGC業(yè)界熱火朝天發(fā)展的同時(shí),版權(quán)問題如同幽靈一般籠罩在全體創(chuàng)作者的心中。藝術(shù)家們害怕自己的作品被AI“偷”走;使用AI的創(chuàng)作者們擔(dān)心自己無法擁有版權(quán);商業(yè)圖庫以未授權(quán)訓(xùn)練的名義起訴Stability AI……著作權(quán)制度這一傳統(tǒng)的法律關(guān)系產(chǎn)物,在面臨新時(shí)代的AIGC時(shí),為我們帶來了太多未被判例覆蓋的場景。我們正走向一片未曾探索過的深水區(qū)。
一個(gè)重要的問題是:假如AI生成的音樂與現(xiàn)有的作品表現(xiàn)出了極高的相似度,那最終生成的作品是否構(gòu)成侵權(quán)?這一擔(dān)憂并非杞人憂天——谷歌在其MusicLM的論文中表示,生成的音樂中有約1%與已有的音樂作品表現(xiàn)出重疊。這意味著任何游戲廠商都要引入1%的侵權(quán)風(fēng)險(xiǎn),這無疑會(huì)帶來巨大的隱憂。
此外,根據(jù)此前美國版權(quán)局的相關(guān)判例,利用AIGC生成的音樂本身假若不加以“深度修改”,那么這一音樂并不能夠被認(rèn)為符合著作權(quán)的注冊標(biāo)準(zhǔn)。這意味著,假如想在游戲中加入AIGC音樂,那么這些音樂的著作權(quán)未必可以被掌握在游戲公司的手中。
一些新型的侵權(quán)形態(tài)正在暗中萌芽:近日,環(huán)球唱片公司向YouTube發(fā)出DMCA版權(quán)警告,要求下架該平臺(tái)上一個(gè)AI制作的視頻。該視頻作者將知名Rap歌手Eminem的聲音訓(xùn)練成模型,并讓其演唱了一首關(guān)于貓的全新Rap。唱片公司認(rèn)為,這是對(duì)Eminem形象的直接侵權(quán)。同時(shí),環(huán)球唱片公司要求Spotify、YouTube等平臺(tái)采取措施,以避免該公司旗下的音樂作品被爬取學(xué)習(xí)。而外媒《Wired》采訪到的一名版權(quán)律師也認(rèn)為,盡管此前尚無相關(guān)判例,但這一申訴從法律上存在合理性。
對(duì)于游戲公司來說,版權(quán)糾紛是一項(xiàng)重要的風(fēng)控因素。GameLook此前曾報(bào)道過,多家國際游戲大廠都禁止美術(shù)外包廠商提交AI生成作品,以避免版權(quán)糾紛。而目前,英偉達(dá)和Adobe等布局AIGC的巨頭已經(jīng)開始通過與Getty Images等商業(yè)圖庫達(dá)成分成合作的方式規(guī)避版權(quán)風(fēng)險(xiǎn)。而或許只有等到AIGC的版權(quán)爭議徹底解決之時(shí),我們才能夠看到游戲公司廣泛應(yīng)用這一新技術(shù)。