人人都在聊 AIGC(AI Generated Content,人工智能生成內(nèi)容)。
先是今年 9 月份一幅由 AI 繪圖工具 Midjourney 創(chuàng)作的作品《太空歌劇院》獲得了藝術(shù)比賽的首獎(jiǎng)引起爭(zhēng)議,而與此同時(shí),Stable Diffusion、Copy.ai、Jasper.ai 等多個(gè) AIGC 平臺(tái)宣布了融資消息,一時(shí)間涌現(xiàn)出了多個(gè)獨(dú)角獸公司。
另一方面,AIGC 正面臨著不少商業(yè)和技術(shù)的爭(zhēng)議,內(nèi)容本身的版權(quán)、良品率和工業(yè)標(biāo)準(zhǔn)問題,技術(shù)倫理的挑戰(zhàn),以及算力可能會(huì)集中在頭部大公司的問題,未來的新機(jī)會(huì)究竟在哪里尚未可知。
很多報(bào)道關(guān)注的都是國(guó)外 AIGC 創(chuàng)業(yè)動(dòng)態(tài),對(duì)于國(guó)內(nèi)賽道的創(chuàng)業(yè)卻少有報(bào)道,國(guó)內(nèi) AIGC 創(chuàng)業(yè)的機(jī)會(huì)在哪里?和國(guó)外產(chǎn)品有何不同?Founder Park 特意邀請(qǐng)到了國(guó)內(nèi) AIGC 領(lǐng)域的多位創(chuàng)業(yè)者,來一起聊一聊 AIGC 當(dāng)前的技術(shù)發(fā)展和國(guó)內(nèi)創(chuàng)業(yè)的商業(yè)可能性。
AIGC 內(nèi)容如何更好地進(jìn)行內(nèi)容版權(quán)保護(hù)?到底 AIGC 會(huì)讓人工智能取代人類,還是輔助人類更高效地進(jìn)行生產(chǎn)創(chuàng)作?關(guān)于這些問題,在這場(chǎng)圓桌討論中也都有深入的討論。
01
AIGC
的現(xiàn)狀和爭(zhēng)議
Founder Park:很多人說 AIGC 的大進(jìn)步得益于底層大模型的進(jìn)步,到底是哪些技術(shù)發(fā)生了革命性的變化?
李京梅:大模型到底是什么?嚴(yán)格說來應(yīng)該叫預(yù)訓(xùn)練模型,可以追溯到 2017 年谷歌提出的 Transformer 技術(shù)*,在之后有真正的預(yù)訓(xùn)練模型開始涌現(xiàn),谷歌的 BERT、T5 以及 OpenAI、GPT-3 模型等,還有阿里、百度、華為等推出的預(yù)訓(xùn)練模型。
Transformer 模型:最早是由 Google 于 2017 年在「Attention is all you need」一文中提出,在論文中該模型主要是被用于克服機(jī)器翻譯任務(wù)中傳統(tǒng)網(wǎng)絡(luò)訓(xùn)練時(shí)間過長(zhǎng),難以較好實(shí)現(xiàn)并行計(jì)算的問題。后來,由于該方法在語序特征的提取效果由于傳統(tǒng)的 RNN、LSTM 而被逐漸應(yīng)用至各個(gè)領(lǐng)域。
預(yù)訓(xùn)練模型在技術(shù)上實(shí)現(xiàn)了哪些突破呢?首先是認(rèn)知智能,NLP 也就是自然語言處理,我們可以用人工智能技術(shù)去理解人類的自然語言。2019 年機(jī)器 AI 的閱讀理解的水平已經(jīng)超過人類的水準(zhǔn)了。
其次是感知智能,就是視覺上能看得懂、語音上能聽得懂。為什么說 NLP 會(huì)被視為人工智能皇冠上的明珠,是因?yàn)楫?dāng) AI 能夠像人類一樣做到能聽會(huì)看,下一步的突破就是理解、思考以及決策了。
預(yù)訓(xùn)練模型跟以往傳統(tǒng)的學(xué)習(xí)模型最大的不同,是預(yù)訓(xùn)練模型基于互聯(lián)網(wǎng)公開的海量數(shù)據(jù),可以做到無監(jiān)督或者次監(jiān)督學(xué)習(xí),不需要人工打標(biāo),比如識(shí)別一只貓、一只狗,或者說這是一個(gè)名詞還是動(dòng)詞等,都是通過機(jī)器自己的無監(jiān)督學(xué)習(xí),讓模型 AI 有了基本的閱讀理解、分類和分詞的能力。
但是天下并沒有一個(gè)可以解決所有問題的預(yù)訓(xùn)練模型,可以一套預(yù)訓(xùn)練技術(shù)解決不同語言、不同的任務(wù),可以快速針對(duì)具體的某個(gè)領(lǐng)域、場(chǎng)景做針對(duì)性微調(diào)。而在此之前的學(xué)習(xí)模型都必須從零開始訓(xùn)練。也就是說,NLP 大模型進(jìn)入到了一個(gè)工業(yè)化實(shí)施的階段,可以作為生意去商業(yè)化了。
還有就是,近來 Stable Diffusion 模型開源,并且這個(gè)模型的規(guī)模相比于 GPT-3 小很多,能夠在消費(fèi)級(jí)顯卡甚至手機(jī)上運(yùn)行,瞬間讓 AIGC 這件事的門檻降低了,普通消費(fèi)者或者一般的公司都可以來嘗試,公眾可以來嘗試各種發(fā)揮想象力的應(yīng)用。瀾舟科技也是自研開發(fā)了預(yù)訓(xùn)練大模型——孟子,并且通過輕量化技術(shù),做到了十億級(jí)參數(shù)量的預(yù)訓(xùn)練模型可以比肩超大規(guī)模的預(yù)訓(xùn)練模型。
俞佳:在京梅老師的回答上,我稍微補(bǔ)充下當(dāng)下存在的問題。
實(shí)際上當(dāng)我們真正面對(duì)用戶的時(shí)候,會(huì)發(fā)現(xiàn)大模型還是存在著一小步的距離。不管是 GPT-3 還是 T5, 獲取到行業(yè)信息生成通用文章的效果都還不錯(cuò),但是文章的知識(shí)性或者言之有物的一面距離工業(yè)級(jí)應(yīng)用還會(huì)有一些差距。這是目前商業(yè)化中會(huì)遇到的一些問題。
還有就是,除了生成質(zhì)量之外,人對(duì)大模型的控制能力,或者說大模型如何能更好理解人的指令也是很重要的。
張?jiān)姮摚?/strong>圖像這邊的變化主要源于 Diffusion models(擴(kuò)散模型),是學(xué)術(shù)圈和商業(yè)圈重新把之前的東西撿了起來。大家之前都是在研究 GANs(對(duì)抗生成網(wǎng)絡(luò)),OpenAI 的研究人員發(fā)表了一篇論文說擴(kuò)散模型在圖像合成上優(yōu)于目前最先進(jìn)的生成模型的圖像質(zhì)量,然后大家就都去做 Diffusion models 了,事實(shí)也證明這確實(shí)是一條更好的路,后來出現(xiàn)的很多開源框架都基于 Diffusion models。
其次,我也比較同意京梅老師的看法,大模型雖然很廣,但是也沒法解決所有行業(yè)的問題,也許未來算法突破后,算法集變大以及 GPU 變得更便宜后可以。當(dāng)下還是要基于不同行業(yè)的需求,對(duì)模型進(jìn)行修改和優(yōu)化。
Founder Park:AIGC 現(xiàn)在在不同領(lǐng)域生成內(nèi)容的成熟度是什么樣的?
李京梅:文本生成是其中相對(duì)比較成熟的,瀾舟科技在去年成立之后就在營(yíng)銷文案領(lǐng)域進(jìn)行了布局。
文本生成在技術(shù)上關(guān)注的是可控性,今天還做不到給 AI 一個(gè)題目,讓 AI 直接生成千字文萬字文,更多的是可控文本生成。在營(yíng)銷文案領(lǐng)域,需要提供商品信息、以及一些常識(shí)信息,比如人在白天戴墨鏡,夜里不戴;白天擦防曬霜等這類信息。
在營(yíng)銷文案領(lǐng)域,我們和數(shù)說故事旗下的橫琴容徽合作推出了 contentnote 智能文案,已經(jīng)在去年年底就上線了。另外就是在文學(xué)寫作輔助領(lǐng)域的應(yīng)用也已經(jīng)落地,和網(wǎng)文平臺(tái)中文在線進(jìn)行合作,主要給網(wǎng)文作者提供一些靈感和輔助,目前已經(jīng)集成在他們的寫作平臺(tái)中。
圖像生成比文本生成的進(jìn)度稍微慢一些,還有一些細(xì)節(jié)問題待解決,比如人臉和手部的細(xì)節(jié)真實(shí)度等,臉部有扭曲或者六指這樣的問題還有待去解決。
相比較文本生成和圖片生成這種背靠開源紅利,視頻生成目前還存在不少門檻,至少有兩個(gè)問題需要解決,首先是 AI 需要能夠識(shí)別圖片中的內(nèi)容,然后基于此做一些插幀,這才能讓生成的視頻是一個(gè)比較真實(shí)連貫的視頻。
不過不管是視頻,還是文本生成,對(duì)于輸入長(zhǎng)度都會(huì)有限制,幾百字的文本還行,再長(zhǎng)可控性難度就比較高了。
張濤:3D 內(nèi)容生成這塊確實(shí)存在很多問題待解決。
Stable Diffusion 推出之后,我們就快速將其引入到了 3D 內(nèi)容生產(chǎn)的環(huán)境中。優(yōu)點(diǎn)顯而易見,在大量的內(nèi)容貼圖生成環(huán)節(jié)中可以幫我們降低成本。缺點(diǎn)的話,跟以前 GANs 類似,大家目前只能做一些很簡(jiǎn)單的風(fēng)格控制,比如馬變斑馬、長(zhǎng)發(fā)變短發(fā)等,離偏精細(xì)化的控制還有一段距離。
不像文本有海量的數(shù)據(jù)可以訓(xùn)練,網(wǎng)絡(luò)上目前沒有大量開源的 3D 資產(chǎn)數(shù)據(jù)可以直接用來訓(xùn)練大模型。我們現(xiàn)在走的路是一條比較艱辛的路,就是把 3D 的資產(chǎn)拆解后,用不同的方式去做,有些用傳統(tǒng)的圖形渲染的方式求解,另外一些通過 Stable Diffusion 或者類似模型生成后再去做組合。
張?jiān)姮摚?/strong>特別認(rèn)同張濤老師的說法。
3D 內(nèi)容生成是很重要的,這是現(xiàn)在的游戲、動(dòng)畫以及未來的 AR/VR 場(chǎng)景下的痛點(diǎn)。如果 3D 內(nèi)容生成可用,將極大顛覆游戲、動(dòng)畫乃至未來世界的敘事方式。
現(xiàn)在圖片生成還是 2D 的形式,我們希望未來可以直接輸入文本生成 3D 內(nèi)容,用一種 human friendly 的方式去生成,也不需要很多工程師?,F(xiàn)在 2D 生成 3D,是一個(gè)自由度更高的挑戰(zhàn),不僅要改變形狀和呈現(xiàn)形式,還要考慮移動(dòng)方式等,而到了視頻時(shí)代,還要考慮不同的角度,以及光影等,難度更大,但也會(huì)更加震撼。
俞佳:從技術(shù)成熟度來看,文本生成確實(shí)比圖片生成更成熟,但是這個(gè)成熟度如果和人類的本身能力去比較的話,其結(jié)果可能是反過來的。
大部分用戶都有一些基礎(chǔ)的寫作能力,可以寫出 75-80 分的文章,現(xiàn)在的文本生成模型可能在 70 分左右;而對(duì)于圖片生成來說,大部分用戶不經(jīng)過幾年專業(yè)畫圖訓(xùn)練的話,可能是無法超過現(xiàn)在的圖片生成模型的。圖片生成模型的成熟度在這幾個(gè)月內(nèi)得到了極大的突破,可能在未來幾個(gè)月也會(huì)有更快的調(diào)整。
Founder Park:如何看待 AIGC 內(nèi)容的版權(quán)問題?
俞佳:盜夢(mèng)師現(xiàn)在遵循的是 CC 協(xié)議,版權(quán)屬于創(chuàng)作者本人。不過現(xiàn)在確實(shí)有一些藝術(shù)創(chuàng)作者擔(dān)心自己的作品被喂給大模型訓(xùn)練后,可能會(huì)喪失對(duì)自己的圖片的版權(quán)保護(hù),我有一些更開放性的想法。
版權(quán)的本質(zhì)是對(duì)創(chuàng)作者的知識(shí)產(chǎn)權(quán)和收益權(quán)的保護(hù),版權(quán)的概念早在互聯(lián)網(wǎng)出現(xiàn)之前就有了,本身的內(nèi)涵也在隨著技術(shù)的發(fā)展而變化,也許將來對(duì)創(chuàng)作者的收益分成機(jī)制也叫版權(quán),比如說使用區(qū)塊鏈技術(shù)或者其他大家認(rèn)可的一種分配方式。如果是你的圖被模型訓(xùn)練了,那么將來使用這個(gè)模型創(chuàng)造出來的所有的作品的商業(yè)收益你都獲得分成;或者是使用你的圖訓(xùn)練了一個(gè)私有模型,那么別人可以直接進(jìn)行付費(fèi)購買這個(gè)私有模型進(jìn)行內(nèi)容創(chuàng)作。
所以我覺得,版權(quán)問題,或者說創(chuàng)作者的收益保護(hù)問題一定會(huì)隨著行業(yè)的發(fā)展得到更好的解決方案。
張?jiān)姮摚?/strong>如果把 AI 看做一位小朋友的話,一定會(huì)經(jīng)歷從模仿到創(chuàng)新的過程,一開始是從臨摹開始,后來才會(huì)有創(chuàng)造和超越。AIGC 中最強(qiáng)調(diào)的就是 AI 的創(chuàng)造能力,不是只去模仿,是可以在學(xué)習(xí)的基礎(chǔ)上創(chuàng)造新的東西。所以我們也鼓勵(lì)所有的創(chuàng)作者,來和 AI 一起創(chuàng)造一些更美更有趣的內(nèi)容,也更鼓勵(lì)我們的用戶去用更創(chuàng)新的方式去創(chuàng)作新的內(nèi)容,而不是只模仿某一位藝術(shù)家的風(fēng)格。
02
AIGC 產(chǎn)品
在國(guó)內(nèi)的商業(yè)落地
Founder Park:ZMO.AI 的產(chǎn)品主要布局在哪些方向?
張?jiān)姮摚?/strong>我們很早就意識(shí)到 AIGC 是 AI 的下一波浪潮,上一波浪潮是感知智能,下一波應(yīng)該就是怎么感知。目前我們?cè)诤M馍虡I(yè)化落地的時(shí)候,主要圍繞三個(gè)方向。
首先是電商營(yíng)銷,電商營(yíng)銷分為博客營(yíng)銷和社交媒體營(yíng)銷。博客創(chuàng)作需要配圖,傳統(tǒng)都是在圖片素材庫購買,成本比較高,現(xiàn)在可以直接用 AIGC 生成。社交媒體的營(yíng)銷對(duì)于圖片的 photorealism(照片寫實(shí)主義)要求比較高,尤其是細(xì)節(jié)和光影等,我們目前也優(yōu)先從這個(gè)點(diǎn)切入。
ZMO.AI 生成的寫實(shí)照片 | 來源:ZMO.AI
第二個(gè)方向是 3D 素材的生成,目前還沒有到可以直接驅(qū)動(dòng)生成 3D 人物形象的階段,但是可以幫助游戲和動(dòng)畫原畫師,去更好地獲得靈感。因?yàn)橹霸O(shè)計(jì)師都是靠畫很多張草稿,然后從中選出一張滿意的,不一定需要很精細(xì)的素材。
最后是設(shè)計(jì)領(lǐng)域的參考素材庫,微軟前一陣也發(fā)布了 Designer 軟件,為用戶免費(fèi)提供設(shè)計(jì)模版。AIGC 在其中既是生成器又是編輯器,可以生成設(shè)計(jì)師需要的素材,也可以進(jìn)一步編輯成為更加完整的設(shè)計(jì)。
Founder Park:ZMO.AI 的產(chǎn)品基于開源的 Stable Diffusion 做了哪些創(chuàng)新改進(jìn)?
張?jiān)姮摚?/strong>最大的不同是我們一開始就聚焦在真實(shí)照片的生成。這也導(dǎo)致我們選取的模型不同,Stable Diffusion 是在隱空間直接生成圖片的方式,而我們需要一些更真實(shí)的照片,光影包括細(xì)節(jié)需要更細(xì)膩,所以更多是在像素等級(jí),基于多層級(jí)的方式去做模型的結(jié)構(gòu)優(yōu)化。
還有就是,我們是圍繞商用的場(chǎng)景,對(duì)圖片分辨率比較看重,一般會(huì)輸出 1k 以上分辨率的圖片,整個(gè)的算法、模型結(jié)構(gòu)和優(yōu)化策略也會(huì)有所不同。
語言處理上,中文的語法和英文很不一樣,開源數(shù)據(jù)集也是以英文為主,對(duì)英文的處理會(huì)更好。因?yàn)楫a(chǎn)品面向海外市場(chǎng),所以中文、英文的數(shù)據(jù)都進(jìn)行了訓(xùn)練。后期可能會(huì)針對(duì)不同國(guó)家,在數(shù)據(jù)上做更多的優(yōu)化,比如針對(duì)國(guó)內(nèi)市場(chǎng)的應(yīng)用,使用更多的中文數(shù)據(jù)集。
Founder Park:介紹下盜夢(mèng)師這款產(chǎn)品,你們的底層技術(shù)是如何實(shí)現(xiàn)的?做了哪些創(chuàng)新?
俞佳:我們現(xiàn)在有三款產(chǎn)品:圖片生成的盜夢(mèng)師、文本生成的 Friday AI 和心理聊天機(jī)器人。盜夢(mèng)師目前有接近 50 萬用戶,用戶粘性還是很強(qiáng)的,次日留存接近 40%。
盜夢(mèng)師的用戶分為兩類,第一類是興趣型用戶,對(duì) AIGC 的技術(shù)感興趣,頭腦中有很多故事和畫面但是自己沒法畫出來,于是用盜夢(mèng)師實(shí)現(xiàn)了自己的夢(mèng)想,很多用戶都在訪談中表示使用盜夢(mèng)師創(chuàng)作小故事,這也是我們一直說的要賦予用戶畫出言之有物的圖像的能力。
還有一部分用戶是專業(yè)畫師或者設(shè)計(jì)師,他們更多把盜夢(mèng)師當(dāng)做素材和概念來源,對(duì)他們來說,可以很清楚地進(jìn)行需求描述,很快得到概念稿。對(duì)于這樣的專業(yè)用戶,我們做了一定程度的優(yōu)化,而對(duì)于普通用戶是免費(fèi)的。
盜夢(mèng)師的作品演示 | 來源:西湖心辰
我們也是基于 diffusion 技術(shù)進(jìn)行開發(fā)。在我看來,當(dāng)下的 AIGC 會(huì)有兩個(gè)比較關(guān)鍵的問題還沒有被很好地解決。一個(gè)是模型本身的理解能力,給模型一段文字或者一張圖,它能理解多少,這其中有很多的 gap,比如說語言的隔閡,模型訓(xùn)練時(shí)使用的都是英文,自然對(duì)中文的理解會(huì)存在問題?;诖宋覀冏隽四P偷那爸美斫獠糠郑屇P腿ジ美斫馕谋镜膬?nèi)容。
除此之外,如果想在工業(yè)級(jí)別或者企業(yè)級(jí)別上使用內(nèi)容生成,當(dāng)下的圖片生成更多是做到了好看,但是沒有細(xì)節(jié),缺少言之有物的東西。重要的是模型要能夠有常識(shí)和邏輯,理解語義的能力,我們?cè)谶@個(gè)方面做了比較多的創(chuàng)新和優(yōu)化,這是現(xiàn)在的開源模型或者其他競(jìng)品所不具備的。
還有就是,我們會(huì)根據(jù)用戶的輸入,通過強(qiáng)化學(xué)習(xí)的方法來增強(qiáng)模型的能力,因?yàn)橛胁簧賹I(yè)用戶輸出了專業(yè)的描述詞匯來生成很好的內(nèi)容。
Founder Park:瀾舟科技的文本生成產(chǎn)品現(xiàn)在發(fā)展得怎么樣?
李京梅:瀾舟科技是做自然語言入手的,我們?nèi)ツ曜鱿茸龅木褪俏谋旧?,目前的產(chǎn)品就是 contentnote 智能文案,主要針對(duì)營(yíng)銷文案的智能化寫作。
AI 輔助創(chuàng)作營(yíng)銷文案主要是三步,首先是選擇寫作模版,產(chǎn)品營(yíng)銷、好物推薦還是科普等,然后確定文案的標(biāo)題,輸入品牌和具體的商品,這樣其實(shí)就有了初步文案的生成,用戶可以在最后進(jìn)行關(guān)鍵詞選擇,比如雅詩蘭黛的護(hù)膚產(chǎn)品,就會(huì)有類似清爽、淡斑之類的關(guān)鍵詞可選。營(yíng)銷人員基于生成的內(nèi)容進(jìn)行二次編輯,很多時(shí)候可以做到 80 分的水準(zhǔn),可以滿足批量或者緊急情況下的內(nèi)容生成,提高了效率。
我們還有一個(gè)文學(xué)創(chuàng)作輔助的應(yīng)用,現(xiàn)在已經(jīng)開放了 api 接口,大家可以去瀾舟科技的官網(wǎng)申請(qǐng)?jiān)囉谩_@款產(chǎn)品主要針對(duì)網(wǎng)文等商業(yè)化寫作,幫助作者提高效率,提供靈感。比如用戶想創(chuàng)作一個(gè)從課堂穿越到清朝的小說,輸入一些關(guān)鍵字后,AI 可以幫助他生成一段細(xì)節(jié)描述,給用戶提供一些新的靈感,也鼓舞用戶繼續(xù)創(chuàng)作下去。目前這個(gè) api 已經(jīng)在中文在線的寫作平臺(tái)上進(jìn)行了部署。
而具備了文本生成和圖像生成的能力,我們就可以給用戶提供更多的可能性,比如圖文并茂內(nèi)容的一鍵生成等。
瀾舟科技圖片演示 | 來源:瀾舟科技
另外我們也上線了一款小程序——熊貓小說家,提供小說接龍的功能,你可以邀請(qǐng)你的朋友,大家一起來集體創(chuàng)作一個(gè)故事,AI 會(huì)根據(jù)你選擇的關(guān)鍵詞生成故事走向,分享給你的朋友后他可以進(jìn)行續(xù)寫。
我們目前還是在垂直場(chǎng)景進(jìn)行發(fā)力,在孟子這個(gè)預(yù)訓(xùn)練模型的基礎(chǔ)上,整體走輕量化的策略,持續(xù)進(jìn)行自研,去做多模態(tài)跨模態(tài)的融合,面向不同的場(chǎng)景做融合。
Founder Park:數(shù)字力場(chǎng)在 AIGC 上的探索方向是怎么樣的?
張濤:我們主要聚焦在數(shù)字人和數(shù)字人服裝的低門檻生成?,F(xiàn)階段流程已經(jīng)打通,不過還需要進(jìn)一步提升品質(zhì)。
對(duì)服裝來說,3D 服裝面對(duì)的挑戰(zhàn)也有很多,光線、人物動(dòng)作、周圍環(huán)境等的影響,還要配合不同的 avatar,衣服的材質(zhì)建模以及物理仿真等,這些環(huán)節(jié)都有一系列的挑戰(zhàn),我們目前算是磕磕碰碰跑完了整個(gè)流程,不過還處于調(diào)優(yōu)級(jí)別。
為什么切入這個(gè)方向,我們認(rèn)為當(dāng) AIGC 的可以大量生產(chǎn)內(nèi)容之后,數(shù)字人也許也可以通過這樣的方式生產(chǎn),包括數(shù)字人的服裝、配飾等,畢竟行業(yè)內(nèi)總是需要低門檻的生成方式,而不是全靠建模師、美術(shù)師一件一件去生產(chǎn),這是我們目前比較看好的點(diǎn)。
03
AIGC 創(chuàng)業(yè)最終面對(duì)
的是內(nèi)容創(chuàng)作者
Founder Park:ZMO.AI 的產(chǎn)品功能上,還有哪些創(chuàng)新的點(diǎn)?
張?jiān)姮摚?/strong>我們一直覺得從內(nèi)容生成到內(nèi)容編輯是非常完善的內(nèi)部鏈條,生成圖片只是第一步,后續(xù)用戶還可以對(duì)圖片進(jìn)行編輯,加入文字等。我們?nèi)プ?Editor 這款產(chǎn)品也是希望能帶給用戶完整的體驗(yàn)。尤其是對(duì)于很多設(shè)計(jì)師來說,很多時(shí)候都是從生成元素開始,然后在元素的基礎(chǔ)上設(shè)計(jì)海報(bào)或者包裝,這些都是鏈條上不可或缺的一環(huán)。
我們的 Editor 產(chǎn)品嘗試將編輯的門檻降得更低,用戶不需要去學(xué)習(xí)復(fù)雜的 PS 技術(shù)等。未來在包裝、建筑和服裝設(shè)計(jì)領(lǐng)域等,AIGC 能夠幫助到大家很多,不管是提供靈感還是幫助他們直接生成內(nèi)容,而在 3D 生成成熟后甚至可以直接對(duì)接到制造業(yè)。
Founder Park:ZMO.AI 的產(chǎn)品是 ToC 還是 ToB 的?會(huì)聚焦在哪些領(lǐng)域?
張?jiān)姮摚?/strong>我們的 IMAGECREATOR 最早在國(guó)外上線,最近在國(guó)內(nèi)也推出了 YUAN 初小程序,為什么叫這個(gè)名字是因?yàn)橛X得 YUAN 很有想象力,可以叫它源遠(yuǎn)的「源」,也可以叫它為遠(yuǎn)大的「遠(yuǎn)」或者愿景的「愿」都可以。
產(chǎn)品的定位是 to creator,所有的創(chuàng)作者,沒有嚴(yán)格說一定是 ToB 或者 ToC。我們認(rèn)為在未來,當(dāng) AIGC 變成所有人都可以使用的時(shí)候,B 和 C 的界限會(huì)很模糊。很多人一開始可能是個(gè)人消費(fèi)者 C,他通過自己的設(shè)計(jì)和作畫,有了自己的作品開始掙錢了,慢慢就變成一個(gè)小型的 B 了。大家都是創(chuàng)作者,人人都可以創(chuàng)造。
目前會(huì)聚焦在電商方向,但是會(huì)在此基礎(chǔ)上進(jìn)行拓展。因?yàn)槟P偷纳赡芰κ堑讓拥哪芰?,最后的落地可以有很多?chǎng)景,電商只是其中的一部分。具體來說我們會(huì)聚焦在三個(gè)領(lǐng)域。
第一個(gè)是真實(shí)圖片的生成能力,第二個(gè)是 3D 內(nèi)容的能力,第三個(gè)是專業(yè)的插圖能力,這種插圖包括后現(xiàn)代、兒童等各種插畫風(fēng)格。本質(zhì)上是一個(gè)內(nèi)容生成和創(chuàng)造的平臺(tái),能夠在上面創(chuàng)造各種內(nèi)容,幫助到用戶更好創(chuàng)造價(jià)值。
Founder Park:對(duì)于圖片生成,ToC 會(huì)是更值得期待的方向嗎?
俞佳:在我看來,AIGC 的 ToC 領(lǐng)域一定會(huì)出現(xiàn)非常大的平臺(tái),因?yàn)槿祟惖膭?chuàng)作成本史無前例地降低了,創(chuàng)作形式的變化會(huì)帶來內(nèi)容消費(fèi)形式的變化。因?yàn)橛辛酥悄苁謾C(jī),人們可以更方便地拍攝視頻,才出現(xiàn)了抖音,當(dāng)大家可以更快速地去創(chuàng)作圖片或者視頻內(nèi)容的時(shí)候,一定會(huì)出現(xiàn)另一種內(nèi)容消費(fèi)平臺(tái)。也許將來會(huì)出現(xiàn)很多的網(wǎng)絡(luò)漫畫,因?yàn)橹灰泄适潞拖胂罅?,你就可以自己?chuàng)作自己的漫畫。這種創(chuàng)作生產(chǎn)力的突變會(huì)帶來一些新的機(jī)會(huì),當(dāng)然競(jìng)爭(zhēng)也會(huì)很激烈。
Founder Park:文本生成類產(chǎn)品,海內(nèi)外的產(chǎn)品有什么區(qū)別?
俞佳:海外的文本生成應(yīng)用也有現(xiàn)象級(jí)的公司比如 Jasper、copy.ai 等,海外公司的優(yōu)勢(shì)在于起步較早,國(guó)外用戶對(duì)于 SaaS 類產(chǎn)品付費(fèi)接受度比較高,對(duì)于能夠節(jié)省時(shí)間的產(chǎn)品,他們的付費(fèi)意愿是很高的。
國(guó)內(nèi)用戶對(duì)于工具類產(chǎn)品付費(fèi)意愿沒那么高,但是對(duì)于那些工具確實(shí)能夠幫他們掙錢的用戶,比如跨境電商、新媒體創(chuàng)作的用戶,付費(fèi)意愿就比較高,所以我們除了這一類用戶外,也會(huì)發(fā)展一些 ToB 的合作。
04
AIGC
的未來可能性
Founder Park:從商業(yè)化角度考慮,如何提高 AIGC 的良品率?
張濤:兩個(gè)層面吧,首先是從模型的底層控制入手,朝著更精準(zhǔn)的方向優(yōu)化。底層改造需要投入大量的資源和數(shù)據(jù)資源。
其次是生產(chǎn)層面,對(duì)于大模型來說,想進(jìn)行精準(zhǔn)的調(diào)整是有難度的,我覺得可以在運(yùn)營(yíng)層面投入更多的資源進(jìn)行調(diào)整,比如輸入更準(zhǔn)確的描述,內(nèi)容把控上更嚴(yán)格等。
李京梅:當(dāng)下其實(shí)還沒有放之四海而皆準(zhǔn)的解決方案。從技術(shù)層面來看,我們更關(guān)注垂直場(chǎng)景的落地,這樣對(duì)我們來說是比較可控的,在這個(gè)場(chǎng)景下進(jìn)行持續(xù)優(yōu)化,提升良品率。其次是工程層面的優(yōu)化,讓產(chǎn)品的用戶體驗(yàn)更好。
還有一個(gè)最根本的理念,不管是 NLP 還是 AIGC,大多數(shù)場(chǎng)景下應(yīng)該都是人機(jī)互動(dòng)的方式生成最后的成品,也就是說最終能否產(chǎn)出良品,還是把握在操作者的手中。這是目前以人機(jī)交互的形式產(chǎn)出內(nèi)容的客觀局限性。
俞佳:現(xiàn)階段討論建立工業(yè)標(biāo)準(zhǔn)可能有點(diǎn)言之過早,可能文章的完整性、并發(fā)數(shù)、QPS 等這些傳統(tǒng)指標(biāo)是可以作為監(jiān)測(cè)標(biāo)準(zhǔn)的。
我覺得在很長(zhǎng)的一段時(shí)間內(nèi),人一定是和 AI 共同完成創(chuàng)作。早期階段人需要做的是不讓 AI 跑偏,隨著 AI 能力的上升,人需要去提供創(chuàng)意,或者按照自己的審美從結(jié)果中選擇好的內(nèi)容。不管是短期還是長(zhǎng)期,這種交互關(guān)系是值得深入去研究的。
張濤:我們現(xiàn)在更多是聚焦,在垂類上更加聚焦,逐步提高產(chǎn)出的細(xì)節(jié)、光照等質(zhì)量。
其次是重視用戶反饋,當(dāng)生成的圖越來越多,用戶的反饋就很重要,可以幫助大模型進(jìn)一步優(yōu)化,達(dá)到更好的狀態(tài)。
Founder Park:3D AI 模型訓(xùn)練進(jìn)展比較緩慢,你們?nèi)绾谓鉀Q 3D 模型訓(xùn)練素材少的問題?
張?jiān)姮摚?/strong>我們會(huì)使用渲染引擎專門生成一些數(shù)據(jù)來做訓(xùn)練,這些能夠覆蓋到我們聚焦的場(chǎng)景,但是沒辦法泛化到所有場(chǎng)景,而且相對(duì)來說獲取成本有些高。未來還是期待會(huì)有大廠無私放出一些數(shù)據(jù)幫助大家。
張濤:我覺得進(jìn)展慢是正常的發(fā)展規(guī)律。14、15 年多模態(tài)發(fā)展起來的時(shí)候,很多人去做文本生成和圖片生成,也是積累了很長(zhǎng)時(shí)間,即便是到了今天的 DALL·E 2,也是經(jīng)歷了一段時(shí)間才爆發(fā)?,F(xiàn)在數(shù)據(jù)比較難,將來一定是要依靠某些開源數(shù)據(jù)的大力推進(jìn),這一點(diǎn)我是認(rèn)同詩瑩老師的。
但是即便是這樣,我仍然覺得目前 3D 的進(jìn)展不慢?;氐皆钪娓拍畋l(fā)之前,行業(yè)內(nèi)的 3D 資產(chǎn)很多是在游戲行業(yè),這個(gè)賽道是相對(duì)更封閉,有固定的盈利模式,人才培養(yǎng)和生態(tài)也是有自己的閉環(huán),人才很少流入到其他行業(yè)。隨著元宇宙賽道的火熱,以及游戲行業(yè)這兩年受到的牌照、疫情的沖擊等,整個(gè)行業(yè)的人才流失到了其他行業(yè)。當(dāng)這些不同行業(yè)的人才碰撞在一起,開始探討 AIGC 的內(nèi)容突破的時(shí)候,我覺得這個(gè)賽道才剛剛開始。
現(xiàn)階段大模型很難取得讓人驚訝的成績(jī),因?yàn)榇蠹椰F(xiàn)在習(xí)慣影視和游戲高成本制作的 3D 模型,但是一年之后,3D 模型生成的狀態(tài)一定不是今天這種粗糙的狀態(tài)。要知道,三年以前文本和圖像大模型的狀態(tài)也是不可控的。
Founder Park:很多 AIGC 公司都是在開源模型的基礎(chǔ)上進(jìn)行優(yōu)化和產(chǎn)品開發(fā),應(yīng)該如何搭建自己的技術(shù)壁壘?
李京梅:瀾舟科技是一直堅(jiān)定走開源路線,孟子的面向不同場(chǎng)景的 17 個(gè)開源模型都可以在開源站上體驗(yàn)到。對(duì)我們來說,首先讓社區(qū)內(nèi)盡可能多的伙伴把東西用起來,收集更多的反饋,然后再找到不同場(chǎng)景里存在的不足,再去優(yōu)化我們的大模型。
作為創(chuàng)業(yè)公司,上游的數(shù)據(jù)采集和硬件顯然不是我們要走的方向,我們走的是更落地的路線,所以要去不斷打磨我們的大模型,以客戶的應(yīng)用場(chǎng)景為導(dǎo)向,提供輕量化的可快速落地的方案。
人工智能的三要素:算力、算法和數(shù)據(jù)。當(dāng)大家共創(chuàng)生態(tài)圈的時(shí)候,自然是有算力的出算力、有數(shù)據(jù)的出數(shù)據(jù),我們做模型也是希望能改進(jìn)算法。大家一起把蛋糕做大,讓更多應(yīng)用開發(fā)者和廠商能夠有更多想象空間,一起促進(jìn)產(chǎn)業(yè)生態(tài)發(fā)展。
俞佳:AI 的三要素,算法模型目前有比較好的基礎(chǔ),而且模型的創(chuàng)新可能要面臨整個(gè)開源社區(qū)和學(xué)術(shù)界的挑戰(zhàn);算力面臨著大公司的挑戰(zhàn),在數(shù)據(jù)層面我覺得是可能有自己的護(hù)城河的,這也是我們選擇去做 ToC 產(chǎn)品的出發(fā)點(diǎn)。我們能夠直面用戶,切到具體的行業(yè),獲得非常好的一手?jǐn)?shù)據(jù),這是我們的一個(gè)優(yōu)勢(shì)。
Founder Park:長(zhǎng)遠(yuǎn)來看,AIGC 還有哪些方向的創(chuàng)新值得關(guān)注?
俞佳:在動(dòng)漫化、元宇宙等強(qiáng)內(nèi)容消費(fèi)行業(yè),AIGC 會(huì)有非常大的發(fā)展。
張?jiān)姮摚?/strong>首先是在設(shè)計(jì)領(lǐng)域會(huì)有一個(gè)爆發(fā),比如已經(jīng)出現(xiàn)的 Figma 插件等。然后營(yíng)銷領(lǐng)域的發(fā)展應(yīng)該也是比較快的。
而在日常生活中,大部分人都會(huì)接觸到設(shè)計(jì)的需求,比如短視頻、廣告語、產(chǎn)品包裝設(shè)計(jì)等,這些工作在未來會(huì)跟 AIGC 有越來越多的結(jié)合,能夠幫助到更多人在線下、線上更好地進(jìn)行內(nèi)容創(chuàng)造。
張濤:第一,因?yàn)?AIGC 能夠更高效地生產(chǎn)內(nèi)容,目前主流的短視頻平臺(tái)肯定會(huì)大量通過 AIGC 生產(chǎn)內(nèi)容,這是目前比較旺盛的需求。
第二,通過 AIGC 協(xié)助設(shè)計(jì)師,降低成本、提高生產(chǎn)效率。
第三,游戲領(lǐng)域,更高效地產(chǎn)出 NPC 和提高生產(chǎn)力。
第四,目前的元宇宙和 3D 內(nèi)容生產(chǎn)領(lǐng)域,生產(chǎn)力還是很低下的,大量?jī)?nèi)容生產(chǎn)需要人工去填補(bǔ),AIGC 在這個(gè)領(lǐng)域還是比較有前途的。
李京梅:還是回歸到人類和人工智能的關(guān)系上,我覺得人類不要放棄去做有創(chuàng)造力的工作,機(jī)器還是要跟人學(xué)習(xí)的。在未來幾年,人工智能會(huì)用在那些幫助人類提升效率的地方,虛一點(diǎn)說,把創(chuàng)造力、創(chuàng)意相關(guān)的工作留給人類,人工智能去提升效率。人類和機(jī)器能夠更加和諧相處,找到自己的位置,最終還是機(jī)器為人類創(chuàng)造價(jià)值。
技術(shù)最終的價(jià)值其實(shí)并不是取代人,而是真的去幫助人更好創(chuàng)造價(jià)值。