AIGC 火遍全球，里面有哪些創(chuàng)業(yè)機會？

來源：極客公園

作者：Founder Park

時間：2022-11-14

挑戰(zhàn)與機遇并存，但機遇更大。

人人都在聊 AIGC（AI Generated Content，人工智能生成內(nèi)容）。

先是今年 9 月份一幅由 AI 繪圖工具 Midjourney 創(chuàng)作的作品《太空歌劇院》獲得了藝術比賽的首獎引起爭議，而與此同時，Stable Diffusion、Copy.ai、Jasper.ai 等多個 AIGC 平臺宣布了融資消息，一時間涌現(xiàn)出了多個獨角獸公司。

另一方面，AIGC 正面臨著不少商業(yè)和技術的爭議，內(nèi)容本身的版權、良品率和工業(yè)標準問題，技術倫理的挑戰(zhàn)，以及算力可能會集中在頭部大公司的問題，未來的新機會究竟在哪里尚未可知。

很多報道關注的都是國外 AIGC 創(chuàng)業(yè)動態(tài)，對于國內(nèi)賽道的創(chuàng)業(yè)卻少有報道，國內(nèi) AIGC 創(chuàng)業(yè)的機會在哪里？和國外產(chǎn)品有何不同？Founder Park 特意邀請到了國內(nèi) AIGC 領域的多位創(chuàng)業(yè)者，來一起聊一聊 AIGC 當前的技術發(fā)展和國內(nèi)創(chuàng)業(yè)的商業(yè)可能性。

AIGC 內(nèi)容如何更好地進行內(nèi)容版權保護？到底 AIGC 會讓人工智能取代人類，還是輔助人類更高效地進行生產(chǎn)創(chuàng)作？關于這些問題，在這場圓桌討論中也都有深入的討論。

AIGC

的現(xiàn)狀和爭議

Founder Park：很多人說 AIGC 的大進步得益于底層大模型的進步，到底是哪些技術發(fā)生了革命性的變化？

李京梅：大模型到底是什么？嚴格說來應該叫預訓練模型，可以追溯到 2017 年谷歌提出的 Transformer 技術*，在之后有真正的預訓練模型開始涌現(xiàn)，谷歌的 BERT、T5 以及 OpenAI、GPT-3 模型等，還有阿里、百度、華為等推出的預訓練模型。

Transformer 模型：最早是由 Google 于 2017 年在「Attention is all you need」一文中提出，在論文中該模型主要是被用于克服機器翻譯任務中傳統(tǒng)網(wǎng)絡訓練時間過長，難以較好實現(xiàn)并行計算的問題。后來，由于該方法在語序特征的提取效果由于傳統(tǒng)的 RNN、LSTM 而被逐漸應用至各個領域。

預訓練模型在技術上實現(xiàn)了哪些突破呢？首先是認知智能，NLP 也就是自然語言處理，我們可以用人工智能技術去理解人類的自然語言。2019 年機器 AI 的閱讀理解的水平已經(jīng)超過人類的水準了。

其次是感知智能，就是視覺上能看得懂、語音上能聽得懂。為什么說 NLP 會被視為人工智能皇冠上的明珠，是因為當 AI 能夠像人類一樣做到能聽會看，下一步的突破就是理解、思考以及決策了。

預訓練模型跟以往傳統(tǒng)的學習模型最大的不同，是預訓練模型基于互聯(lián)網(wǎng)公開的海量數(shù)據(jù)，可以做到無監(jiān)督或者次監(jiān)督學習，不需要人工打標，比如識別一只貓、一只狗，或者說這是一個名詞還是動詞等，都是通過機器自己的無監(jiān)督學習，讓模型 AI 有了基本的閱讀理解、分類和分詞的能力。

但是天下并沒有一個可以解決所有問題的預訓練模型，可以一套預訓練技術解決不同語言、不同的任務，可以快速針對具體的某個領域、場景做針對性微調(diào)。而在此之前的學習模型都必須從零開始訓練。也就是說，NLP 大模型進入到了一個工業(yè)化實施的階段，可以作為生意去商業(yè)化了。

還有就是，近來 Stable Diffusion 模型開源，并且這個模型的規(guī)模相比于 GPT-3 小很多，能夠在消費級顯卡甚至手機上運行，瞬間讓 AIGC 這件事的門檻降低了，普通消費者或者一般的公司都可以來嘗試，公眾可以來嘗試各種發(fā)揮想象力的應用。瀾舟科技也是自研開發(fā)了預訓練大模型——孟子，并且通過輕量化技術，做到了十億級參數(shù)量的預訓練模型可以比肩超大規(guī)模的預訓練模型。

俞佳：在京梅老師的回答上，我稍微補充下當下存在的問題。

實際上當我們真正面對用戶的時候，會發(fā)現(xiàn)大模型還是存在著一小步的距離。不管是 GPT-3 還是 T5, 獲取到行業(yè)信息生成通用文章的效果都還不錯，但是文章的知識性或者言之有物的一面距離工業(yè)級應用還會有一些差距。這是目前商業(yè)化中會遇到的一些問題。

還有就是，除了生成質(zhì)量之外，人對大模型的控制能力，或者說大模型如何能更好理解人的指令也是很重要的。

張詩瑩：圖像這邊的變化主要源于 Diffusion models（擴散模型），是學術圈和商業(yè)圈重新把之前的東西撿了起來。大家之前都是在研究 GANs（對抗生成網(wǎng)絡），OpenAI 的研究人員發(fā)表了一篇論文說擴散模型在圖像合成上優(yōu)于目前最先進的生成模型的圖像質(zhì)量，然后大家就都去做 Diffusion models 了，事實也證明這確實是一條更好的路，后來出現(xiàn)的很多開源框架都基于 Diffusion models。

其次，我也比較同意京梅老師的看法，大模型雖然很廣，但是也沒法解決所有行業(yè)的問題，也許未來算法突破后，算法集變大以及 GPU 變得更便宜后可以。當下還是要基于不同行業(yè)的需求，對模型進行修改和優(yōu)化。

Founder Park：AIGC 現(xiàn)在在不同領域生成內(nèi)容的成熟度是什么樣的？

李京梅：文本生成是其中相對比較成熟的，瀾舟科技在去年成立之后就在營銷文案領域進行了布局。

文本生成在技術上關注的是可控性，今天還做不到給 AI 一個題目，讓 AI 直接生成千字文萬字文，更多的是可控文本生成。在營銷文案領域，需要提供商品信息、以及一些常識信息，比如人在白天戴墨鏡，夜里不戴；白天擦防曬霜等這類信息。

在營銷文案領域，我們和數(shù)說故事旗下的橫琴容徽合作推出了 contentnote 智能文案，已經(jīng)在去年年底就上線了。另外就是在文學寫作輔助領域的應用也已經(jīng)落地，和網(wǎng)文平臺中文在線進行合作，主要給網(wǎng)文作者提供一些靈感和輔助，目前已經(jīng)集成在他們的寫作平臺中。

圖像生成比文本生成的進度稍微慢一些，還有一些細節(jié)問題待解決，比如人臉和手部的細節(jié)真實度等，臉部有扭曲或者六指這樣的問題還有待去解決。

相比較文本生成和圖片生成這種背靠開源紅利，視頻生成目前還存在不少門檻，至少有兩個問題需要解決，首先是 AI 需要能夠識別圖片中的內(nèi)容，然后基于此做一些插幀，這才能讓生成的視頻是一個比較真實連貫的視頻。

不過不管是視頻，還是文本生成，對于輸入長度都會有限制，幾百字的文本還行，再長可控性難度就比較高了。

張濤：3D 內(nèi)容生成這塊確實存在很多問題待解決。

Stable Diffusion 推出之后，我們就快速將其引入到了 3D 內(nèi)容生產(chǎn)的環(huán)境中。優(yōu)點顯而易見，在大量的內(nèi)容貼圖生成環(huán)節(jié)中可以幫我們降低成本。缺點的話，跟以前 GANs 類似，大家目前只能做一些很簡單的風格控制，比如馬變斑馬、長發(fā)變短發(fā)等，離偏精細化的控制還有一段距離。

不像文本有海量的數(shù)據(jù)可以訓練，網(wǎng)絡上目前沒有大量開源的 3D 資產(chǎn)數(shù)據(jù)可以直接用來訓練大模型。我們現(xiàn)在走的路是一條比較艱辛的路，就是把 3D 的資產(chǎn)拆解后，用不同的方式去做，有些用傳統(tǒng)的圖形渲染的方式求解，另外一些通過 Stable Diffusion 或者類似模型生成后再去做組合。

張詩瑩：特別認同張濤老師的說法。

3D 內(nèi)容生成是很重要的，這是現(xiàn)在的游戲、動畫以及未來的 AR/VR 場景下的痛點。如果 3D 內(nèi)容生成可用，將極大顛覆游戲、動畫乃至未來世界的敘事方式。

現(xiàn)在圖片生成還是 2D 的形式，我們希望未來可以直接輸入文本生成 3D 內(nèi)容，用一種 human friendly 的方式去生成，也不需要很多工程師?，F(xiàn)在 2D 生成 3D，是一個自由度更高的挑戰(zhàn)，不僅要改變形狀和呈現(xiàn)形式，還要考慮移動方式等，而到了視頻時代，還要考慮不同的角度，以及光影等，難度更大，但也會更加震撼。

俞佳：從技術成熟度來看，文本生成確實比圖片生成更成熟，但是這個成熟度如果和人類的本身能力去比較的話，其結果可能是反過來的。

大部分用戶都有一些基礎的寫作能力，可以寫出 75-80 分的文章，現(xiàn)在的文本生成模型可能在 70 分左右；而對于圖片生成來說，大部分用戶不經(jīng)過幾年專業(yè)畫圖訓練的話，可能是無法超過現(xiàn)在的圖片生成模型的。圖片生成模型的成熟度在這幾個月內(nèi)得到了極大的突破，可能在未來幾個月也會有更快的調(diào)整。

Founder Park：如何看待 AIGC 內(nèi)容的版權問題？

俞佳：盜夢師現(xiàn)在遵循的是 CC 協(xié)議，版權屬于創(chuàng)作者本人。不過現(xiàn)在確實有一些藝術創(chuàng)作者擔心自己的作品被喂給大模型訓練后，可能會喪失對自己的圖片的版權保護，我有一些更開放性的想法。

版權的本質(zhì)是對創(chuàng)作者的知識產(chǎn)權和收益權的保護，版權的概念早在互聯(lián)網(wǎng)出現(xiàn)之前就有了，本身的內(nèi)涵也在隨著技術的發(fā)展而變化，也許將來對創(chuàng)作者的收益分成機制也叫版權，比如說使用區(qū)塊鏈技術或者其他大家認可的一種分配方式。如果是你的圖被模型訓練了，那么將來使用這個模型創(chuàng)造出來的所有的作品的商業(yè)收益你都獲得分成；或者是使用你的圖訓練了一個私有模型，那么別人可以直接進行付費購買這個私有模型進行內(nèi)容創(chuàng)作。

所以我覺得，版權問題，或者說創(chuàng)作者的收益保護問題一定會隨著行業(yè)的發(fā)展得到更好的解決方案。

張詩瑩：如果把 AI 看做一位小朋友的話，一定會經(jīng)歷從模仿到創(chuàng)新的過程，一開始是從臨摹開始，后來才會有創(chuàng)造和超越。AIGC 中最強調(diào)的就是 AI 的創(chuàng)造能力，不是只去模仿，是可以在學習的基礎上創(chuàng)造新的東西。所以我們也鼓勵所有的創(chuàng)作者，來和 AI 一起創(chuàng)造一些更美更有趣的內(nèi)容，也更鼓勵我們的用戶去用更創(chuàng)新的方式去創(chuàng)作新的內(nèi)容，而不是只模仿某一位藝術家的風格。

AIGC 產(chǎn)品

在國內(nèi)的商業(yè)落地

Founder Park：ZMO.AI 的產(chǎn)品主要布局在哪些方向？

張詩瑩：我們很早就意識到 AIGC 是 AI 的下一波浪潮，上一波浪潮是感知智能，下一波應該就是怎么感知。目前我們在海外商業(yè)化落地的時候，主要圍繞三個方向。

首先是電商營銷，電商營銷分為博客營銷和社交媒體營銷。博客創(chuàng)作需要配圖，傳統(tǒng)都是在圖片素材庫購買，成本比較高，現(xiàn)在可以直接用 AIGC 生成。社交媒體的營銷對于圖片的 photorealism（照片寫實主義）要求比較高，尤其是細節(jié)和光影等，我們目前也優(yōu)先從這個點切入。

ZMO.AI 生成的寫實照片 | 來源：ZMO.AI

第二個方向是 3D 素材的生成，目前還沒有到可以直接驅(qū)動生成 3D 人物形象的階段，但是可以幫助游戲和動畫原畫師，去更好地獲得靈感。因為之前設計師都是靠畫很多張草稿，然后從中選出一張滿意的，不一定需要很精細的素材。

最后是設計領域的參考素材庫，微軟前一陣也發(fā)布了 Designer 軟件，為用戶免費提供設計模版。AIGC 在其中既是生成器又是編輯器，可以生成設計師需要的素材，也可以進一步編輯成為更加完整的設計。

Founder Park：ZMO.AI 的產(chǎn)品基于開源的 Stable Diffusion 做了哪些創(chuàng)新改進？

張詩瑩：最大的不同是我們一開始就聚焦在真實照片的生成。這也導致我們選取的模型不同，Stable Diffusion 是在隱空間直接生成圖片的方式，而我們需要一些更真實的照片，光影包括細節(jié)需要更細膩，所以更多是在像素等級，基于多層級的方式去做模型的結構優(yōu)化。

還有就是，我們是圍繞商用的場景，對圖片分辨率比較看重，一般會輸出 1k 以上分辨率的圖片，整個的算法、模型結構和優(yōu)化策略也會有所不同。

語言處理上，中文的語法和英文很不一樣，開源數(shù)據(jù)集也是以英文為主，對英文的處理會更好。因為產(chǎn)品面向海外市場，所以中文、英文的數(shù)據(jù)都進行了訓練。后期可能會針對不同國家，在數(shù)據(jù)上做更多的優(yōu)化，比如針對國內(nèi)市場的應用，使用更多的中文數(shù)據(jù)集。

Founder Park：介紹下盜夢師這款產(chǎn)品，你們的底層技術是如何實現(xiàn)的？做了哪些創(chuàng)新？

俞佳：我們現(xiàn)在有三款產(chǎn)品：圖片生成的盜夢師、文本生成的 Friday AI 和心理聊天機器人。盜夢師目前有接近 50 萬用戶，用戶粘性還是很強的，次日留存接近 40%。

盜夢師的用戶分為兩類，第一類是興趣型用戶，對 AIGC 的技術感興趣，頭腦中有很多故事和畫面但是自己沒法畫出來，于是用盜夢師實現(xiàn)了自己的夢想，很多用戶都在訪談中表示使用盜夢師創(chuàng)作小故事，這也是我們一直說的要賦予用戶畫出言之有物的圖像的能力。

還有一部分用戶是專業(yè)畫師或者設計師，他們更多把盜夢師當做素材和概念來源，對他們來說，可以很清楚地進行需求描述，很快得到概念稿。對于這樣的專業(yè)用戶，我們做了一定程度的優(yōu)化，而對于普通用戶是免費的。

盜夢師的作品演示 | 來源：西湖心辰

我們也是基于 diffusion 技術進行開發(fā)。在我看來，當下的 AIGC 會有兩個比較關鍵的問題還沒有被很好地解決。一個是模型本身的理解能力，給模型一段文字或者一張圖，它能理解多少，這其中有很多的 gap，比如說語言的隔閡，模型訓練時使用的都是英文，自然對中文的理解會存在問題?；诖宋覀冏隽四Ｐ偷那爸美斫獠糠?，讓模型去更好理解文本的內(nèi)容。

除此之外，如果想在工業(yè)級別或者企業(yè)級別上使用內(nèi)容生成，當下的圖片生成更多是做到了好看，但是沒有細節(jié)，缺少言之有物的東西。重要的是模型要能夠有常識和邏輯，理解語義的能力，我們在這個方面做了比較多的創(chuàng)新和優(yōu)化，這是現(xiàn)在的開源模型或者其他競品所不具備的。

還有就是，我們會根據(jù)用戶的輸入，通過強化學習的方法來增強模型的能力，因為有不少專業(yè)用戶輸出了專業(yè)的描述詞匯來生成很好的內(nèi)容。

Founder Park：瀾舟科技的文本生成產(chǎn)品現(xiàn)在發(fā)展得怎么樣？

李京梅：瀾舟科技是做自然語言入手的，我們?nèi)ツ曜鱿茸龅木褪俏谋旧?，目前的產(chǎn)品就是 contentnote 智能文案，主要針對營銷文案的智能化寫作。

AI 輔助創(chuàng)作營銷文案主要是三步，首先是選擇寫作模版，產(chǎn)品營銷、好物推薦還是科普等，然后確定文案的標題，輸入品牌和具體的商品，這樣其實就有了初步文案的生成，用戶可以在最后進行關鍵詞選擇，比如雅詩蘭黛的護膚產(chǎn)品，就會有類似清爽、淡斑之類的關鍵詞可選。營銷人員基于生成的內(nèi)容進行二次編輯，很多時候可以做到 80 分的水準，可以滿足批量或者緊急情況下的內(nèi)容生成，提高了效率。

我們還有一個文學創(chuàng)作輔助的應用，現(xiàn)在已經(jīng)開放了 api 接口，大家可以去瀾舟科技的官網(wǎng)申請試用。這款產(chǎn)品主要針對網(wǎng)文等商業(yè)化寫作，幫助作者提高效率，提供靈感。比如用戶想創(chuàng)作一個從課堂穿越到清朝的小說，輸入一些關鍵字后，AI 可以幫助他生成一段細節(jié)描述，給用戶提供一些新的靈感，也鼓舞用戶繼續(xù)創(chuàng)作下去。目前這個 api 已經(jīng)在中文在線的寫作平臺上進行了部署。

而具備了文本生成和圖像生成的能力，我們就可以給用戶提供更多的可能性，比如圖文并茂內(nèi)容的一鍵生成等。

瀾舟科技圖片演示 | 來源：瀾舟科技

另外我們也上線了一款小程序——熊貓小說家，提供小說接龍的功能，你可以邀請你的朋友，大家一起來集體創(chuàng)作一個故事，AI 會根據(jù)你選擇的關鍵詞生成故事走向，分享給你的朋友后他可以進行續(xù)寫。

我們目前還是在垂直場景進行發(fā)力，在孟子這個預訓練模型的基礎上，整體走輕量化的策略，持續(xù)進行自研，去做多模態(tài)跨模態(tài)的融合，面向不同的場景做融合。

Founder Park：數(shù)字力場在 AIGC 上的探索方向是怎么樣的？

張濤：我們主要聚焦在數(shù)字人和數(shù)字人服裝的低門檻生成?，F(xiàn)階段流程已經(jīng)打通，不過還需要進一步提升品質(zhì)。

對服裝來說，3D 服裝面對的挑戰(zhàn)也有很多，光線、人物動作、周圍環(huán)境等的影響，還要配合不同的 avatar，衣服的材質(zhì)建模以及物理仿真等，這些環(huán)節(jié)都有一系列的挑戰(zhàn)，我們目前算是磕磕碰碰跑完了整個流程，不過還處于調(diào)優(yōu)級別。

為什么切入這個方向，我們認為當 AIGC 的可以大量生產(chǎn)內(nèi)容之后，數(shù)字人也許也可以通過這樣的方式生產(chǎn)，包括數(shù)字人的服裝、配飾等，畢竟行業(yè)內(nèi)總是需要低門檻的生成方式，而不是全靠建模師、美術師一件一件去生產(chǎn)，這是我們目前比較看好的點。

AIGC 創(chuàng)業(yè)最終面對

的是內(nèi)容創(chuàng)作者

Founder Park：ZMO.AI 的產(chǎn)品功能上，還有哪些創(chuàng)新的點？

張詩瑩：我們一直覺得從內(nèi)容生成到內(nèi)容編輯是非常完善的內(nèi)部鏈條，生成圖片只是第一步，后續(xù)用戶還可以對圖片進行編輯，加入文字等。我們?nèi)プ?Editor 這款產(chǎn)品也是希望能帶給用戶完整的體驗。尤其是對于很多設計師來說，很多時候都是從生成元素開始，然后在元素的基礎上設計海報或者包裝，這些都是鏈條上不可或缺的一環(huán)。

我們的 Editor 產(chǎn)品嘗試將編輯的門檻降得更低，用戶不需要去學習復雜的 PS 技術等。未來在包裝、建筑和服裝設計領域等，AIGC 能夠幫助到大家很多，不管是提供靈感還是幫助他們直接生成內(nèi)容，而在 3D 生成成熟后甚至可以直接對接到制造業(yè)。

Founder Park：ZMO.AI 的產(chǎn)品是 ToC 還是 ToB 的？會聚焦在哪些領域？

張詩瑩：我們的 IMAGECREATOR 最早在國外上線，最近在國內(nèi)也推出了 YUAN 初小程序，為什么叫這個名字是因為覺得 YUAN 很有想象力，可以叫它源遠的「源」，也可以叫它為遠大的「遠」或者愿景的「愿」都可以。

產(chǎn)品的定位是 to creator，所有的創(chuàng)作者，沒有嚴格說一定是 ToB 或者 ToC。我們認為在未來，當 AIGC 變成所有人都可以使用的時候，B 和 C 的界限會很模糊。很多人一開始可能是個人消費者 C，他通過自己的設計和作畫，有了自己的作品開始掙錢了，慢慢就變成一個小型的 B 了。大家都是創(chuàng)作者，人人都可以創(chuàng)造。

目前會聚焦在電商方向，但是會在此基礎上進行拓展。因為模型的生成能力是底層的能力，最后的落地可以有很多場景，電商只是其中的一部分。具體來說我們會聚焦在三個領域。

第一個是真實圖片的生成能力，第二個是 3D 內(nèi)容的能力，第三個是專業(yè)的插圖能力，這種插圖包括后現(xiàn)代、兒童等各種插畫風格。本質(zhì)上是一個內(nèi)容生成和創(chuàng)造的平臺，能夠在上面創(chuàng)造各種內(nèi)容，幫助到用戶更好創(chuàng)造價值。

Founder Park：對于圖片生成，ToC 會是更值得期待的方向嗎？

俞佳：在我看來，AIGC 的 ToC 領域一定會出現(xiàn)非常大的平臺，因為人類的創(chuàng)作成本史無前例地降低了，創(chuàng)作形式的變化會帶來內(nèi)容消費形式的變化。因為有了智能手機，人們可以更方便地拍攝視頻，才出現(xiàn)了抖音，當大家可以更快速地去創(chuàng)作圖片或者視頻內(nèi)容的時候，一定會出現(xiàn)另一種內(nèi)容消費平臺。也許將來會出現(xiàn)很多的網(wǎng)絡漫畫，因為只要有故事和想象力，你就可以自己創(chuàng)作自己的漫畫。這種創(chuàng)作生產(chǎn)力的突變會帶來一些新的機會，當然競爭也會很激烈。

Founder Park：文本生成類產(chǎn)品，海內(nèi)外的產(chǎn)品有什么區(qū)別？

俞佳：海外的文本生成應用也有現(xiàn)象級的公司比如 Jasper、copy.ai 等，海外公司的優(yōu)勢在于起步較早，國外用戶對于 SaaS 類產(chǎn)品付費接受度比較高，對于能夠節(jié)省時間的產(chǎn)品，他們的付費意愿是很高的。

國內(nèi)用戶對于工具類產(chǎn)品付費意愿沒那么高，但是對于那些工具確實能夠幫他們掙錢的用戶，比如跨境電商、新媒體創(chuàng)作的用戶，付費意愿就比較高，所以我們除了這一類用戶外，也會發(fā)展一些 ToB 的合作。

AIGC

的未來可能性

Founder Park：從商業(yè)化角度考慮，如何提高 AIGC 的良品率？

張濤：兩個層面吧，首先是從模型的底層控制入手，朝著更精準的方向優(yōu)化。底層改造需要投入大量的資源和數(shù)據(jù)資源。

其次是生產(chǎn)層面，對于大模型來說，想進行精準的調(diào)整是有難度的，我覺得可以在運營層面投入更多的資源進行調(diào)整，比如輸入更準確的描述，內(nèi)容把控上更嚴格等。

李京梅：當下其實還沒有放之四海而皆準的解決方案。從技術層面來看，我們更關注垂直場景的落地，這樣對我們來說是比較可控的，在這個場景下進行持續(xù)優(yōu)化，提升良品率。其次是工程層面的優(yōu)化，讓產(chǎn)品的用戶體驗更好。

還有一個最根本的理念，不管是 NLP 還是 AIGC，大多數(shù)場景下應該都是人機互動的方式生成最后的成品，也就是說最終能否產(chǎn)出良品，還是把握在操作者的手中。這是目前以人機交互的形式產(chǎn)出內(nèi)容的客觀局限性。

俞佳：現(xiàn)階段討論建立工業(yè)標準可能有點言之過早，可能文章的完整性、并發(fā)數(shù)、QPS 等這些傳統(tǒng)指標是可以作為監(jiān)測標準的。

我覺得在很長的一段時間內(nèi)，人一定是和 AI 共同完成創(chuàng)作。早期階段人需要做的是不讓 AI 跑偏，隨著 AI 能力的上升，人需要去提供創(chuàng)意，或者按照自己的審美從結果中選擇好的內(nèi)容。不管是短期還是長期，這種交互關系是值得深入去研究的。

張濤：我們現(xiàn)在更多是聚焦，在垂類上更加聚焦，逐步提高產(chǎn)出的細節(jié)、光照等質(zhì)量。

其次是重視用戶反饋，當生成的圖越來越多，用戶的反饋就很重要，可以幫助大模型進一步優(yōu)化，達到更好的狀態(tài)。

Founder Park：3D AI 模型訓練進展比較緩慢，你們?nèi)绾谓鉀Q 3D 模型訓練素材少的問題？

張詩瑩：我們會使用渲染引擎專門生成一些數(shù)據(jù)來做訓練，這些能夠覆蓋到我們聚焦的場景，但是沒辦法泛化到所有場景，而且相對來說獲取成本有些高。未來還是期待會有大廠無私放出一些數(shù)據(jù)幫助大家。

張濤：我覺得進展慢是正常的發(fā)展規(guī)律。14、15 年多模態(tài)發(fā)展起來的時候，很多人去做文本生成和圖片生成，也是積累了很長時間，即便是到了今天的 DALL·E 2，也是經(jīng)歷了一段時間才爆發(fā)?，F(xiàn)在數(shù)據(jù)比較難，將來一定是要依靠某些開源數(shù)據(jù)的大力推進，這一點我是認同詩瑩老師的。

但是即便是這樣，我仍然覺得目前 3D 的進展不慢。回到元宇宙概念爆發(fā)之前，行業(yè)內(nèi)的 3D 資產(chǎn)很多是在游戲行業(yè)，這個賽道是相對更封閉，有固定的盈利模式，人才培養(yǎng)和生態(tài)也是有自己的閉環(huán)，人才很少流入到其他行業(yè)。隨著元宇宙賽道的火熱，以及游戲行業(yè)這兩年受到的牌照、疫情的沖擊等，整個行業(yè)的人才流失到了其他行業(yè)。當這些不同行業(yè)的人才碰撞在一起，開始探討 AIGC 的內(nèi)容突破的時候，我覺得這個賽道才剛剛開始。

現(xiàn)階段大模型很難取得讓人驚訝的成績，因為大家現(xiàn)在習慣影視和游戲高成本制作的 3D 模型，但是一年之后，3D 模型生成的狀態(tài)一定不是今天這種粗糙的狀態(tài)。要知道，三年以前文本和圖像大模型的狀態(tài)也是不可控的。

Founder Park：很多 AIGC 公司都是在開源模型的基礎上進行優(yōu)化和產(chǎn)品開發(fā)，應該如何搭建自己的技術壁壘？

李京梅：瀾舟科技是一直堅定走開源路線，孟子的面向不同場景的 17 個開源模型都可以在開源站上體驗到。對我們來說，首先讓社區(qū)內(nèi)盡可能多的伙伴把東西用起來，收集更多的反饋，然后再找到不同場景里存在的不足，再去優(yōu)化我們的大模型。

作為創(chuàng)業(yè)公司，上游的數(shù)據(jù)采集和硬件顯然不是我們要走的方向，我們走的是更落地的路線，所以要去不斷打磨我們的大模型，以客戶的應用場景為導向，提供輕量化的可快速落地的方案。

人工智能的三要素：算力、算法和數(shù)據(jù)。當大家共創(chuàng)生態(tài)圈的時候，自然是有算力的出算力、有數(shù)據(jù)的出數(shù)據(jù)，我們做模型也是希望能改進算法。大家一起把蛋糕做大，讓更多應用開發(fā)者和廠商能夠有更多想象空間，一起促進產(chǎn)業(yè)生態(tài)發(fā)展。

俞佳：AI 的三要素，算法模型目前有比較好的基礎，而且模型的創(chuàng)新可能要面臨整個開源社區(qū)和學術界的挑戰(zhàn)；算力面臨著大公司的挑戰(zhàn)，在數(shù)據(jù)層面我覺得是可能有自己的護城河的，這也是我們選擇去做 ToC 產(chǎn)品的出發(fā)點。我們能夠直面用戶，切到具體的行業(yè)，獲得非常好的一手數(shù)據(jù)，這是我們的一個優(yōu)勢。

Founder Park：長遠來看，AIGC 還有哪些方向的創(chuàng)新值得關注？

俞佳：在動漫化、元宇宙等強內(nèi)容消費行業(yè)，AIGC 會有非常大的發(fā)展。

張詩瑩：首先是在設計領域會有一個爆發(fā)，比如已經(jīng)出現(xiàn)的 Figma 插件等。然后營銷領域的發(fā)展應該也是比較快的。

而在日常生活中，大部分人都會接觸到設計的需求，比如短視頻、廣告語、產(chǎn)品包裝設計等，這些工作在未來會跟 AIGC 有越來越多的結合，能夠幫助到更多人在線下、線上更好地進行內(nèi)容創(chuàng)造。

張濤：第一，因為 AIGC 能夠更高效地生產(chǎn)內(nèi)容，目前主流的短視頻平臺肯定會大量通過 AIGC 生產(chǎn)內(nèi)容，這是目前比較旺盛的需求。

第二，通過 AIGC 協(xié)助設計師，降低成本、提高生產(chǎn)效率。

第三，游戲領域，更高效地產(chǎn)出 NPC 和提高生產(chǎn)力。

第四，目前的元宇宙和 3D 內(nèi)容生產(chǎn)領域，生產(chǎn)力還是很低下的，大量內(nèi)容生產(chǎn)需要人工去填補，AIGC 在這個領域還是比較有前途的。

李京梅：還是回歸到人類和人工智能的關系上，我覺得人類不要放棄去做有創(chuàng)造力的工作，機器還是要跟人學習的。在未來幾年，人工智能會用在那些幫助人類提升效率的地方，虛一點說，把創(chuàng)造力、創(chuàng)意相關的工作留給人類，人工智能去提升效率。人類和機器能夠更加和諧相處，找到自己的位置，最終還是機器為人類創(chuàng)造價值。

技術最終的價值其實并不是取代人，而是真的去幫助人更好創(chuàng)造價值。