淺談一些AIGC賺錢賽道

來源:元創(chuàng)悅聽
作者:龔俊民
時間:2022-11-14
1765
緣起于近兩年看到 DELL E 到 Stable Diffusion 多模態(tài)文本可控圖像生成的大火,讓AIGC概念漲了一大波流量。百度等一些頭部大廠,以及關(guān)注元宇宙、web3.0領(lǐng)域的很多媒體和公司,都蹭上了這波熱點瘋狂宣傳。

前段時間,做過一期關(guān)于AIGC的分享。

緣起于近兩年看到 DELL E 到 Stable Diffusion 多模態(tài)文本可控圖像生成的大火,讓AIGC概念漲了一大波流量。百度等一些頭部大廠,以及關(guān)注元宇宙、web3.0領(lǐng)域的很多媒體和公司,都蹭上了這波熱點瘋狂宣傳。

似乎有種,辭舊迎新,新時代到來的趕腳,世界仿佛一夜之間,就要發(fā)生翻天覆地的變革。AI生成的炫酷圖像,遍布各個媒體在聊,公眾號,頭條,視頻號,抖音,B站,小紅書。有的創(chuàng)投機(jī)構(gòu)迅速做出行業(yè)研報,組建AIGC論壇,有的UP主,就光發(fā)自己用AI作圖的過程,粉絲三連就蹭蹭上漲。

作為一位關(guān)注AIGC領(lǐng)域五年的技術(shù)從業(yè)者、創(chuàng)業(yè)家,這件事我有不同的看法(也想蹭個熱度)。




結(jié)論


先說結(jié)論:

  1. AIGC是歷史的必然節(jié)點

  2. AIGC的爆火來源于我們過去對「從量變到質(zhì)變」發(fā)展的AI技術(shù)的預(yù)期低估,但現(xiàn)在我們對它的商業(yè)化可能性卻過于高估。

  3. 技術(shù)發(fā)展的階段可以縮短,但不可跨越。最終它還是要走「回到量變積累下一個質(zhì)變」的周期。投資人和創(chuàng)業(yè)者都需要十足的耐心。

下面是我上次分享的大綱

微信圖片_20221114132730.png

結(jié)論一:為什么AIGC是歷史的必然節(jié)點

微信圖片_20221114132735.png


每個時代有每個時代的主題,我們可以簡單回顧一下工業(yè)革命發(fā)展的歷程:

  1. 蒸汽機(jī)促進(jìn)了機(jī)械化生產(chǎn),掀起了第一次工業(yè)革命。(1780~1870 持續(xù)約90年)

  1. 電力應(yīng)用勞動分工和批量生產(chǎn)的實現(xiàn),拉開了第二次工業(yè)革命的大幕。(1870-1970 持續(xù)約100年)

  1. 微電子實現(xiàn)了自動化的IT系統(tǒng)、信息物理系統(tǒng)開創(chuàng)了第三次工業(yè)革命。(1970 - 至今)

有人說我們當(dāng)今屬于第四次工業(yè)革命開端,當(dāng)前智能化解決的核心問題也還是降本增效,自動化。

微信圖片_20221114132739.png

信息化是當(dāng)前時代的挑戰(zhàn),怎么讓信息流更高效地在節(jié)點之間傳播是核心要解決的問題。信息差的不對稱帶來了人與人認(rèn)知上的差異,也孕育出了更多的商業(yè)機(jī)會。結(jié)果就是催生出了很多以信息流為生的新興產(chǎn)業(yè)。粗粒度看,從感官象限去分,從視覺的圖像,到聽到的聲音,到語言的理解,在最近10年內(nèi)極速擴(kuò)張。一方面,依賴于IT通信這些基礎(chǔ)設(shè)施的完善,另一方面,也依賴于搜索推薦這樣的智能信息分發(fā)平臺的精準(zhǔn)推送。

微信圖片_20221114132745.png

進(jìn)一步說,從最早的內(nèi)容生產(chǎn)方式來說,整體趨勢在向「更多樣的內(nèi)容」,「更高效的生產(chǎn)和傳播」發(fā)展。多樣意味著,不再是只有權(quán)威機(jī)構(gòu)才有發(fā)聲話語權(quán),普通人,創(chuàng)作者也可以生產(chǎn)出有意思的內(nèi)容。內(nèi)容不限于傳統(tǒng)的媒體,它變得更廣域化,碎片化,生活化。載體也從聲音圖像文本,到視頻,甚至3D影像。而高效意味著信息被更精準(zhǔn)地推送給那些對內(nèi)容感興趣的人消費。于是就有了搜索推薦廣告智能化技術(shù)的發(fā)展。

微信圖片_20221114132749.png

于是,從「信息化」這一主題去推理,我們可以得出結(jié)論。AIGC一定是歷史的必然節(jié)點。因為它提升了信息生產(chǎn)的效率,讓內(nèi)容的創(chuàng)作變得簡單和無門檻。而隨著算法技術(shù)和芯片算力發(fā)展,它的成本會不斷降得越來越低。就好比以前的電信小靈通短信,一毛錢一條。到現(xiàn)在發(fā)微信幾乎不用錢。我們也可以類比做個想象,現(xiàn)在我們創(chuàng)作寫文章,做音樂,畫畫需要很多時間:市場需求的調(diào)研,工具的學(xué)習(xí)上手使用,事后的調(diào)整編輯等。時間和精力是最大的成本。而AI輔助創(chuàng)作會讓創(chuàng)意變得廉價。因為從創(chuàng)意到原型的實現(xiàn)變得簡單了。

然而,商業(yè)機(jī)會并不在技術(shù)本身,而在于依托于技術(shù)基礎(chǔ)之上的人、社會、生態(tài)和模式。技術(shù)起到的是一個將紅利自動化、規(guī)模化的杠桿作用。你用微信發(fā)信息并不是因為它免費,而是因為你周邊的好友都在使用它,你需要與他們聯(lián)系不得不用到它。再比如,你會上淘寶買東西并不完全是因為它便宜,而是因為它能節(jié)省你自己去店里外面找東西的搜索成本。

這是因為和技術(shù)性能掛鉤的可以比價。但與人社群體驗服務(wù)掛鉤的卻難比價。比如說,同樣是語音合成服務(wù),A公司賣60塊每小時,B公司賣50塊每小時。想使用該服務(wù)稍微有點調(diào)研能力的人就會了解到,兩家公司效果差不多,應(yīng)該選更便宜的B公司。因為市面上訓(xùn)練的數(shù)據(jù)差不多,算法沒多大差別,最后拼都是數(shù)據(jù)。然而,現(xiàn)在C公司做了這樣一件事,它讓語音合成服務(wù)幾乎免費,但為定制化聲音服務(wù)收費。比如說,你是一個自媒體人,有大量的錄稿需求,現(xiàn)在我們可以定制化你的聲音,讓你只輸入文字,就可以讓AI念稿。因為定制化聲音,它是專屬于你的。因你所在行業(yè),收入水平,需求程度而變化。它是一個帶主觀色彩的事情,就很難定價。因此當(dāng)你把聲音定制和合成時長打包賣時,就有更大的溢價空間。

那些潛藏在普通人共識之外,但又在大眾需求情理之中的信息差才是機(jī)會點、盈利點。



結(jié)論二:過去太低估,未來卻高估


回顧歷史你就會知道,技術(shù)一直都是指數(shù)級復(fù)利發(fā)展的。

但我們對新事物的預(yù)期會遵循一個技術(shù)成熟曲線。要不是期盼它更早到來,過于樂觀,要不就是認(rèn)為它到來還要很久,過于悲觀。這是因為,我們身為人這一生物屬性,需要適應(yīng)環(huán)境,天生喜新厭舊。從后往前看,你就會發(fā)現(xiàn)這個規(guī)律。現(xiàn)在的最新出的蘋果 iphone 14 pro手機(jī),對于5-10年前的你,你會覺得這是魔法,這是科技的奇跡。對于3-5年前,你會極度渴望想要體驗。但現(xiàn)在你會大罵蘋果越來越?jīng)]有創(chuàng)新。而這樣的感受,和10年前你拿著裝載著塞班系統(tǒng)的諾基亞手機(jī)一樣體驗過。人對數(shù)碼產(chǎn)品的反應(yīng),和對新興技術(shù)的感知共用同一套神經(jīng)系統(tǒng)。

微信圖片_20221114132758.png

早在1950年前,圖靈剛提出AI概念起,到馮諾依曼第一代計算機(jī)架構(gòu)被發(fā)明出來,到現(xiàn)今,人工智能技術(shù)一直是指數(shù)級增長的。而期間歷經(jīng)的資本寒冬,它幾經(jīng)波折,起起伏伏,最終走出了現(xiàn)今的模樣。人們對它的展望,設(shè)想,需求和預(yù)期卻一直在變化。好奇它指向更多的可能性。

我們來回顧一下2017年,現(xiàn)有技術(shù),早在5年前,就已經(jīng)初具雛形。AI畫畫,自動生成唇形視頻,圖像高清化,圖像編輯,圖像風(fēng)格遷移,wavnet語音合成等。

微信圖片_20221114132809.png

到了2018年,為降低標(biāo)注成本,陸續(xù)出現(xiàn)了以預(yù)訓(xùn)練語言模型為主導(dǎo)模型。先前是圖像領(lǐng)域的遷移學(xué)習(xí)大火,接著bert在自然語言處理領(lǐng)域出圈火遍全球研究界,到現(xiàn)今去噪自編碼器成為了一種標(biāo)準(zhǔn)的預(yù)訓(xùn)練范式。這一年,神經(jīng)翻譯機(jī),圖像分割,視覺推理,高清人臉的生成也得到了進(jìn)一步發(fā)展。

微信圖片_20221114132815.png

2018年的預(yù)訓(xùn)練模型大火,讓AI可以使用更多的無標(biāo)注數(shù)據(jù)訓(xùn)練更好的模型。這也激發(fā)了多模態(tài)多任務(wù)終身學(xué)習(xí)/元學(xué)習(xí)的研究領(lǐng)域興起。而海量訓(xùn)練數(shù)據(jù)中混雜著用戶隱私問題,被加強(qiáng)了監(jiān)管,進(jìn)而促進(jìn)了支持?jǐn)?shù)據(jù)保護(hù)的聯(lián)邦學(xué)習(xí)的解決方案。

微信圖片_20221114132819.png

不到3年時間,自監(jiān)督學(xué)習(xí)成為了業(yè)界的主流,機(jī)器視覺和語音領(lǐng)域開始向NLP靠齊。模型變得越來越大。其中里程碑事件便是openai發(fā)布了 175 Billion參數(shù)的GPT3。與此同時,低資源,知識增強(qiáng),跨語言,跨模態(tài),進(jìn)一步得到了發(fā)展。因為它們的進(jìn)展將拓寬人們更大的想象空間。

微信圖片_20221114132823.png

到2020年,以GAN為主導(dǎo)的深度生成模型漸漸成熟。其難訓(xùn)練,易崩塌的缺陷也隨著后來研究者一步步填補(bǔ)上坑。海量的應(yīng)用得到產(chǎn)品化,最典型的就是圖像的可控編輯,換臉換風(fēng)景換裝,變動圖這些全都不在話下。但這些大開眼界的純技術(shù)產(chǎn)品并沒有支持一家足夠大的商業(yè)公司崛起。理由很簡單。技術(shù)不是商業(yè)模式。與此同時,基于流和基于擴(kuò)散的另一波深度生成模型的在這時開始初見萌芽。短短一年后就成為全球吸睛最亮的崽。

微信圖片_20221114132832.png

2021年,AI最顯著的進(jìn)化里程碑是MAE,視覺終于可以用NLP自然語言同樣的架構(gòu)訓(xùn)練預(yù)訓(xùn)練模型,再加上多模態(tài)多任務(wù)最近2年的發(fā)展,催漲了文本圖像對齊的研究高潮。文本細(xì)粒度可控生成圖像有了重要進(jìn)展。而怎樣挖掘大模型的零樣本/少樣本能力,也催生出了模板工程這一新的細(xì)分領(lǐng)域。

微信圖片_20221114132837.png

簡單總結(jié)一下這五年的趨勢:

  1. 模型需要越來越少的人類世界知識干預(yù)

    1. 更少的人工標(biāo)注數(shù)據(jù)

    2. 更少的任務(wù)、模態(tài)領(lǐng)域知識依賴

  1. 性能越來越好,從感知到認(rèn)知的發(fā)展

  1. 模型和參數(shù)越來越大,預(yù)訓(xùn)練成本越來越高

  2. 呈現(xiàn)出多模態(tài),多任務(wù)大統(tǒng)一收斂的趨勢

  3. 技術(shù)上持續(xù)突破,產(chǎn)品創(chuàng)新和商業(yè)模式創(chuàng)新還未跟上

微信圖片_20221114132842.png

2022年今年,最近一年,究竟發(fā)生了什么。首先是擴(kuò)散生成模型,它在數(shù)學(xué)上更直觀優(yōu)美,比GAN更好訓(xùn)練,生成多樣性上有更大的潛力和展望空間。因此被廣泛使用,大量涌現(xiàn)

微信圖片_20221114132846.png

而大模型的訓(xùn)練發(fā)布,相比于過去每一年都來得更頻繁,更具顛覆性。從最近半年來看,超出了過去一年的進(jìn)展。

微信圖片_20221114132851.png

其中最顯著的是文本生成圖像模型。它成為當(dāng)今媒體熱議的點。得益于clip訓(xùn)練的圖像文本對齊模型,AI可以很輕松地捕獲語義中的物品描述風(fēng)格空間和顏色信息,進(jìn)行內(nèi)容的生成創(chuàng)作。

微信圖片_20221114132856.png

緊接著是deepmind發(fā)布的通用型人工智能Goto,它驗證了,AI可以在完全不同的領(lǐng)域的數(shù)據(jù),在同一個神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,同一套參數(shù),各自的任務(wù)都能有很好的表現(xiàn)。這也是多模態(tài)收斂的重要里程碑。

微信圖片_20221114132903.png

微信圖片_20221114132909.png

把AIGC創(chuàng)作最終推向平民化的是stability.ai推出的stable diffusion。打著AI by the people, for the people的slogen,開源免費了比openai更好的 DALL·E 2。每個人都可以在自己帶GPU的個人電腦上跑動它。打破了人們對遙不可及的大模型的刻板印象。

微信圖片_20221114132914.png

提兩個商業(yè)化落地的場景

AI作畫對藝術(shù)界產(chǎn)生了巨大沖擊,也催生出了AI輔助創(chuàng)作這一新興領(lǐng)域的發(fā)展。最典型的例子是工業(yè)設(shè)計。現(xiàn)在你可以把任意元素和鞋子混合,激發(fā)你新的設(shè)計靈感。

微信圖片_20221114132919.png

另一個場景是AI的動捕。你可以實時地通過圖像動捕自己的表情動作去操縱任意人物(這對直播視頻會議,元宇宙場景極其有用)。但技術(shù)本身還是作為提升效率帶來便利的工具。它可以吸引你過來體驗,賺點買賣。但它單獨的售賣會陷入之前提到的比價困境。就好比stable diffusion 之于 DALL·E 2。只要有人把你的技術(shù)免費開源出來,你的買賣就一文不值。技術(shù)專利的門檻只有在高精尖行業(yè)(比如醫(yī)藥、芯片)才比較彰顯它核心價值。在產(chǎn)品應(yīng)用層面,它難做大。

因此在AIGC技術(shù)熱潮興起的今天,我們尤其要保持冷靜和清醒。我們需要提前思考好,我是想做賣短信的生意,還是想做免費的微信。

微信圖片_20221114132925.png


結(jié)論三:十足的耐心

微信圖片_20221114132930.png

AIGC 對于我們是什么,以及未來會變成什么?

AI對數(shù)字化進(jìn)程的貢獻(xiàn)可以總結(jié)為三大能力:

  1. 孿生能力。將現(xiàn)實物理世界中數(shù)字世界復(fù)刻一遍

    1. 照相機(jī),留聲機(jī),錄影機(jī),打字機(jī),midi電子琴

    2. 數(shù)碼相機(jī),錄音機(jī),PC word打字,midi虛擬樂器

    3. 手機(jī)(包含照相錄像,錄音,打字,社交,付款,等近乎一切功能)

    4. 虛擬數(shù)字人→基于你錄像和語音,生成你沒說過的內(nèi)容和畫面,語義理解,ASR轉(zhuǎn)錄等

  1. 編輯能力。將數(shù)字世界的化身數(shù)據(jù)進(jìn)行修改編輯

    1. 音視頻的剪輯,圖像的美化,DAW 宿主軟件對音樂的編輯

    2. 圖像風(fēng)格遷移,AI圖像編輯

    3. 個性化可控定制

  1. 創(chuàng)作能力

    1. 模仿學(xué)習(xí),自動作畫,AI文案,AI編曲,AI作曲,自動音樂的生成

最近幾周,我下載了近200個app,體驗總結(jié)出了一些商業(yè)化場景。更詳細(xì)的調(diào)研和總結(jié)會另開一期細(xì)講。

微信圖片_20221114132941.png

你會看到,他們其中賺錢盈利的,幾乎沒有一個是純賣技術(shù)起家的。更多的是生態(tài)運(yùn)營,面向切實的用戶需求,解決實際問題的產(chǎn)品。以新奇體驗為主的應(yīng)用可能爆款(概率也不高),但較難留住用戶。

微信圖片_20221114132946.png

關(guān)于未來的變化,AIGC會存在很長一段時間的基于prompt的新的輔助創(chuàng)作模式,和新的收益模式。比如賣算力,社區(qū)交易,賣創(chuàng)意靈感。對模型期望變得更小,性能更好,效果更逼真、自然、貼近人的理解,更有沉浸感。AI慢慢可以生成更復(fù)雜的3D場景,動作序列和故事腳本。多模態(tài)之間的語義聯(lián)系會對齊得更好,更加可控。

參考了量子位發(fā)布的《AIGC深度產(chǎn)業(yè)報告》,比較有前景的方向是,現(xiàn)有需求成熟度高,但技術(shù)成熟度還差1-2年的領(lǐng)域。我國目前還未真正進(jìn)入AIGC階段。即便細(xì)分賽道出現(xiàn)一些個別優(yōu)秀的公司和研究機(jī)構(gòu),但還未進(jìn)入大規(guī)模驗證和體系化發(fā)展的階段。場景上,內(nèi)容領(lǐng)域的需求也較為飽和,降本增效不迫切。細(xì)分看,虛擬人是產(chǎn)業(yè)的中短期增長動力,玩家需要容錯率高專業(yè)度和創(chuàng)意要求有限的場景。長期去看,AIGC還缺乏更加清晰和明確消費落地的場景,比如實時互動和高度個性化生成。


結(jié)尾

技術(shù)還未成熟的時候,創(chuàng)始人會告訴消費者和投資人,我們需要耐心,等技術(shù)做成熟。比如VR/AR領(lǐng)域的發(fā)展就是這樣。創(chuàng)始人說的對,但實際人們對它的預(yù)期和反應(yīng)都是反過來——毫無耐心可言。因為市場就是急功近利的。

歷史的經(jīng)驗告訴我們,越是3-5年內(nèi)沒成熟的技術(shù),我們就越應(yīng)該不報期望,加大投入搶占賽道。為了避免我們未來感到失望,而對它視而不見,是遵循了技術(shù)成熟曲線,但忽略了技術(shù)一直在進(jìn)步的事實。而等到它成熟了,再興起的那一波熱潮,大概率是泡沫、一地雞毛。

我們大部分人其實都無法賺認(rèn)知以外的錢。為什么?因為頭雁只有一只。等到一個技術(shù)的興起,再入場,大概率就是晚了。不等你時間反應(yīng),很快會有人把可能的商業(yè)機(jī)會測試跑通。跑通了,你處于競爭劣勢,沒跑通,大概率你也不行。而你又是急功近利而選擇進(jìn)場的,你又沒有耐心。

因此,越是資本新概念興起的時候,我們越需要警惕和保持耐心,做好量變的執(zhí)行準(zhǔn)備,為下一次質(zhì)變做準(zhǔn)備。畢竟想象力等同新的可能性,不等同于真實的需求。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:元創(chuàng)悅聽
版權(quán)說明:本文內(nèi)容來自于元創(chuàng)悅聽,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多