生成式AI：一個創(chuàng)造性的新世界

來源：深思圈

作者：深思圈

時間：2022-11-16

人類擅長分析事物，而機器在這方面甚至做得就更好了。機器可以分析一組數(shù)據(jù)，并在其中找到許多用例（use case）的模式，無論是欺詐還是垃圾郵件檢測，預(yù)測你的發(fā)貨時間或預(yù)測該給你看哪個TikTok視頻，它們在這些任務(wù)中變得越來越聰明。這被稱為“分析型AI（Analytical AI）”，或傳統(tǒng)AI。

導(dǎo)語

人類擅長分析事物，而機器在這方面甚至做得就更好了。機器可以分析一組數(shù)據(jù)，并在其中找到許多用例（use case）的模式，無論是欺詐還是垃圾郵件檢測，預(yù)測你的發(fā)貨時間或預(yù)測該給你看哪個TikTok視頻，它們在這些任務(wù)中變得越來越聰明。這被稱為“分析型AI（Analytical AI）”，或傳統(tǒng)AI。

但是人類不僅擅長分析事物，我們也擅長創(chuàng)造。我們寫詩，設(shè)計產(chǎn)品，制作游戲，編寫代碼。直到最近，機器還沒有機會在創(chuàng)造性工作上與人類競爭——它們被降格為只做分析和機械性的認(rèn)知工作。但最近，機器開始嘗試創(chuàng)造有意義和美麗的東西，這個新類別被稱為“生成式AI（Generative AI）”，這意味著機器正在生成新的東西，而不是分析已經(jīng)存在的東西。

生成式AI正在變得不僅更快、更便宜，而且在某些情況下比人類創(chuàng)造的更好。從社交媒體到游戲，從廣告到建筑，從編程到平面設(shè)計，從產(chǎn)品設(shè)計到法律，從市場營銷到銷售，每一個原來需要人類創(chuàng)作的行業(yè)都等待著被機器重新創(chuàng)造。某些功能可能完全被生成式AI取代，而其他功能則更有可能在人與機器之間緊密迭代的創(chuàng)作周期中蓬勃發(fā)展。但生成式AI應(yīng)該在廣泛的終端市場上解鎖更好、更快、更便宜的創(chuàng)作。人們期待的夢想是：生成式AI將創(chuàng)造和知識工作的邊際成本降至零，產(chǎn)生巨大的勞動生產(chǎn)率和經(jīng)濟價值，以及相應(yīng)的市值。

生成式AI可以處理的領(lǐng)域包括了知識工作和創(chuàng)造性工作，而這涉及到數(shù)十億的人工勞動力。生成式AI可以使這些人工的效率和創(chuàng)造力至少提高10%，它們不僅變得更快和更高效，而且比以前更有能力。因此，生成式AI有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。

-01-.為什么是現(xiàn)在？

生成式AI與更廣泛的AI有著相同的“為什么是現(xiàn)在（Why now）”的原因：更好的模型，更多的數(shù)據(jù)，更多的算力。這個類別的變化速度比我們所能捕捉到的要快，但我們有必要在大背景下回顧一下最近的歷史。

第1波浪潮：小模型（small models）占主導(dǎo)地位（2015年前），小模型在理解語言方面被認(rèn)為是“最先進(jìn)的”。這些小模型擅長于分析任務(wù)，可以用于從交貨時間預(yù)測到欺詐分類等工作。但是，對于通用生成任務(wù)，它們的表達(dá)能力不夠。生成人類級別的寫作或代碼仍然是一個白日夢。

第2波浪潮：規(guī)模競賽（2015年-至今），Google Research的一篇里程碑式的論文（Attention is All You Need https://arxiv.org/abs/1706.03762）描述了一種用于自然語言理解的新的神經(jīng)網(wǎng)絡(luò)架構(gòu)，稱為transformer，它可以生成高質(zhì)量的語言模型，同時具有更強的并行性，需要的訓(xùn)練時間更少。這些模型是簡單的學(xué)習(xí)者，可以相對容易地針對特定領(lǐng)域進(jìn)行定制。

微信圖片_20221116105155.png

果不其然，隨著模型越來越大，它們開始可以輸出達(dá)到人類水平的結(jié)果，然后是超人的結(jié)果。從2015年到2020年，用于訓(xùn)練這些模型的計算量增加了6個數(shù)量級，其結(jié)果在書寫、語音、圖像識別、閱讀和語言理解方面超過了人類的表現(xiàn)水平。OpenAI的GPT-3表現(xiàn)尤其突出：該模型的性能比GPT-2有了巨大的飛躍，并且從代碼生成到笑話編寫的任務(wù)中都提供了出色的Twitter demo來證明。

盡管所有的基礎(chǔ)研究都取得了進(jìn)展，但這些模型并不普遍。它們龐大且難以運行（需要特別的GPU配置），不能被更多人廣泛觸達(dá)使用（不可用或只進(jìn)行封閉測試），而且作為云服務(wù)使用成本昂貴。盡管存在這些限制，最早的生成式AI應(yīng)用程序也已經(jīng)開始進(jìn)入競爭。

第3波浪潮：更好、更快和更便宜（2022+），算力變得更便宜，新技術(shù)，如擴散模型（diffusion models），降低了訓(xùn)練和運行所需的成本。研究人員繼續(xù)開發(fā)更好的算法和更大的模型。開發(fā)人員的訪問權(quán)限從封閉測試擴展到開放測試，或者在某些情況下擴展到開源。

對于那些渴望接觸LLMs（Large Language Model 大語言模型）的開發(fā)人員來說，探索和應(yīng)用開發(fā)的閘門現(xiàn)在已經(jīng)打開，應(yīng)用開始大量涌現(xiàn)。

微信圖片_20221116105200.png

第4波浪潮：殺手級應(yīng)用出現(xiàn)（現(xiàn)在），隨著平臺層的穩(wěn)固，模型繼續(xù)變得更好、更快和更便宜，模型的獲取趨于免費和開源，應(yīng)用層的創(chuàng)造力已經(jīng)成熟。

正如移動設(shè)備通過GPS、攝像頭和網(wǎng)絡(luò)連接等新功能釋放了新類型的應(yīng)用程序一樣，我們預(yù)計這些大型模型將激發(fā)生成式AI應(yīng)用程序的新浪潮。就像十年前移動互聯(lián)網(wǎng)的拐點被一些殺手級應(yīng)用打開了市場一樣，我們預(yù)計生成式AI的殺手級應(yīng)用程序也會出現(xiàn)，比賽開始了。

-02-.市場格局

下面是一個示意圖，說明了為每個類別提供動力的平臺層，以及將在其上構(gòu)建的潛在應(yīng)用程序類型。

微信圖片_20221116105204.png

模型

文本（Text）是最先進(jìn)的領(lǐng)域，然而，自然語言很難被正確使用并且質(zhì)量很重要。如今，這些模型在一般的中短篇形式的寫作中相當(dāng)出色（但即便如此，它們通常用于迭代或初稿）。隨著時間的推移，模型變得越來越好，我們應(yīng)該期望看到更高質(zhì)量的輸出、更長形式的內(nèi)容和更好的垂直領(lǐng)域深度。

代碼生成（Code generation）可能會在短期內(nèi)對開發(fā)人員的生產(chǎn)力產(chǎn)生很大的影響，正如GitHub CoPilot所表現(xiàn)的那樣。此外，代碼生成還將使非開發(fā)人員更容易創(chuàng)造性地使用代碼。

圖片（Images）是最近才出現(xiàn)的現(xiàn)象，但它們已經(jīng)像病毒一樣傳播開來。在Twitter上分享生成的圖片比文本有趣得多！我們正在看到具有不同美學(xué)風(fēng)格的圖像模型和用于編輯和修改生成圖像的不同技術(shù)在陸續(xù)出現(xiàn)。

語音合成（Speech synthesis）已經(jīng)出現(xiàn)一段時間了，但消費者和企業(yè)應(yīng)用才剛剛起步。對于像電影和播客這樣的高端應(yīng)用程序來說，聽起來不機械的，具有人類質(zhì)量的語音是相當(dāng)高的門檻。但就像圖像一樣，今天的模型為進(jìn)一步優(yōu)化或?qū)崿F(xiàn)應(yīng)用的最終輸出提供了一個起點。

視頻和3D模型則遠(yuǎn)遠(yuǎn)落后，人們對這些模型的潛力感到興奮，因為它們可以打開電影、游戲、虛擬現(xiàn)實、建筑和實物產(chǎn)品設(shè)計等大型創(chuàng)意市場。我們應(yīng)該期待在未來1-2年內(nèi)看到基礎(chǔ)的3D和視頻模型的出現(xiàn)。

還有很多其他領(lǐng)域，比如從音頻和音樂到生物和化學(xué)等等，都在進(jìn)行基礎(chǔ)模型的研發(fā)。下面這張圖是基本模型進(jìn)展和相關(guān)應(yīng)用程序成為可能的時間表，其中2025年及以后的部分只是一個猜測。

微信圖片_20221116105208.png

應(yīng)用程序

以下是一些讓我們感到興奮的應(yīng)用，這僅僅只是一部分，實際上的應(yīng)用要比我們所捕捉到的多得多，我們被創(chuàng)始人和開發(fā)人員所夢想的創(chuàng)造性應(yīng)用程序所吸引。

文案（Copywriting）：越來越多的人需要個性化的網(wǎng)頁和電子郵件內(nèi)容來推動銷售和營銷策略以及客戶支持，這是語言模型的完美應(yīng)用。這些文案往往形式簡單，并且都有固定的模版，加上這些團隊的時間和成本壓力，應(yīng)該會大大推動對自動化和增強解決方案的需求。

垂直行業(yè)的寫作助手（Vertical specific writing assistants）：現(xiàn)在大多數(shù)寫作助手都是通用型的，我們相信為特定的終端市場構(gòu)建更好的生成式應(yīng)用程序有著巨大機會，比如從法律合同編寫到劇本編寫。這里的產(chǎn)品差異化體現(xiàn)在針對特定工作流的模型和UX交互的微調(diào)。

代碼生成（Code generation）：當(dāng)前的應(yīng)用程序推動了開發(fā)人員的發(fā)展，使他們的工作效率大大提高。在安裝了Copilot的項目中，它生成了近40%的代碼。但更大的機會可能是為C端消費者賦能編程開發(fā)能力，學(xué)習(xí)提示（learning to prompt）可能會成為最終的高級編程語言。

藝術(shù)生成（Art generation）：整個藝術(shù)史和流行文化的世界現(xiàn)在都被編碼進(jìn)了這些大型模型中，這將允許任何人隨意探索在以前可能需要花人一輩子的時間才能掌握的主題和風(fēng)格。

游戲（Gaming）：在這方面的夢想是使用自然語言創(chuàng)建復(fù)雜的場景或可操縱的模型，這個最終狀態(tài)可能還有很長一段路要走，但在短期內(nèi)有更直接的選擇，如生成紋理和天空盒藝術(shù)（skybox art）。

媒體/廣告（Media/Advertising）：想象一下自動化代理工作的潛力，為消費者實時優(yōu)化廣告文案和創(chuàng)意。多模態(tài)生成的絕佳機會是將銷售信息與互補的視覺效果結(jié)合起來。

設(shè)計（Design）：設(shè)計數(shù)字和實物產(chǎn)品的原型是一個勞動密集型的迭代過程，AI根據(jù)粗略的草圖和提示來制作高保真的效果圖已經(jīng)成為現(xiàn)實。隨著3D模型的出現(xiàn)，生成設(shè)計的過程將從制造和生產(chǎn)延伸到實物，你的下一個iPhone APP或運動鞋可能是由機器設(shè)計的。

社交媒體和數(shù)字社區(qū)（Social media and digital communities）：是否存在使用生成工具表達(dá)自我的新方式？隨著Midjourney等新應(yīng)用學(xué)會了像人類一樣在社交網(wǎng)絡(luò)上創(chuàng)作，這將創(chuàng)造新的社交體驗。

微信圖片_20221116105213.png

-03-.生成式AI應(yīng)用的解析

生成式AI應(yīng)用程序會是什么樣子？以下是一些預(yù)測：

智能和模型微調(diào)

生成式AI應(yīng)用是建立在GPT-3或Stable Diffusion等大型模型之上的，隨著這些應(yīng)用獲得更多的用戶數(shù)據(jù)，它們可以對模型進(jìn)行微調(diào)，一方面針對特定的問題空間改進(jìn)模型質(zhì)量和性能，另外一方面減少模型的大小和成本。

我們可以把生成式AI應(yīng)用看作一個UI層和位于大型通用模型“大大腦（big brain）”之上的“小大腦（little brain）”。

形成的因素

如今，生成式AI應(yīng)用在很大程度上以插件的形式存在于現(xiàn)有的軟件生態(tài)系統(tǒng)中。比如代碼生成在你的IDE中，圖像生成在Figma或Photoshop中，甚至Discord機器人也是將生成AI放在數(shù)字社交社區(qū)里的工具。

還有少量獨立的生成式AI Web應(yīng)用，如在文案方面有Jasper和Copy.ai，在視頻剪輯方面有Runway，在做筆記方面有Mem。

插件的形式可能是生成式AI應(yīng)用在早期比較好的切入點，它可以克服用戶數(shù)據(jù)和模型質(zhì)量方面面臨的“先有雞還是先有蛋”的問題（這里具體指的是：一方面需要分發(fā)來獲得足夠多的使用數(shù)據(jù)，從而來改進(jìn)模型，另外一方面又需要好的模型來吸引用戶）。我們已經(jīng)看到這種策略在其他市場類別中取得了成功，如消費者和社交市場。

交互范式

如今，大多數(shù)生成式AI演示都是“一次性”的：你提供一個輸入，機器吐出一個輸出，你可以保留它或扔掉它，然后再試一次。未來，模型將會支持迭代，你可以使用輸出來修改、調(diào)整、升級和生成變化。

如今，生成式AI輸出被用作原型或初稿。應(yīng)用程序非常擅長拋出多個不同的想法，以使創(chuàng)作過程繼續(xù)（比如一個logo或建筑設(shè)計的不同選項），它們也非常擅長給出初稿，但需要用戶最終潤色來定稿（比如博客帖子或代碼自動完成）。隨著模型變得越來越智能，同時部分借助于用戶數(shù)據(jù)，我們應(yīng)該期待這些草稿會變得越來越好，直到它們足夠好，可以用作最終產(chǎn)品。

持續(xù)的行業(yè)領(lǐng)導(dǎo)力

最好的生成式AI公司可以通過在用戶粘性、數(shù)據(jù)和模型性能之間形成的飛輪來產(chǎn)生可持續(xù)的競爭優(yōu)勢。為了取得勝利，團隊必須通過以下方法來實現(xiàn)這個飛輪:

擁有出色的用戶粘性→將更多的用戶粘性轉(zhuǎn)化為更好的模型性能（及時改進(jìn)、模型微調(diào)、把用戶選擇作為標(biāo)記訓(xùn)練數(shù)據(jù)）→使用出色的模型性能來推動更多的用戶增長和留存。

他們可能會專注于特定的領(lǐng)域（如代碼、設(shè)計和游戲），而不是試圖解決所有人的問題。他們可能首先將深度集成到現(xiàn)有的應(yīng)用程序中，以便在此基礎(chǔ)上利用和分發(fā)自己的程序，然后嘗試用AI原生工作流替換現(xiàn)有的應(yīng)用程序。用正確的方式構(gòu)建這些應(yīng)用來積累用戶和數(shù)據(jù)是需要時間的，但我們相信最好的應(yīng)用將會是持久的，并有機會變得龐大。

-04-.困難和風(fēng)險

盡管生成式AI具有巨大的潛力，但在商業(yè)模式和技術(shù)方面仍有許多問題需要解決。比如版權(quán)、信任、安全和成本等重要問題還亟待解決。

-05-.放開視野

生成式AI仍然非常早期。平臺層剛剛有起色，而應(yīng)用層領(lǐng)域才剛剛起步。

需要明確的是，我們不需要利用大型語言模型的生成式AI來編寫托爾斯泰小說。這些模型現(xiàn)在已經(jīng)足夠好了，可以用來寫博客文章的初稿，以及生成logo和產(chǎn)品界面的原型，這在中短期內(nèi)將會創(chuàng)造大量的價值。

生成式AI應(yīng)用的第一波浪潮類似于iPhone剛出現(xiàn)時的移動應(yīng)用場景——有些噱頭但比較單薄，競爭差異化和商業(yè)模式不明確。然而，其中一些應(yīng)用程序提供了一個有趣的視角，讓我們可以一窺未來可能會發(fā)生什么。一旦你看到了機器可以產(chǎn)生復(fù)雜的功能代碼或精彩的圖片，你就很難想象未來機器在我們的工作和創(chuàng)造中不再發(fā)揮作用。

如果我們允許自己夢想幾十年后，那么很容易想象一個未來，生成式AI將深深融入我們的工作、創(chuàng)作和娛樂方式：備忘錄可以自己寫，3D打印任何你能想象的東西，從文字到皮克斯電影，像Roblox類似的游戲體驗來快速創(chuàng)造出豐富的世界。雖然這些在今天看起來像是科幻小說，但科技進(jìn)步的速度是驚人的。從微?。╪arrow）的語言模型到代碼自動生成只用了幾年時間，如果我們繼續(xù)沿著這個變化的速度，并遵循“大模型摩爾定律（Large Model Moore's Law）”，那么這些遙不可及的場景就會變得觸手可及。

結(jié)尾

以上就是來自美國紅杉最新關(guān)于Generative AI的判斷，讀完之后給人的感覺是AIGC應(yīng)用的發(fā)展跟之前移動互聯(lián)網(wǎng)應(yīng)用的發(fā)展是很相似的，很有可能這將是真正的新一代平臺級的機會。

另外我最近創(chuàng)建了一個微信群，會在里面實時分享一些我看到比較有用和有趣的信息，感興趣的朋友可以后臺回復(fù)關(guān)鍵詞【信息】，掃碼入群，讓我們一起來探索下一個范式轉(zhuǎn)移的機會。

AI 出海干貨互聯(lián)網(wǎng)

上一篇：微軟推出搭載第四代AMD EPYC的高性能計算用Azure HX與HBv4 VM

原文鏈接：點擊前往 >

版權(quán)說明：本文內(nèi)容來自于深思圈，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章