導(dǎo)語(yǔ)
人類(lèi)擅長(zhǎng)分析事物,而機(jī)器在這方面甚至做得就更好了。機(jī)器可以分析一組數(shù)據(jù),并在其中找到許多用例(use case)的模式,無(wú)論是欺詐還是垃圾郵件檢測(cè),預(yù)測(cè)你的發(fā)貨時(shí)間或預(yù)測(cè)該給你看哪個(gè)TikTok視頻,它們?cè)谶@些任務(wù)中變得越來(lái)越聰明。這被稱(chēng)為“分析型AI(Analytical AI)”,或傳統(tǒng)AI。
但是人類(lèi)不僅擅長(zhǎng)分析事物,我們也擅長(zhǎng)創(chuàng)造。我們寫(xiě)詩(shī),設(shè)計(jì)產(chǎn)品,制作游戲,編寫(xiě)代碼。直到最近,機(jī)器還沒(méi)有機(jī)會(huì)在創(chuàng)造性工作上與人類(lèi)競(jìng)爭(zhēng)——它們被降格為只做分析和機(jī)械性的認(rèn)知工作。但最近,機(jī)器開(kāi)始嘗試創(chuàng)造有意義和美麗的東西,這個(gè)新類(lèi)別被稱(chēng)為“生成式AI(Generative AI)”,這意味著機(jī)器正在生成新的東西,而不是分析已經(jīng)存在的東西。
生成式AI正在變得不僅更快、更便宜,而且在某些情況下比人類(lèi)創(chuàng)造的更好。從社交媒體到游戲,從廣告到建筑,從編程到平面設(shè)計(jì),從產(chǎn)品設(shè)計(jì)到法律,從市場(chǎng)營(yíng)銷(xiāo)到銷(xiāo)售,每一個(gè)原來(lái)需要人類(lèi)創(chuàng)作的行業(yè)都等待著被機(jī)器重新創(chuàng)造。某些功能可能完全被生成式AI取代,而其他功能則更有可能在人與機(jī)器之間緊密迭代的創(chuàng)作周期中蓬勃發(fā)展。但生成式AI應(yīng)該在廣泛的終端市場(chǎng)上解鎖更好、更快、更便宜的創(chuàng)作。人們期待的夢(mèng)想是:生成式AI將創(chuàng)造和知識(shí)工作的邊際成本降至零,產(chǎn)生巨大的勞動(dòng)生產(chǎn)率和經(jīng)濟(jì)價(jià)值,以及相應(yīng)的市值。
生成式AI可以處理的領(lǐng)域包括了知識(shí)工作和創(chuàng)造性工作,而這涉及到數(shù)十億的人工勞動(dòng)力。生成式AI可以使這些人工的效率和創(chuàng)造力至少提高10%,它們不僅變得更快和更高效,而且比以前更有能力。因此,生成式AI有潛力產(chǎn)生數(shù)萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。
-01-.為什么是現(xiàn)在?
生成式AI與更廣泛的AI有著相同的“為什么是現(xiàn)在(Why now)”的原因:更好的模型,更多的數(shù)據(jù),更多的算力。這個(gè)類(lèi)別的變化速度比我們所能捕捉到的要快,但我們有必要在大背景下回顧一下最近的歷史。
第1波浪潮:小模型(small models)占主導(dǎo)地位(2015年前),小模型在理解語(yǔ)言方面被認(rèn)為是“最先進(jìn)的”。這些小模型擅長(zhǎng)于分析任務(wù),可以用于從交貨時(shí)間預(yù)測(cè)到欺詐分類(lèi)等工作。但是,對(duì)于通用生成任務(wù),它們的表達(dá)能力不夠。生成人類(lèi)級(jí)別的寫(xiě)作或代碼仍然是一個(gè)白日夢(mèng)。
第2波浪潮:規(guī)模競(jìng)賽(2015年-至今),Google Research的一篇里程碑式的論文(Attention is All You Need https://arxiv.org/abs/1706.03762)描述了一種用于自然語(yǔ)言理解的新的神經(jīng)網(wǎng)絡(luò)架構(gòu),稱(chēng)為transformer,它可以生成高質(zhì)量的語(yǔ)言模型,同時(shí)具有更強(qiáng)的并行性,需要的訓(xùn)練時(shí)間更少。這些模型是簡(jiǎn)單的學(xué)習(xí)者,可以相對(duì)容易地針對(duì)特定領(lǐng)域進(jìn)行定制。
果不其然,隨著模型越來(lái)越大,它們開(kāi)始可以輸出達(dá)到人類(lèi)水平的結(jié)果,然后是超人的結(jié)果。從2015年到2020年,用于訓(xùn)練這些模型的計(jì)算量增加了6個(gè)數(shù)量級(jí),其結(jié)果在書(shū)寫(xiě)、語(yǔ)音、圖像識(shí)別、閱讀和語(yǔ)言理解方面超過(guò)了人類(lèi)的表現(xiàn)水平。OpenAI的GPT-3表現(xiàn)尤其突出:該模型的性能比GPT-2有了巨大的飛躍,并且從代碼生成到笑話(huà)編寫(xiě)的任務(wù)中都提供了出色的Twitter demo來(lái)證明。
盡管所有的基礎(chǔ)研究都取得了進(jìn)展,但這些模型并不普遍。它們龐大且難以運(yùn)行(需要特別的GPU配置),不能被更多人廣泛觸達(dá)使用(不可用或只進(jìn)行封閉測(cè)試),而且作為云服務(wù)使用成本昂貴。盡管存在這些限制,最早的生成式AI應(yīng)用程序也已經(jīng)開(kāi)始進(jìn)入競(jìng)爭(zhēng)。
第3波浪潮:更好、更快和更便宜(2022+),算力變得更便宜,新技術(shù),如擴(kuò)散模型(diffusion models),降低了訓(xùn)練和運(yùn)行所需的成本。研究人員繼續(xù)開(kāi)發(fā)更好的算法和更大的模型。開(kāi)發(fā)人員的訪(fǎng)問(wèn)權(quán)限從封閉測(cè)試擴(kuò)展到開(kāi)放測(cè)試,或者在某些情況下擴(kuò)展到開(kāi)源。
對(duì)于那些渴望接觸LLMs(Large Language Model 大語(yǔ)言模型)的開(kāi)發(fā)人員來(lái)說(shuō),探索和應(yīng)用開(kāi)發(fā)的閘門(mén)現(xiàn)在已經(jīng)打開(kāi),應(yīng)用開(kāi)始大量涌現(xiàn)。
第4波浪潮:殺手級(jí)應(yīng)用出現(xiàn)(現(xiàn)在),隨著平臺(tái)層的穩(wěn)固,模型繼續(xù)變得更好、更快和更便宜,模型的獲取趨于免費(fèi)和開(kāi)源,應(yīng)用層的創(chuàng)造力已經(jīng)成熟。
正如移動(dòng)設(shè)備通過(guò)GPS、攝像頭和網(wǎng)絡(luò)連接等新功能釋放了新類(lèi)型的應(yīng)用程序一樣,我們預(yù)計(jì)這些大型模型將激發(fā)生成式AI應(yīng)用程序的新浪潮。就像十年前移動(dòng)互聯(lián)網(wǎng)的拐點(diǎn)被一些殺手級(jí)應(yīng)用打開(kāi)了市場(chǎng)一樣,我們預(yù)計(jì)生成式AI的殺手級(jí)應(yīng)用程序也會(huì)出現(xiàn),比賽開(kāi)始了。
-02-.市場(chǎng)格局 下面是一個(gè)示意圖,說(shuō)明了為每個(gè)類(lèi)別提供動(dòng)力的平臺(tái)層,以及將在其上構(gòu)建的潛在應(yīng)用程序類(lèi)型。
模型
文本(Text)是最先進(jìn)的領(lǐng)域,然而,自然語(yǔ)言很難被正確使用并且質(zhì)量很重要。如今,這些模型在一般的中短篇形式的寫(xiě)作中相當(dāng)出色(但即便如此,它們通常用于迭代或初稿)。隨著時(shí)間的推移,模型變得越來(lái)越好,我們應(yīng)該期望看到更高質(zhì)量的輸出、更長(zhǎng)形式的內(nèi)容和更好的垂直領(lǐng)域深度。
代碼生成(Code generation)可能會(huì)在短期內(nèi)對(duì)開(kāi)發(fā)人員的生產(chǎn)力產(chǎn)生很大的影響,正如GitHub CoPilot所表現(xiàn)的那樣。此外,代碼生成還將使非開(kāi)發(fā)人員更容易創(chuàng)造性地使用代碼。
圖片(Images)是最近才出現(xiàn)的現(xiàn)象,但它們已經(jīng)像病毒一樣傳播開(kāi)來(lái)。在Twitter上分享生成的圖片比文本有趣得多!我們正在看到具有不同美學(xué)風(fēng)格的圖像模型和用于編輯和修改生成圖像的不同技術(shù)在陸續(xù)出現(xiàn)。
語(yǔ)音合成(Speech synthesis)已經(jīng)出現(xiàn)一段時(shí)間了,但消費(fèi)者和企業(yè)應(yīng)用才剛剛起步。對(duì)于像電影和播客這樣的高端應(yīng)用程序來(lái)說(shuō),聽(tīng)起來(lái)不機(jī)械的,具有人類(lèi)質(zhì)量的語(yǔ)音是相當(dāng)高的門(mén)檻。但就像圖像一樣,今天的模型為進(jìn)一步優(yōu)化或?qū)崿F(xiàn)應(yīng)用的最終輸出提供了一個(gè)起點(diǎn)。
視頻和3D模型則遠(yuǎn)遠(yuǎn)落后,人們對(duì)這些模型的潛力感到興奮,因?yàn)樗鼈兛梢源蜷_(kāi)電影、游戲、虛擬現(xiàn)實(shí)、建筑和實(shí)物產(chǎn)品設(shè)計(jì)等大型創(chuàng)意市場(chǎng)。我們應(yīng)該期待在未來(lái)1-2年內(nèi)看到基礎(chǔ)的3D和視頻模型的出現(xiàn)。
還有很多其他領(lǐng)域,比如從音頻和音樂(lè)到生物和化學(xué)等等,都在進(jìn)行基礎(chǔ)模型的研發(fā)。下面這張圖是基本模型進(jìn)展和相關(guān)應(yīng)用程序成為可能的時(shí)間表,其中2025年及以后的部分只是一個(gè)猜測(cè)。
應(yīng)用程序
文案(Copywriting):越來(lái)越多的人需要個(gè)性化的網(wǎng)頁(yè)和電子郵件內(nèi)容來(lái)推動(dòng)銷(xiāo)售和營(yíng)銷(xiāo)策略以及客戶(hù)支持,這是語(yǔ)言模型的完美應(yīng)用。這些文案往往形式簡(jiǎn)單,并且都有固定的模版,加上這些團(tuán)隊(duì)的時(shí)間和成本壓力,應(yīng)該會(huì)大大推動(dòng)對(duì)自動(dòng)化和增強(qiáng)解決方案的需求。 垂直行業(yè)的寫(xiě)作助手(Vertical specific writing assistants):現(xiàn)在大多數(shù)寫(xiě)作助手都是通用型的,我們相信為特定的終端市場(chǎng)構(gòu)建更好的生成式應(yīng)用程序有著巨大機(jī)會(huì),比如從法律合同編寫(xiě)到劇本編寫(xiě)。這里的產(chǎn)品差異化體現(xiàn)在針對(duì)特定工作流的模型和UX交互的微調(diào)。 代碼生成(Code generation):當(dāng)前的應(yīng)用程序推動(dòng)了開(kāi)發(fā)人員的發(fā)展,使他們的工作效率大大提高。在安裝了Copilot的項(xiàng)目中,它生成了近40%的代碼。但更大的機(jī)會(huì)可能是為C端消費(fèi)者賦能編程開(kāi)發(fā)能力,學(xué)習(xí)提示(learning to prompt)可能會(huì)成為最終的高級(jí)編程語(yǔ)言。 藝術(shù)生成(Art generation):整個(gè)藝術(shù)史和流行文化的世界現(xiàn)在都被編碼進(jìn)了這些大型模型中,這將允許任何人隨意探索在以前可能需要花人一輩子的時(shí)間才能掌握的主題和風(fēng)格。 游戲(Gaming):在這方面的夢(mèng)想是使用自然語(yǔ)言創(chuàng)建復(fù)雜的場(chǎng)景或可操縱的模型,這個(gè)最終狀態(tài)可能還有很長(zhǎng)一段路要走,但在短期內(nèi)有更直接的選擇,如生成紋理和天空盒藝術(shù)(skybox art)。 媒體/廣告(Media/Advertising):想象一下自動(dòng)化代理工作的潛力,為消費(fèi)者實(shí)時(shí)優(yōu)化廣告文案和創(chuàng)意。多模態(tài)生成的絕佳機(jī)會(huì)是將銷(xiāo)售信息與互補(bǔ)的視覺(jué)效果結(jié)合起來(lái)。 設(shè)計(jì)(Design):設(shè)計(jì)數(shù)字和實(shí)物產(chǎn)品的原型是一個(gè)勞動(dòng)密集型的迭代過(guò)程,AI根據(jù)粗略的草圖和提示來(lái)制作高保真的效果圖已經(jīng)成為現(xiàn)實(shí)。隨著3D模型的出現(xiàn),生成設(shè)計(jì)的過(guò)程將從制造和生產(chǎn)延伸到實(shí)物,你的下一個(gè)iPhone APP或運(yùn)動(dòng)鞋可能是由機(jī)器設(shè)計(jì)的。 社交媒體和數(shù)字社區(qū)(Social media and digital communities):是否存在使用生成工具表達(dá)自我的新方式?隨著Midjourney等新應(yīng)用學(xué)會(huì)了像人類(lèi)一樣在社交網(wǎng)絡(luò)上創(chuàng)作,這將創(chuàng)造新的社交體驗(yàn)。
-03-.生成式AI應(yīng)用的解析
生成式AI應(yīng)用程序會(huì)是什么樣子?以下是一些預(yù)測(cè): 智能和模型微調(diào) 生成式AI應(yīng)用是建立在GPT-3或Stable Diffusion等大型模型之上的,隨著這些應(yīng)用獲得更多的用戶(hù)數(shù)據(jù),它們可以對(duì)模型進(jìn)行微調(diào),一方面針對(duì)特定的問(wèn)題空間改進(jìn)模型質(zhì)量和性能,另外一方面減少模型的大小和成本。 我們可以把生成式AI應(yīng)用看作一個(gè)UI層和位于大型通用模型“大大腦(big brain)”之上的“小大腦(little brain)”。 形成的因素 如今,生成式AI應(yīng)用在很大程度上以插件的形式存在于現(xiàn)有的軟件生態(tài)系統(tǒng)中。比如代碼生成在你的IDE中,圖像生成在Figma或Photoshop中,甚至Discord機(jī)器人也是將生成AI放在數(shù)字社交社區(qū)里的工具。 還有少量獨(dú)立的生成式AI Web應(yīng)用,如在文案方面有Jasper和Copy.ai,在視頻剪輯方面有Runway,在做筆記方面有Mem。 插件的形式可能是生成式AI應(yīng)用在早期比較好的切入點(diǎn),它可以克服用戶(hù)數(shù)據(jù)和模型質(zhì)量方面面臨的“先有雞還是先有蛋”的問(wèn)題(這里具體指的是:一方面需要分發(fā)來(lái)獲得足夠多的使用數(shù)據(jù),從而來(lái)改進(jìn)模型,另外一方面又需要好的模型來(lái)吸引用戶(hù))。我們已經(jīng)看到這種策略在其他市場(chǎng)類(lèi)別中取得了成功,如消費(fèi)者和社交市場(chǎng)。 交互范式 如今,大多數(shù)生成式AI演示都是“一次性”的:你提供一個(gè)輸入,機(jī)器吐出一個(gè)輸出,你可以保留它或扔掉它,然后再試一次。未來(lái),模型將會(huì)支持迭代,你可以使用輸出來(lái)修改、調(diào)整、升級(jí)和生成變化。 如今,生成式AI輸出被用作原型或初稿。應(yīng)用程序非常擅長(zhǎng)拋出多個(gè)不同的想法,以使創(chuàng)作過(guò)程繼續(xù)(比如一個(gè)logo或建筑設(shè)計(jì)的不同選項(xiàng)),它們也非常擅長(zhǎng)給出初稿,但需要用戶(hù)最終潤(rùn)色來(lái)定稿(比如博客帖子或代碼自動(dòng)完成)。隨著模型變得越來(lái)越智能,同時(shí)部分借助于用戶(hù)數(shù)據(jù),我們應(yīng)該期待這些草稿會(huì)變得越來(lái)越好,直到它們足夠好,可以用作最終產(chǎn)品。 持續(xù)的行業(yè)領(lǐng)導(dǎo)力 最好的生成式AI公司可以通過(guò)在用戶(hù)粘性、數(shù)據(jù)和模型性能之間形成的飛輪來(lái)產(chǎn)生可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì)。為了取得勝利,團(tuán)隊(duì)必須通過(guò)以下方法來(lái)實(shí)現(xiàn)這個(gè)飛輪: 擁有出色的用戶(hù)粘性→將更多的用戶(hù)粘性轉(zhuǎn)化為更好的模型性能(及時(shí)改進(jìn)、模型微調(diào)、把用戶(hù)選擇作為標(biāo)記訓(xùn)練數(shù)據(jù))→使用出色的模型性能來(lái)推動(dòng)更多的用戶(hù)增長(zhǎng)和留存。 他們可能會(huì)專(zhuān)注于特定的領(lǐng)域(如代碼、設(shè)計(jì)和游戲),而不是試圖解決所有人的問(wèn)題。他們可能首先將深度集成到現(xiàn)有的應(yīng)用程序中,以便在此基礎(chǔ)上利用和分發(fā)自己的程序,然后嘗試用AI原生工作流替換現(xiàn)有的應(yīng)用程序。用正確的方式構(gòu)建這些應(yīng)用來(lái)積累用戶(hù)和數(shù)據(jù)是需要時(shí)間的,但我們相信最好的應(yīng)用將會(huì)是持久的,并有機(jī)會(huì)變得龐大。 -04-.困難和風(fēng)險(xiǎn) 盡管生成式AI具有巨大的潛力,但在商業(yè)模式和技術(shù)方面仍有許多問(wèn)題需要解決。比如版權(quán)、信任、安全和成本等重要問(wèn)題還亟待解決。 -05-.放開(kāi)視野 生成式AI仍然非常早期。平臺(tái)層剛剛有起色,而應(yīng)用層領(lǐng)域才剛剛起步。 需要明確的是,我們不需要利用大型語(yǔ)言模型的生成式AI來(lái)編寫(xiě)托爾斯泰小說(shuō)。這些模型現(xiàn)在已經(jīng)足夠好了,可以用來(lái)寫(xiě)博客文章的初稿,以及生成logo和產(chǎn)品界面的原型,這在中短期內(nèi)將會(huì)創(chuàng)造大量的價(jià)值。 生成式AI應(yīng)用的第一波浪潮類(lèi)似于iPhone剛出現(xiàn)時(shí)的移動(dòng)應(yīng)用場(chǎng)景——有些噱頭但比較單薄,競(jìng)爭(zhēng)差異化和商業(yè)模式不明確。然而,其中一些應(yīng)用程序提供了一個(gè)有趣的視角,讓我們可以一窺未來(lái)可能會(huì)發(fā)生什么。一旦你看到了機(jī)器可以產(chǎn)生復(fù)雜的功能代碼或精彩的圖片,你就很難想象未來(lái)機(jī)器在我們的工作和創(chuàng)造中不再發(fā)揮作用。 如果我們?cè)试S自己夢(mèng)想幾十年后,那么很容易想象一個(gè)未來(lái),生成式AI將深深融入我們的工作、創(chuàng)作和娛樂(lè)方式:備忘錄可以自己寫(xiě),3D打印任何你能想象的東西,從文字到皮克斯電影,像Roblox類(lèi)似的游戲體驗(yàn)來(lái)快速創(chuàng)造出豐富的世界。雖然這些在今天看起來(lái)像是科幻小說(shuō),但科技進(jìn)步的速度是驚人的。從微?。╪arrow)的語(yǔ)言模型到代碼自動(dòng)生成只用了幾年時(shí)間,如果我們繼續(xù)沿著這個(gè)變化的速度,并遵循“大模型摩爾定律(Large Model Moore's Law)”,那么這些遙不可及的場(chǎng)景就會(huì)變得觸手可及。 結(jié)尾 以上就是來(lái)自美國(guó)紅杉最新關(guān)于Generative AI的判斷,讀完之后給人的感覺(jué)是AIGC應(yīng)用的發(fā)展跟之前移動(dòng)互聯(lián)網(wǎng)應(yīng)用的發(fā)展是很相似的,很有可能這將是真正的新一代平臺(tái)級(jí)的機(jī)會(huì)。 另外我最近創(chuàng)建了一個(gè)微信群,會(huì)在里面實(shí)時(shí)分享一些我看到比較有用和有趣的信息,感興趣的朋友可以后臺(tái)回復(fù)關(guān)鍵詞【信息】,掃碼入群,讓我們一起來(lái)探索下一個(gè)范式轉(zhuǎn)移的機(jī)會(huì)。