OpenAI「AI 視頻」工具出爐:別爭(zhēng)了,「視頻 GPT」 還是我的!

來源:極客公園
作者:宛辰
時(shí)間:2024-02-17
2249
OpenAI:模型能力再進(jìn)化,AGI 更進(jìn)一步。


2 月 16 日凌晨,OpenAI 在官網(wǎng)博客中介紹了最新的 AI 模型——文生視頻模型 Sora,它可以根據(jù)人們的文本描述生成原始視頻。

在放出的演示視頻中,Sora 可以生成清晰準(zhǔn)確的角色,遠(yuǎn)景、近景交錯(cuò)但主題一致的視頻,并且,已經(jīng)能一次性生成最長(zhǎng) 60s 的視頻??粗@些視頻,AI 根據(jù)劇本自動(dòng)生成好萊塢電影,似乎已經(jīng)向我們走來。

一經(jīng)發(fā)布,社交平臺(tái) X 上,和 AI 以及視頻相關(guān)的創(chuàng)業(yè)者坐不住了。

YouTube 頭部網(wǎng)紅 MrBeast 回應(yīng) Sam Altman 發(fā)布 Sora 模型的推特時(shí),打趣道:Sam,請(qǐng)不要讓我無家可歸。

Runway 聯(lián)合創(chuàng)始人、CEO Cris Valenzuela 發(fā)推稱:比賽開始了

但 OpenAI 沒有拘泥于在花哨的視頻本身中,對(duì)于 Sora 文生視頻,OpenAI 表示:這是通向 AGI 的里程碑事件。

01、60s、語言理解、物理世界交互


據(jù) OpenAI 官網(wǎng),Sora 模型的目標(biāo)是「理解和模擬運(yùn)動(dòng)中的物理世界」。當(dāng)前,它的最大亮點(diǎn)是可以生成長(zhǎng)達(dá) 1 分鐘的視頻,并且,在這 1 分鐘的視頻中,可以保證視覺質(zhì)量,遵守用戶提示詞。舉例來說,Sora 可以生成一系列復(fù)雜場(chǎng)景的視頻,包括多個(gè)角色、特定類型的運(yùn)動(dòng)、以及在特定主題和背景下的精確細(xì)節(jié)等。

Sora 模型根據(jù)提示詞,可以生成如此程度的準(zhǔn)確視頻,意味著它對(duì)語言的理解能力出眾。

它不僅理解用戶在提示詞中想要什么,還理解這些東西應(yīng)該如何在物理世界中存在。相應(yīng)地,Sora 可以基于對(duì)提示詞的理解,精確闡述、演繹提示詞,生成恰當(dāng)?shù)慕巧珌肀磉_(dá)極具張力的情緒。

在一眾的演示視頻中,你會(huì)發(fā)現(xiàn),Sora 還可以在一個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭。不僅如此,即便在近景、遠(yuǎn)景、不同角度的鏡頭下,也能保持角色和視覺風(fēng)格的一致性。

當(dāng)然,OpenAI 也在官網(wǎng)承認(rèn),Sora 還遠(yuǎn)非完美。它可能難以準(zhǔn)確地模擬復(fù)雜場(chǎng)景下的物理世界,也可能無法理解一些場(chǎng)景下的因果關(guān)系,比如,一個(gè)人可能咬了一口餅干,但之后,餅干上可能沒有咬痕。

此外,Sora 還可能混淆提示詞里諸如「左、右」一樣的空間細(xì)節(jié),并且可能難以精確描述隨時(shí)間發(fā)生的事件。

OpenAI 沒有透露 Sora 模型何時(shí)公開,但表示將與有限數(shù)量的外部人士分享。當(dāng)?shù)貢r(shí)間 2 月 15 日一整天,OpenAI CEO Sam Altman 都在他的 X 社交媒體賬戶上發(fā)布 Sora 生成的視頻。他讓粉絲給出提示詞,他發(fā)布該提示詞下 Sora 生成的視頻。

OpenAI 稱,盡早分享研究進(jìn)展是為了與外界展開合作、獲得反饋,也讓公眾了解 AI 的進(jìn)展?!肝覀円沧屢恍┮曈X藝術(shù)家、設(shè)計(jì)師和電影制作人訪問,以獲得推進(jìn)該模型以對(duì)創(chuàng)意專業(yè)人士最有幫助的反饋」。

除此之外,用來評(píng)估 Sora 危害或風(fēng)險(xiǎn)的「紅隊(duì)」(red teamers)可以提前測(cè)試該模型。這里的紅隊(duì)是指,錯(cuò)誤信息、仇恨內(nèi)容和偏見等領(lǐng)域的專家,他們將對(duì)抗性地測(cè)試該模型,從而評(píng)估如何防止 Sora 被濫用來制造錯(cuò)誤信息或其他有害內(nèi)容。

OpenAI 表示,在把 Sora 應(yīng)用于 OpenAI 的產(chǎn)品之前,將采取一些重要的安全措施。

02、「物理世界 GPT」

官方博客中,OpenAI 稱 Sora 的目標(biāo)是「理解和模擬現(xiàn)實(shí)」,這也是是英偉達(dá) Omniverse 多年來押注的未來??吹?Sora 的能力,英偉達(dá)高級(jí)科學(xué)家,AI Agent 負(fù)責(zé)人 Jim Fan 盛贊其強(qiáng)大模型背后的技術(shù)突破。

Jim Fan 在 X 社交媒體發(fā)表上述觀點(diǎn)|來源:twitter.com

他稱,「如果你認(rèn)為 OpenAI Sora 是一個(gè)像 DALLE 一樣的創(chuàng)意玩具……再想想。Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,是對(duì)現(xiàn)實(shí)或幻想世界的模擬。這一模擬器通過去噪和梯度數(shù)學(xué),來學(xué)習(xí)復(fù)雜渲染、『直覺』物理(「intuitive」physics)、長(zhǎng)視野推理(long-horizon reasoning)和語義基礎(chǔ)。」

在其背后的技術(shù)實(shí)現(xiàn)上,Jim Fan 認(rèn)為,Sora 一定使用了 Unreal Engine 5 生成的大量合成數(shù)據(jù)來訓(xùn)練。

在技術(shù)聲明中,OpenAI 尚未介紹 Sora 模型的訓(xùn)練數(shù)據(jù)等細(xì)節(jié),稱將在 2 月 16 日晚些時(shí)候,發(fā)布技術(shù)論文。

在已公布的信息中,Sora 是一個(gè)擴(kuò)散模型,從一個(gè)看起來像靜態(tài)噪聲的視頻開始,通過許多步驟去除噪聲來逐漸形成最終視頻。并且,Sora 能夠一次性生成整個(gè)視頻,或者擴(kuò)展已生成的視頻使其更長(zhǎng)。

OpenAI 稱,通過賦予模型一次預(yù)測(cè)許多幀的能力,解決了一個(gè)具有挑戰(zhàn)性的問題,即確保一個(gè)主題即使暫時(shí)消失在視野之外也保持不變。

與 GPT 模型類似,Sora 使用 Transformer 架構(gòu),具備卓越的縮放性能。

對(duì)于 Sora 模型的重要意義,OpenAI 在官方博客結(jié)尾指出,「Sora 作為能夠理解和模擬現(xiàn)實(shí)世界的模型基礎(chǔ),我們相信這一能力將是實(shí)現(xiàn) AGI 的重要里程碑。」

顯然,OpenAI 的目標(biāo)依舊是 AGI 的實(shí)現(xiàn),在這個(gè)恢弘的目標(biāo)下,其在集結(jié)資源和自身能力上的領(lǐng)先優(yōu)勢(shì),又一次體現(xiàn)出超越一般創(chuàng)業(yè)公司的綜合實(shí)力。

此前,Pika 聯(lián)合創(chuàng)始人 Demi Guo 在接受極客公園的采訪時(shí)表示,在文生視頻賽道,相比基于現(xiàn)有模型能力做功能優(yōu)化、打補(bǔ)丁,模型能力本身才是決定文生視頻產(chǎn)品成敗最關(guān)鍵的因素。

一經(jīng)發(fā)布,OpenAI 的 Sora 模型再次刷新 AI 文生視頻的超能力,顯然對(duì)這個(gè)賽道那些已經(jīng)發(fā)布產(chǎn)品的初創(chuàng)公司形成了巨大壓力:Runway、Synthesia、Pika、Rephrase.ai……

就像 Runway 聯(lián)合創(chuàng)始人、CEO Cristóbal Valenzuela 在幾個(gè)小時(shí)前說的那樣:比賽開始了。

其實(shí),這句看起來「不服輸」的話,并不準(zhǔn)確。Sora 的出現(xiàn),讓「視頻生成賽道」基于上一代模型技術(shù)的產(chǎn)品比賽,已經(jīng)結(jié)束了?,F(xiàn)在開始的,將是一場(chǎng)全新的技術(shù)比賽,而不只是產(chǎn)品的比拼。

立即登錄,閱讀全文
AI
原文鏈接:點(diǎn)擊前往 >
版權(quán)說明:本文內(nèi)容來自于極客公園,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家