Google推出圖片生成模型VideoPoet,五大功能產(chǎn)生直式短影音

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-12-27
3103
近來一波波圖片生成模型出現(xiàn),無論是貼近提示要求或在圖片處理細節(jié)上,許多情況下展現(xiàn)出令人驚艷的高品質(zhì)。Google也不甘示弱,日前發(fā)布自主開發(fā)的大型語言模型VideoPoet。

Google-introduces-VideoPoet-1-800x450.jpg

近來一波波圖片生成模型出現(xiàn),無論是貼近提示要求或在圖片處理細節(jié)上,許多情況下展現(xiàn)出令人驚艷的高品質(zhì)。Google也不甘示弱,日前發(fā)布自主開發(fā)的大型語言模型VideoPoet。

為了探索語言模型在圖片生成中的應用,Google引進全新大型語言模型VideoPoet,能夠執(zhí)行包括文本轉(zhuǎn)成視頻、圖片轉(zhuǎn)成視頻、視頻風格轉(zhuǎn)換、視頻修復、視頻生成音頻等五大功能,而且默認產(chǎn)生直式短影音。

比方說,文本提示輸入“兩只熊貓打撲克牌”,VideoPoet產(chǎn)生兩只熊貓坐在桌邊打撲克牌的短片。圖片轉(zhuǎn)成視頻方面,像是上傳一張油畫圖片,畫中一艘駛向大海的船遭遇雷電交加、波濤洶涌,借由VideoPoet可以轉(zhuǎn)變成動圖形態(tài)。VideoPoet也能為視頻產(chǎn)生音頻,例如先以模型產(chǎn)生2秒短片,并嘗試在沒有任何文本提示下配上音頻,于是從單一模型就能產(chǎn)生視頻和音頻。

Google-introduces-VideoPoet-2.jpg

VideoPoet五大功能概述

VideoPoet是訓練一個自回歸語言模型,通過使用多個標記器(用于視頻和圖片的MAGVIT V2,以及用于音頻的SoundStream)學習視頻、圖片、音頻、文本形式,像是通過文本和圖片輸入分解、標記,進而產(chǎn)生復雜的圖片。

Google目標希望VideoPoet能夠“any-to-any”,根據(jù)任何提示任意轉(zhuǎn)換,同時也要擴展至文本轉(zhuǎn)成音頻、音頻轉(zhuǎn)成視頻、產(chǎn)生視頻字幕等功能。

VideoPoet將許多圖片生成功能無縫集成至單一模型,而不是針對不同任務單獨訓練模型,特別在產(chǎn)生有趣視頻和高品質(zhì)動作上,展現(xiàn)出大型語言模型具高度競爭力的圖片生成品質(zhì)。

開發(fā)團隊制作一部由VideoPoet產(chǎn)生不同短影音組合而成的介紹視頻。

(圖片來源:Google Research Blog)

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家