在西寧做網(wǎng)站可以嗎目前小說網(wǎng)站排名
原文:Video generation models as world simulators
我們致力于在視頻數(shù)據(jù)上開展生成模型的大規(guī)模訓(xùn)練。具體來說,我們針對不同時長、分辨率和寬高比的視頻及圖像,聯(lián)合訓(xùn)練了基于文本條件的擴(kuò)散模型。我們采用了一種 Transformer 架構(gòu),這種架構(gòu)能夠處理視頻和圖像潛在編碼的時空片段。我們的最大型號模型,Sora,能生成高質(zhì)量的一分鐘視頻。我們的研究顯示,擴(kuò)展視頻生成模型的規(guī)模是向著創(chuàng)建能夠模擬物理世界的通用工具邁出的有前途的一步。
本技術(shù)報告主要介紹了兩方面內(nèi)容:(1) 我們?nèi)绾螌⒏鞣N類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,從而實(shí)現(xiàn)生成模型的大規(guī)模訓(xùn)練;(2) 對 Sora 模型能力和局限性的定性評價。報告中沒有包含模型和實(shí)施的詳細(xì)信息。
之前的很多研究都探討過利用各種方法對視頻數(shù)據(jù)進(jìn)行生成模型的建模,包括循環(huán)網(wǎng)絡(luò)?1,2,3,生成對抗網(wǎng)絡(luò)?4,5,6,7,自回歸 Transformer?8,9?以及擴(kuò)散模型?10,11,12。這些研究通常關(guān)注于特定類別的視覺數(shù)據(jù),較短的視頻,或是固定尺寸的視頻。Sora 是一種對視覺數(shù)據(jù)進(jìn)行廣義建模的模型,它能夠生成各種時長、寬高比和分辨率的視頻和圖像,最長可達(dá)一分鐘的高清視頻。
視覺數(shù)據(jù)的創(chuàng)新轉(zhuǎn)化:補(bǔ)片技術(shù)
受到大語言模型(LLM)在處理互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)、培養(yǎng)全能技能方面成功經(jīng)驗(yàn)的啟發(fā),13,14?我們探索了如何將類似的優(yōu)勢應(yīng)用于視覺數(shù)據(jù)的生成模型。大語言模型通過使用 tokens —— 一種統(tǒng)一處理代碼、數(shù)學(xué)及多種自然語言的高效方式 —— 實(shí)現(xiàn)了模態(tài)間的無縫轉(zhuǎn)換。在本研究中,我們引入了視覺領(lǐng)域的對應(yīng)物:視覺補(bǔ)片(patches)。研究表明,補(bǔ)片是一種高效的視覺數(shù)據(jù)表現(xiàn)形式,15,16,17,18?它們能極大地提升生成模型處理多樣化視頻和圖像數(shù)據(jù)的能力。
圖 1: 補(bǔ)片示意圖
具體來說,我們通過先將視頻數(shù)據(jù)壓縮到低維度潛在空間,19?再將其分解成時空補(bǔ)片,從而實(shí)現(xiàn)視頻到補(bǔ)片的轉(zhuǎn)化。
視頻壓縮網(wǎng)絡(luò)
我們開發(fā)了一種降維技術(shù),20?該技術(shù)能夠處理原始視頻數(shù)據(jù),并生成在時間和空間上都進(jìn)行了壓縮的潛在表征。Sora 在這種壓縮的潛在空間中接受訓(xùn)練,并能夠生成新的視頻內(nèi)容。此外,我們還開發(fā)了一個解碼器,能夠?qū)⑦@些潛在表征還原為像素級的視頻圖像。
時空補(bǔ)片技術(shù)
通過對壓縮后的視頻輸入進(jìn)行處理,我們能夠提取出一系列的時空補(bǔ)片,這些補(bǔ)片在模型中扮演著類似于 Transformer Tokens 的角色。值得一提的是,這套方案同樣適用于圖像處理,因?yàn)閺谋举|(zhì)上來說,圖像可以被視為單幀的視頻。采用基于補(bǔ)片的表現(xiàn)形式,Sora 能夠適應(yīng)不同分辨率、持續(xù)時間及寬高比的視頻和圖像。在生成新視頻內(nèi)容時,我們可以通過將這些隨機(jī)初始化的補(bǔ)片按照需要的大小排列成網(wǎng)格,來控制最終視頻的大小和形式。
視頻生成的 Transformer 擴(kuò)展技術(shù)
Sora 是一種擴(kuò)散模型21,22,23,24,25;它能夠接受帶有噪聲的圖像塊(及條件信息如文本提示)作為輸入,并被訓(xùn)練以預(yù)測出原始的“清晰”圖像塊。值得注意的是,Sora 屬于擴(kuò)散型 Transformer26。Transformer 技術(shù)在多個領(lǐng)域,包括語言建模13,14、計算機(jī)視覺15,16,17,18以及圖像生成27,28,29中都展現(xiàn)出了卓越的擴(kuò)展能力。
圖 Diffusion
本研究發(fā)現(xiàn),擴(kuò)散型 Transformer 同樣能在視頻模型領(lǐng)域高效擴(kuò)展。下文中,我們通過對比訓(xùn)練過程中固定種子和輸入條件下的視頻樣本,展示了訓(xùn)練資源增加帶來的樣本質(zhì)量顯著提升。
基礎(chǔ)計算
4 倍計算
16 倍計算
視頻的多樣化持續(xù)時間、分辨率和寬高比
傳統(tǒng)的圖像和視頻生成方法通常會將視頻調(diào)整至標(biāo)準(zhǔn)尺寸,例如 4 秒長的視頻以 256x256 的分辨率進(jìn)行處理。我們發(fā)現(xiàn),直接在視頻的原始尺寸上進(jìn)行訓(xùn)練能帶來多重好處。
靈活的采樣能力
Sora 能夠生成各種尺寸的視頻,包括寬屏的 1920x1080p、豎屏的 1080x1920 以及介于兩者之間的任何格式。這使得 Sora 能夠直接為不同設(shè)備制作符合其原生寬高比的內(nèi)容。此外,它還允許我們在生成全分辨率內(nèi)容之前,快速地以較低尺寸原型化內(nèi)容,所有這些都能通過同一模型實(shí)現(xiàn)。
構(gòu)圖與布局的優(yōu)化
我們的實(shí)驗(yàn)表明,在視頻的原生寬高比上進(jìn)行訓(xùn)練,能夠顯著提升視頻的構(gòu)圖與布局質(zhì)量。我們將 Sora 與另一個訓(xùn)練模型進(jìn)行了對比,后者將所有訓(xùn)練視頻裁剪為正方形,這是訓(xùn)練生成模型時的常規(guī)做法。與被裁剪成正方形的模型(左側(cè))相比,Sora 生成的視頻(右側(cè))展現(xiàn)了更佳的構(gòu)圖效果,有時候裁剪成正方形的模型生成的視頻中主題只能部分展示。而 Sora 則能夠更好地捕捉完整的場景。
語言理解
開發(fā)能夠從文字生成視頻的系統(tǒng),我們需要大量的視頻及其對應(yīng)的文字說明。我們采用了 DALL·E 330?中引入的一種重新標(biāo)注技術(shù),并將其應(yīng)用于視頻。首先,我們訓(xùn)練了一個能夠生成詳細(xì)描述的模型,然后利用這個模型為訓(xùn)練集里的所有視頻創(chuàng)建文字說明。我們發(fā)現(xiàn),使用描述性強(qiáng)的視頻說明進(jìn)行訓(xùn)練,不僅能提高文字的準(zhǔn)確度,還能顯著提升視頻的整體質(zhì)量。
就像 DALL·E 3 一樣,我們還使用 GPT 把用戶的簡短提示轉(zhuǎn)化成詳盡的說明,再將這些說明送給視頻生成模型。這一過程使得 Sora 能夠根據(jù)用戶的指令,制作出高品質(zhì)的視頻。
語言理解能力示例(點(diǎn)擊展開)
?
圖片和視頻的提示功能
我們網(wǎng)站上的所有示例和展示的視頻,都是從文字轉(zhuǎn)化而來。不過,Sora 還能接受圖片或已有視頻作為輸入。這項(xiàng)功能讓 Sora 能夠完成各種圖片和視頻編輯任務(wù),比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動畫效果、延長視頻的播放時間等。
讓 DALL·E 圖片動起來
只需一張圖片和一個提示,Sora 就能創(chuàng)造出視頻。下面展示了一些基于 DALL·E 231?和 DALL·E 330?圖片生成的視頻示例。
一只戴著貝雷帽和黑色高領(lǐng)衫的柴犬。
一個包含各種怪獸的家庭的平面設(shè)計風(fēng)格插畫。其中有一個毛茸茸的棕色怪獸,一個光滑的黑色怪獸配有觸角,一個斑點(diǎn)綠色怪獸,以及一個小巧的帶有圓點(diǎn)的怪獸,它們在愉快的環(huán)境中互動。
形成“SORA”字樣的逼真云朵圖像。
在一個裝飾華麗的歷史大廳里,一道巨大的海浪正準(zhǔn)備沖擊而來。兩位沖浪者抓住機(jī)會,巧妙地駕馭著海浪。
視頻時間延伸
Sora 同樣能夠把視頻往前或往后延伸。下面是四個視頻,它們都是從一個生成的視頻片段開始,向后延伸。因此,盡管這四個視頻的開頭各不相同,但它們最終都匯聚于同一個結(jié)尾。
利用這種技術(shù),我們能夠?qū)⒁曨l向前或向后擴(kuò)展,創(chuàng)造出完美的無限循環(huán)效果。
視頻到視頻的創(chuàng)新編輯
擴(kuò)散模型為基于文本提示的圖像和視頻編輯開辟了新天地。接下來,我們利用這些創(chuàng)新方法之一,SDEdit,32?對 Sora 進(jìn)行應(yīng)用。這項(xiàng)技術(shù)賦予了 Sora 力量,讓它能夠不需要任何預(yù)先示例,就能改變視頻中的風(fēng)格和環(huán)境。
輸入視頻
將設(shè)置更改為郁郁蔥蔥的叢林。
將設(shè)置更改為 1920 年代,使用舊學(xué)校的 captureRejectionSymbol。確保保持紅色。
使其在水下。
將視頻設(shè)置更改為不同于山脈的場景?也許是約書亞樹?
將視頻放置在太空中,并有一條彩虹路。
保持視頻相同,但使其成為冬天。
用粘土動畫風(fēng)格制作。
用炭筆畫風(fēng)格重新創(chuàng)作,確保是黑白的。
將設(shè)置更改為賽博朋克。
將視頻更改為中世紀(jì)主題。
使其有恐龍。
用像素藝術(shù)風(fēng)格重寫視頻。
視頻之間的流暢過渡
我們還可以利用 Sora 把兩個風(fēng)格迥異的視頻平滑連接起來,使它們之間能夠自然過渡,仿佛融為一體。在下方的示例中,你會看到,中間的視頻巧妙地融合了左右兩側(cè)視頻的元素。
圖像的魔法般創(chuàng)造
Sora 的能力不僅限于視頻,它還能創(chuàng)造出令人驚嘆的圖像。我們通過在一個時間僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來完成這一魔法。這樣,Sora 能夠創(chuàng)造出各種尺寸的圖像,最大分辨率達(dá)到了 2048x2048。
秋日中,一位女士的特寫肖像,細(xì)節(jié)驚人,景深淺得令人稱奇。
一片生機(jī)勃勃的珊瑚礁,色彩斑斕的魚類和海洋生物穿梭其間。
在蘋果樹下的年輕老虎的數(shù)字藝術(shù)作品,展現(xiàn)了啞光畫風(fēng)中的細(xì)致美。
一座雪覆蓋的山村,溫馨的小屋和北極光的展現(xiàn),細(xì)節(jié)精致,仿佛用 dslr 拍攝的 50mm f/1.2 鏡頭下的畫面。
涌現(xiàn)的模擬能力
我們發(fā)現(xiàn),在大規(guī)模訓(xùn)練下,視頻模型展示出了一系列引人注目的涌現(xiàn)能力。這些功能讓 Sora 有能力在一定程度上模擬現(xiàn)實(shí)世界中的人、動物和環(huán)境。這種能力的涌現(xiàn),并不需要對三維空間、物體等有任何特定的預(yù)設(shè)偏好 —— 它們純粹是由數(shù)據(jù)規(guī)模驅(qū)動的結(jié)果。
三維空間的連貫性。?Sora 能生成帶有動態(tài)視角變化的視頻。當(dāng)攝像機(jī)位置和角度變動時,視頻中的人物和場景元素能夠在三維空間中保持連貫移動。
遠(yuǎn)距離連續(xù)性與物體持久性。?在生成長視頻時,保持時間上的連續(xù)性一直是個挑戰(zhàn)。我們觀察到,Sora 通常能夠有效處理短距離和長距離的依賴關(guān)系。比如,即使人物、動物或物體被遮擋或移出畫面,我們的模型也能保持它們的連續(xù)存在。同樣,它能在同一視頻樣本中多次展示同一角色,確保其外觀貫穿始終。
與世界的互動。?Sora 有時能模擬出簡單地影響世界狀態(tài)的行為。例如,畫家在畫布上留下的筆觸隨時間持久存在,或者某人吃漢堡留下的咬痕。
數(shù)字世界的模擬。?Sora 還能模擬數(shù)字化過程,如視頻游戲。它能在控制 Minecraft 游戲角色進(jìn)行基本操作的同時,高質(zhì)量渲染游戲世界及其動態(tài)。僅需通過提及“Minecraft”等字樣的提示,即可激發(fā)這些能力的展現(xiàn)。
這些功能展示了,不斷擴(kuò)大視頻模型的規(guī)模,是發(fā)展出能高度模擬物理及數(shù)字世界——包括其中的物體、動物和人——的高級模擬器的一條有前景的路徑。
討論
作為一個模擬器,Sora 當(dāng)前還有許多局限。比如,它無法精確模擬像玻璃破碎這樣的基本物理互動。有些互動,比如吃東西,并不總能正確反映物體狀態(tài)的改變。我們在OpenAI Sora 介紹頁中詳細(xì)列出了模型的其它常見失誤,包括長時間視頻樣本中出現(xiàn)的不一致性或物體的突然出現(xiàn)等問題。
我們相信,Sora 現(xiàn)有的能力展現(xiàn)了,繼續(xù)擴(kuò)展視頻模型的規(guī)模是朝向開發(fā)出能夠精準(zhǔn)模擬物理和數(shù)字世界以及其中的物體、動物和人類的高級模擬器的一條充滿希望的途徑。
References
-
Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.
-
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
-
Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
-
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).
-
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
-
Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
-
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
-
Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
-
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
-
Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models."?arXiv preprint arXiv:2210.02303?(2022).
-
Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
-
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
-
Vaswani, Ashish, et al. "Attention is all you need."?Advances in neural information processing systems?30 (2017).??
-
Brown, Tom, et al. "Language models are few-shot learners."?Advances in neural information processing systems?33 (2020): 1877-1901.??
-
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale."?arXiv preprint arXiv:2010.11929?(2020).??
-
Arnab, Anurag, et al. "Vivit: A video vision transformer."?Proceedings of the IEEE/CVF international conference on computer vision. 2021.??
-
He, Kaiming, et al. "Masked autoencoders are scalable vision learners."?Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.??
-
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution."?arXiv preprint arXiv:2307.06304?(2023).??
-
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models."?Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
-
Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes."?arXiv preprint arXiv:1312.6114?(2013).
-
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics."?International conference on machine learning. PMLR, 2015.
-
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models."?Advances in neural information processing systems?33 (2020): 6840-6851.
-
Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models."?International Conference on Machine Learning. PMLR, 2021.
-
Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis."?Advances in Neural Information Processing Systems. 2021.
-
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models."?Advances in Neural Information Processing Systems?35 (2022): 26565-26577.
-
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers."?Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
-
Chen, Mark, et al. "Generative pretraining from pixels."?International conference on machine learning. PMLR, 2020.
-
Ramesh, Aditya, et al. "Zero-shot text-to-image generation."?International Conference on Machine Learning. PMLR, 2021.
-
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation."?arXiv preprint arXiv:2206.10789?2.3 (2022): 5.
-
Betker, James, et al. "Improving image generation with better captions."?Computer Science.?https://cdn.openai.com/papers/dall-e-3. pdf?2.3 (2023): 8??
-
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents."?arXiv preprint arXiv:2204.06125?1.2 (2022): 3.
-
Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations."?arXiv preprint arXiv:2108.01073?(2021).
Authors
- Tim Brooks
- Bill Peebles
- Connor Holmes
- Will DePue
- Yufei Guo
- Li Jing
- David Schnurr
- Joe Taylor
- Troy Luhman
- Eric Luhman
- Clarence Wing Yin Ng
- Ricky Wang
- Aditya Ramesh
Acknowledgments
Citation
Please cite as OpenAI et al., and use the following bibtex for citation:?https://openai.com/bibtex/videoworldsimulators2024.bib