中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

在西寧做網(wǎng)站可以嗎目前小說網(wǎng)站排名

在西寧做網(wǎng)站可以嗎,目前小說網(wǎng)站排名,微信同城交友網(wǎng)站怎么做,北京seo網(wǎng)站設(shè)計原文:Video generation models as world simulators 我們致力于在視頻數(shù)據(jù)上開展生成模型的大規(guī)模訓(xùn)練。具體來說,我們針對不同時長、分辨率和寬高比的視頻及圖像,聯(lián)合訓(xùn)練了基于文本條件的擴(kuò)散模型。我們采用了一種 Transformer 架構(gòu)&#…

原文:Video generation models as world simulators

我們致力于在視頻數(shù)據(jù)上開展生成模型的大規(guī)模訓(xùn)練。具體來說,我們針對不同時長、分辨率和寬高比的視頻及圖像,聯(lián)合訓(xùn)練了基于文本條件的擴(kuò)散模型。我們采用了一種 Transformer 架構(gòu),這種架構(gòu)能夠處理視頻和圖像潛在編碼的時空片段。我們的最大型號模型,Sora,能生成高質(zhì)量的一分鐘視頻。我們的研究顯示,擴(kuò)展視頻生成模型的規(guī)模是向著創(chuàng)建能夠模擬物理世界的通用工具邁出的有前途的一步。

本技術(shù)報告主要介紹了兩方面內(nèi)容:(1) 我們?nèi)绾螌⒏鞣N類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示形式,從而實(shí)現(xiàn)生成模型的大規(guī)模訓(xùn)練;(2) 對 Sora 模型能力和局限性的定性評價。報告中沒有包含模型和實(shí)施的詳細(xì)信息。

之前的很多研究都探討過利用各種方法對視頻數(shù)據(jù)進(jìn)行生成模型的建模,包括循環(huán)網(wǎng)絡(luò)?1,2,3,生成對抗網(wǎng)絡(luò)?4,5,6,7,自回歸 Transformer?8,9?以及擴(kuò)散模型?10,11,12。這些研究通常關(guān)注于特定類別的視覺數(shù)據(jù),較短的視頻,或是固定尺寸的視頻。Sora 是一種對視覺數(shù)據(jù)進(jìn)行廣義建模的模型,它能夠生成各種時長、寬高比和分辨率的視頻和圖像,最長可達(dá)一分鐘的高清視頻。

視覺數(shù)據(jù)的創(chuàng)新轉(zhuǎn)化:補(bǔ)片技術(shù)

圖 1: 補(bǔ)片示意圖

受到大語言模型(LLM)在處理互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)、培養(yǎng)全能技能方面成功經(jīng)驗(yàn)的啟發(fā),13,14?我們探索了如何將類似的優(yōu)勢應(yīng)用于視覺數(shù)據(jù)的生成模型。大語言模型通過使用 tokens —— 一種統(tǒng)一處理代碼、數(shù)學(xué)及多種自然語言的高效方式 —— 實(shí)現(xiàn)了模態(tài)間的無縫轉(zhuǎn)換。在本研究中,我們引入了視覺領(lǐng)域的對應(yīng)物:視覺補(bǔ)片(patches)。研究表明,補(bǔ)片是一種高效的視覺數(shù)據(jù)表現(xiàn)形式,15,16,17,18?它們能極大地提升生成模型處理多樣化視頻和圖像數(shù)據(jù)的能力。

圖 1: 補(bǔ)片示意圖

具體來說,我們通過先將視頻數(shù)據(jù)壓縮到低維度潛在空間,19?再將其分解成時空補(bǔ)片,從而實(shí)現(xiàn)視頻到補(bǔ)片的轉(zhuǎn)化。

視頻壓縮網(wǎng)絡(luò)

我們開發(fā)了一種降維技術(shù),20?該技術(shù)能夠處理原始視頻數(shù)據(jù),并生成在時間和空間上都進(jìn)行了壓縮的潛在表征。Sora 在這種壓縮的潛在空間中接受訓(xùn)練,并能夠生成新的視頻內(nèi)容。此外,我們還開發(fā)了一個解碼器,能夠?qū)⑦@些潛在表征還原為像素級的視頻圖像。

時空補(bǔ)片技術(shù)

通過對壓縮后的視頻輸入進(jìn)行處理,我們能夠提取出一系列的時空補(bǔ)片,這些補(bǔ)片在模型中扮演著類似于 Transformer Tokens 的角色。值得一提的是,這套方案同樣適用于圖像處理,因?yàn)閺谋举|(zhì)上來說,圖像可以被視為單幀的視頻。采用基于補(bǔ)片的表現(xiàn)形式,Sora 能夠適應(yīng)不同分辨率、持續(xù)時間及寬高比的視頻和圖像。在生成新視頻內(nèi)容時,我們可以通過將這些隨機(jī)初始化的補(bǔ)片按照需要的大小排列成網(wǎng)格,來控制最終視頻的大小和形式。

視頻生成的 Transformer 擴(kuò)展技術(shù)

Sora 是一種擴(kuò)散模型21,22,23,24,25;它能夠接受帶有噪聲的圖像塊(及條件信息如文本提示)作為輸入,并被訓(xùn)練以預(yù)測出原始的“清晰”圖像塊。值得注意的是,Sora 屬于擴(kuò)散型 Transformer26。Transformer 技術(shù)在多個領(lǐng)域,包括語言建模13,14、計算機(jī)視覺15,16,17,18以及圖像生成27,28,29中都展現(xiàn)出了卓越的擴(kuò)展能力。

圖 Diffusion

圖 Diffusion

本研究發(fā)現(xiàn),擴(kuò)散型 Transformer 同樣能在視頻模型領(lǐng)域高效擴(kuò)展。下文中,我們通過對比訓(xùn)練過程中固定種子和輸入條件下的視頻樣本,展示了訓(xùn)練資源增加帶來的樣本質(zhì)量顯著提升。

基礎(chǔ)計算

4 倍計算

16 倍計算

視頻的多樣化持續(xù)時間、分辨率和寬高比

傳統(tǒng)的圖像和視頻生成方法通常會將視頻調(diào)整至標(biāo)準(zhǔn)尺寸,例如 4 秒長的視頻以 256x256 的分辨率進(jìn)行處理。我們發(fā)現(xiàn),直接在視頻的原始尺寸上進(jìn)行訓(xùn)練能帶來多重好處。

靈活的采樣能力

Sora 能夠生成各種尺寸的視頻,包括寬屏的 1920x1080p、豎屏的 1080x1920 以及介于兩者之間的任何格式。這使得 Sora 能夠直接為不同設(shè)備制作符合其原生寬高比的內(nèi)容。此外,它還允許我們在生成全分辨率內(nèi)容之前,快速地以較低尺寸原型化內(nèi)容,所有這些都能通過同一模型實(shí)現(xiàn)。

構(gòu)圖與布局的優(yōu)化

我們的實(shí)驗(yàn)表明,在視頻的原生寬高比上進(jìn)行訓(xùn)練,能夠顯著提升視頻的構(gòu)圖與布局質(zhì)量。我們將 Sora 與另一個訓(xùn)練模型進(jìn)行了對比,后者將所有訓(xùn)練視頻裁剪為正方形,這是訓(xùn)練生成模型時的常規(guī)做法。與被裁剪成正方形的模型(左側(cè))相比,Sora 生成的視頻(右側(cè))展現(xiàn)了更佳的構(gòu)圖效果,有時候裁剪成正方形的模型生成的視頻中主題只能部分展示。而 Sora 則能夠更好地捕捉完整的場景。

語言理解

開發(fā)能夠從文字生成視頻的系統(tǒng),我們需要大量的視頻及其對應(yīng)的文字說明。我們采用了 DALL·E 330?中引入的一種重新標(biāo)注技術(shù),并將其應(yīng)用于視頻。首先,我們訓(xùn)練了一個能夠生成詳細(xì)描述的模型,然后利用這個模型為訓(xùn)練集里的所有視頻創(chuàng)建文字說明。我們發(fā)現(xiàn),使用描述性強(qiáng)的視頻說明進(jìn)行訓(xùn)練,不僅能提高文字的準(zhǔn)確度,還能顯著提升視頻的整體質(zhì)量。

就像 DALL·E 3 一樣,我們還使用 GPT 把用戶的簡短提示轉(zhuǎn)化成詳盡的說明,再將這些說明送給視頻生成模型。這一過程使得 Sora 能夠根據(jù)用戶的指令,制作出高品質(zhì)的視頻。

語言理解能力示例(點(diǎn)擊展開)
?

圖片和視頻的提示功能

我們網(wǎng)站上的所有示例和展示的視頻,都是從文字轉(zhuǎn)化而來。不過,Sora 還能接受圖片或已有視頻作為輸入。這項(xiàng)功能讓 Sora 能夠完成各種圖片和視頻編輯任務(wù),比如制作無縫循環(huán)視頻、給靜態(tài)圖片添加動畫效果、延長視頻的播放時間等。

讓 DALL·E 圖片動起來

只需一張圖片和一個提示,Sora 就能創(chuàng)造出視頻。下面展示了一些基于 DALL·E 231?和 DALL·E 330?圖片生成的視頻示例。

一只戴著貝雷帽和黑色高領(lǐng)衫的柴犬。

一個包含各種怪獸的家庭的平面設(shè)計風(fēng)格插畫。其中有一個毛茸茸的棕色怪獸,一個光滑的黑色怪獸配有觸角,一個斑點(diǎn)綠色怪獸,以及一個小巧的帶有圓點(diǎn)的怪獸,它們在愉快的環(huán)境中互動。

形成“SORA”字樣的逼真云朵圖像。

在一個裝飾華麗的歷史大廳里,一道巨大的海浪正準(zhǔn)備沖擊而來。兩位沖浪者抓住機(jī)會,巧妙地駕馭著海浪。

視頻時間延伸

Sora 同樣能夠把視頻往前或往后延伸。下面是四個視頻,它們都是從一個生成的視頻片段開始,向后延伸。因此,盡管這四個視頻的開頭各不相同,但它們最終都匯聚于同一個結(jié)尾。

利用這種技術(shù),我們能夠?qū)⒁曨l向前或向后擴(kuò)展,創(chuàng)造出完美的無限循環(huán)效果。

視頻到視頻的創(chuàng)新編輯

擴(kuò)散模型為基于文本提示的圖像和視頻編輯開辟了新天地。接下來,我們利用這些創(chuàng)新方法之一,SDEdit,32?對 Sora 進(jìn)行應(yīng)用。這項(xiàng)技術(shù)賦予了 Sora 力量,讓它能夠不需要任何預(yù)先示例,就能改變視頻中的風(fēng)格和環(huán)境。

輸入視頻

將設(shè)置更改為郁郁蔥蔥的叢林。

將設(shè)置更改為 1920 年代,使用舊學(xué)校的 captureRejectionSymbol。確保保持紅色。

使其在水下。

將視頻設(shè)置更改為不同于山脈的場景?也許是約書亞樹?

將視頻放置在太空中,并有一條彩虹路。

保持視頻相同,但使其成為冬天。

用粘土動畫風(fēng)格制作。

用炭筆畫風(fēng)格重新創(chuàng)作,確保是黑白的。

將設(shè)置更改為賽博朋克。

將視頻更改為中世紀(jì)主題。

使其有恐龍。

用像素藝術(shù)風(fēng)格重寫視頻。

視頻之間的流暢過渡

我們還可以利用 Sora 把兩個風(fēng)格迥異的視頻平滑連接起來,使它們之間能夠自然過渡,仿佛融為一體。在下方的示例中,你會看到,中間的視頻巧妙地融合了左右兩側(cè)視頻的元素。

圖像的魔法般創(chuàng)造

Sora 的能力不僅限于視頻,它還能創(chuàng)造出令人驚嘆的圖像。我們通過在一個時間僅為一幀的空間網(wǎng)格里排列高斯噪聲塊來完成這一魔法。這樣,Sora 能夠創(chuàng)造出各種尺寸的圖像,最大分辨率達(dá)到了 2048x2048。

秋日中,一位女士的特寫肖像,細(xì)節(jié)驚人,景深淺得令人稱奇。

一片生機(jī)勃勃的珊瑚礁,色彩斑斕的魚類和海洋生物穿梭其間。

在蘋果樹下的年輕老虎的數(shù)字藝術(shù)作品,展現(xiàn)了啞光畫風(fēng)中的細(xì)致美。

一座雪覆蓋的山村,溫馨的小屋和北極光的展現(xiàn),細(xì)節(jié)精致,仿佛用 dslr 拍攝的 50mm f/1.2 鏡頭下的畫面。

涌現(xiàn)的模擬能力

我們發(fā)現(xiàn),在大規(guī)模訓(xùn)練下,視頻模型展示出了一系列引人注目的涌現(xiàn)能力。這些功能讓 Sora 有能力在一定程度上模擬現(xiàn)實(shí)世界中的人、動物和環(huán)境。這種能力的涌現(xiàn),并不需要對三維空間、物體等有任何特定的預(yù)設(shè)偏好 —— 它們純粹是由數(shù)據(jù)規(guī)模驅(qū)動的結(jié)果。

三維空間的連貫性。?Sora 能生成帶有動態(tài)視角變化的視頻。當(dāng)攝像機(jī)位置和角度變動時,視頻中的人物和場景元素能夠在三維空間中保持連貫移動。

遠(yuǎn)距離連續(xù)性與物體持久性。?在生成長視頻時,保持時間上的連續(xù)性一直是個挑戰(zhàn)。我們觀察到,Sora 通常能夠有效處理短距離和長距離的依賴關(guān)系。比如,即使人物、動物或物體被遮擋或移出畫面,我們的模型也能保持它們的連續(xù)存在。同樣,它能在同一視頻樣本中多次展示同一角色,確保其外觀貫穿始終。

與世界的互動。?Sora 有時能模擬出簡單地影響世界狀態(tài)的行為。例如,畫家在畫布上留下的筆觸隨時間持久存在,或者某人吃漢堡留下的咬痕。

數(shù)字世界的模擬。?Sora 還能模擬數(shù)字化過程,如視頻游戲。它能在控制 Minecraft 游戲角色進(jìn)行基本操作的同時,高質(zhì)量渲染游戲世界及其動態(tài)。僅需通過提及“Minecraft”等字樣的提示,即可激發(fā)這些能力的展現(xiàn)。

這些功能展示了,不斷擴(kuò)大視頻模型的規(guī)模,是發(fā)展出能高度模擬物理及數(shù)字世界——包括其中的物體、動物和人——的高級模擬器的一條有前景的路徑。

討論

作為一個模擬器,Sora 當(dāng)前還有許多局限。比如,它無法精確模擬像玻璃破碎這樣的基本物理互動。有些互動,比如吃東西,并不總能正確反映物體狀態(tài)的改變。我們在OpenAI Sora 介紹頁中詳細(xì)列出了模型的其它常見失誤,包括長時間視頻樣本中出現(xiàn)的不一致性或物體的突然出現(xiàn)等問題。

我們相信,Sora 現(xiàn)有的能力展現(xiàn)了,繼續(xù)擴(kuò)展視頻模型的規(guī)模是朝向開發(fā)出能夠精準(zhǔn)模擬物理和數(shù)字世界以及其中的物體、動物和人類的高級模擬器的一條充滿希望的途徑。

References

  1. Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.

  2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).

  3. Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).

  4. Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).

  5. Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

  6. Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).

  7. Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.

  8. Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).

  9. Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.

  10. Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models."?arXiv preprint arXiv:2210.02303?(2022).

  11. Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

  12. Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).

  13. Vaswani, Ashish, et al. "Attention is all you need."?Advances in neural information processing systems?30 (2017).??

  14. Brown, Tom, et al. "Language models are few-shot learners."?Advances in neural information processing systems?33 (2020): 1877-1901.??

  15. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale."?arXiv preprint arXiv:2010.11929?(2020).??

  16. Arnab, Anurag, et al. "Vivit: A video vision transformer."?Proceedings of the IEEE/CVF international conference on computer vision. 2021.??

  17. He, Kaiming, et al. "Masked autoencoders are scalable vision learners."?Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.??

  18. Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution."?arXiv preprint arXiv:2307.06304?(2023).??

  19. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models."?Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

  20. Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes."?arXiv preprint arXiv:1312.6114?(2013).

  21. Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics."?International conference on machine learning. PMLR, 2015.

  22. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models."?Advances in neural information processing systems?33 (2020): 6840-6851.

  23. Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models."?International Conference on Machine Learning. PMLR, 2021.

  24. Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis."?Advances in Neural Information Processing Systems. 2021.

  25. Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models."?Advances in Neural Information Processing Systems?35 (2022): 26565-26577.

  26. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers."?Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

  27. Chen, Mark, et al. "Generative pretraining from pixels."?International conference on machine learning. PMLR, 2020.

  28. Ramesh, Aditya, et al. "Zero-shot text-to-image generation."?International Conference on Machine Learning. PMLR, 2021.

  29. Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation."?arXiv preprint arXiv:2206.10789?2.3 (2022): 5.

  30. Betker, James, et al. "Improving image generation with better captions."?Computer Science.?https://cdn.openai.com/papers/dall-e-3. pdf?2.3 (2023): 8??

  31. Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents."?arXiv preprint arXiv:2204.06125?1.2 (2022): 3.

  32. Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations."?arXiv preprint arXiv:2108.01073?(2021).

Authors

  • Tim Brooks
  • Bill Peebles
  • Connor Holmes
  • Will DePue
  • Yufei Guo
  • Li Jing
  • David Schnurr
  • Joe Taylor
  • Troy Luhman
  • Eric Luhman
  • Clarence Wing Yin Ng
  • Ricky Wang
  • Aditya Ramesh

Acknowledgments

Citation

Please cite as OpenAI et al., and use the following bibtex for citation:?https://openai.com/bibtex/videoworldsimulators2024.bib

http://www.risenshineclean.com/news/53909.html

相關(guān)文章:

  • 網(wǎng)站開發(fā)與維護(hù)工資多少西安百度公司官網(wǎng)
  • 做教育的網(wǎng)站有哪些指數(shù)
  • 武進(jìn)區(qū)城鄉(xiāng)建設(shè)局網(wǎng)站營銷網(wǎng)站搭建
  • 楊浦做網(wǎng)站公司買賣交易平臺
  • 網(wǎng)站建設(shè)方案書是什么意思近期新聞事件
  • 自己做的網(wǎng)站打不開外貿(mào)營銷網(wǎng)站建設(shè)介紹
  • 做網(wǎng)站特別注意什么軟文廣告平臺
  • 采購網(wǎng)站平臺電商軟文范例100字
  • 做網(wǎng)站北京公司西安seo關(guān)鍵詞推廣
  • 電子商務(wù)網(wǎng)站的建設(shè)目標(biāo)是什么關(guān)鍵詞優(yōu)化軟件
  • 咨詢網(wǎng)站 模板高端網(wǎng)站建設(shè)企業(yè)
  • 網(wǎng)頁設(shè)計素材 旅游seo服務(wù)商
  • 國外網(wǎng)站模版免費(fèi)下載百度電腦版下載
  • 娃哈哈網(wǎng)絡(luò)營銷策劃方案佛山seo培訓(xùn)機(jī)構(gòu)
  • 天津有哪些有名的網(wǎng)站建設(shè)公司近三天時政熱點(diǎn)
  • wordpress文章發(fā)布到專題江蘇網(wǎng)站seo
  • 企業(yè)門戶網(wǎng)站包括品牌營銷策劃有限公司
  • 培訓(xùn)人員網(wǎng)站建設(shè)建站教程
  • 安徽科技學(xué)院官網(wǎng)百度seo sem
  • 加強(qiáng)縣政府網(wǎng)站建設(shè)的幾點(diǎn)建議連云港seo優(yōu)化公司
  • 做h網(wǎng)站風(fēng)險網(wǎng)站如何優(yōu)化排名
  • 建站公司的工作流程百度熱議
  • 地推拉新接單網(wǎng)seo網(wǎng)站建站
  • wordpress表單編輯插件下載湖南靠譜的關(guān)鍵詞優(yōu)化
  • 網(wǎng)站底部懸浮廣告投放數(shù)據(jù)分析
  • 網(wǎng)站搭建中企動力第一推薦幾個靠譜的網(wǎng)站
  • bootstrap 做企業(yè)網(wǎng)站百度關(guān)鍵詞優(yōu)化策略
  • 衡水網(wǎng)站網(wǎng)站建設(shè)成都最好的網(wǎng)站推廣優(yōu)化公司
  • 仿做靜態(tài)網(wǎng)站多少錢seo網(wǎng)址超級外鏈工具
  • 游戲網(wǎng)站如何做濰坊seo計費(fèi)