做網(wǎng)站的如何找客戶平臺引流推廣怎么做
1. 引言
就在 OpenAI
發(fā)布可以生成令人瞠目的視頻的 Sora
和谷歌披露支持多達 150 萬個Token上下文的 Gemini 1.5
的幾天后,Stability AI
最近展示了 Stable Diffusion 3
的預覽版。
閑話少說,我們快來看看吧!
2. 什么是Stable Diffusion 3?
Stable Diffusion 3
是 Stability AI
最新推出的功能最強大的文本到圖像生成的模型。它在處理多文本提示、圖像質量甚至文本渲染能力方面都有重大的改進。
目前,該模型套件的參數(shù)量從 800M 到 8B 不等。它結合了擴散transformer結構(類似于Sora中的結構)和Flow Matching。
3. Diffusion Transformer Architecture
Diffusion Transformer(DiT)
架構代表了一類融合了Transformer
技術的新型擴散模型。與通常使用卷積 U-Net 主干網(wǎng)的傳統(tǒng)擴散模型不同,DiT 采用Transformer
結構對圖像的潛在特征表示進行操作。DiT的網(wǎng)絡結構如下:
事實證明,這種架構對于ImageNet
等大型數(shù)據(jù)集上的基于類別條件圖像生成任務特別有效,DiTs
在圖像質量和生成模型性能方面樹立了新的標桿。
4. Flow Matching
Flow Matching (FM)是 一種全新的、無需模擬的連續(xù)歸一化流量(CNFs)
的訓練方法,它能以前所未有的規(guī)模訓練 CNFs
。FM
的工作原理是對與高斯概率路徑(包括擴散路徑)兼容的固定條件概率路徑向量場進行回歸。更多細節(jié),可以讀取官方論文。
這項技術不僅使擴散模型的訓練更加穩(wěn)健,還為使用非擴散概率路徑的CNF
進行更快的訓練、采樣和更好的泛化鋪平了道路。
5. SD3新功能
以下是Stable Diffusion 3
帶來的主要改進:
- 支持文本渲染
- 性能提升
- 多目標提示
- 更好的圖像質量
上述這些改進中,最令人興奮的功能是它能夠渲染文本,類似于 openAI
的 Dall-E 3
和谷歌的Imagen 2
。Emad Mostaque
作為Stability AI
的CEO一直在分享使用SD 3
生成的圖像,以下是我最喜歡的一些:
Prompt: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”
提示:“一張紅色球體放在藍色立方體上面的照片。后面是一個綠色三角形,右邊是一只狗,左邊是一只貓”。
我覺得這張照片有趣的一點是,動物的白色皮毛上有微妙的綠色。不確認的是模型是否可以從訓練數(shù)據(jù)中的綠幕電影場景照片中學到了這種效果。
Prompt: “cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk”
提示:"電影照片,教室的桌子上放著一個紅蘋果,黑板上用粉筆寫著 "要么大干,要么回家 “的字樣”
6. 效果對比
我快速比較了 SD3
和 OpenAI 的Dall-E 3
生成的圖像的效果,這里我使用了SD3官方博客中的提示詞。
Prompt: “Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Stable Diffusion 3” made out of colorful energy”
提示:“史詩般的動漫作品,一個巫師在夜晚的山頂上向黑暗的天空施放宇宙咒語,咒語上寫著 “穩(wěn)定擴散 3”,由五彩繽紛的能量組成”
老實說,我很驚訝 Dall-E 3
在這個提示下一再拒絕呈現(xiàn)文本。自己去試試吧。
7. 總結
本文重點介紹了SD3帶來的新的改進,在此說明下,目前SD3還為對公眾開放,但是大家可以通過注冊來獲得Discord服務器的邀請。預覽版的目的是提高其質量和安全性,就像其他穩(wěn)定的擴散版本一樣。