當(dāng)前位置：首頁 > news >正文

天津科技公司網(wǎng)站阿里云盤資源搜索引擎

news 2025/7/15 8:04:21

天津科技公司網(wǎng)站,阿里云盤資源搜索引擎,網(wǎng)站設(shè)計(jì)報(bào)價(jià),重慶慕尚網(wǎng)站建設(shè)hihi，朋友們，時(shí)隔半年（24年11月），終于能騰出時(shí)間嘮一嘮SD了??，真怕再不嘮一嘮，就輪不到SD了，技術(shù)更新?lián)Q代是在是太快！朋友們，最近（24年2月）是真的沒時(shí)間整理筆記，每天都在瘋狂的學(xué)習(xí)Stable Diffusion和WebUI & ComfyUI，工作實(shí)在有點(diǎn)忙，實(shí)踐期間在飛書上…

hihi，朋友們，時(shí)隔半年（24年11月），終于能騰出時(shí)間嘮一嘮SD了??，真怕再不嘮一嘮，就輪不到SD了，技術(shù)更新?lián)Q代是在是太快！

朋友們，最近（24年2月）是真的沒時(shí)間整理筆記，每天都在瘋狂的學(xué)習(xí)Stable Diffusion和WebUI & ComfyUI，工作實(shí)在有點(diǎn)忙，實(shí)踐期間在飛書上記了一些學(xué)習(xí)筆記，后面看有時(shí)間我再回來補(bǔ)齊吧！
在這里插入圖片描述

基本概念

開始前我們先熟悉幾個(gè)概念，這些內(nèi)容在之前的文章里面也有專門介紹過：

關(guān)于AIGC文生圖：一文讀懂AIGC文生圖系列發(fā)展近況
關(guān)于擴(kuò)散模型：一文讀懂「Diffusion Model，DM」擴(kuò)散模型
關(guān)于Midjourney：深入淺出剖析典型文生圖產(chǎn)品Midjourney

在這里插入圖片描述

SD介紹

Stable Diffusion是一種基于深度學(xué)習(xí)的圖像擴(kuò)散生成模型，利用文本描述生成圖像。該模型由CompVis、Stability AI和LAION合作開發(fā)，具有高穩(wěn)定性和生成質(zhì)量。

產(chǎn)品介紹

Stable Diffusion直譯為穩(wěn)定擴(kuò)散，理解穩(wěn)定擴(kuò)散之前先通過兩張圖片介紹一下什么是前向擴(kuò)散和逆向擴(kuò)散。所謂前向擴(kuò)散（forward diffusion）過程就是向訓(xùn)練圖像中不斷地添加噪聲，從而使其逐漸變?yōu)橐粡埡翢o意義的純?cè)肼晥D。經(jīng)過前向擴(kuò)散貓的圖像變成了隨機(jī)噪聲。反過來，逆向擴(kuò)散（Reverse Diffusion）過程是從一個(gè)隨機(jī)噪聲圖像開始恢復(fù)出貓圖像的過程。
在這里插入圖片描述
因此，Stable Diffusion可以理解為從一張完全高斯噪音開始，根據(jù)用戶輸入的要求，逐步剔除噪音，直到產(chǎn)生出用戶所要圖片的過程。

它的核心是如何降噪（降噪模型），而降噪模型的核心是噪聲預(yù)測(cè)器（根據(jù)用戶文本輸入，預(yù)測(cè)噪聲），即高斯圖片->逐步減去噪聲->得到用戶所需圖片。

這個(gè)過程里面一共用到了圖像編碼器、文本編碼器、擴(kuò)散模型、圖像解碼器四個(gè)神經(jīng)網(wǎng)絡(luò)模型。

發(fā)展路線

在這里插入圖片描述
SD 1.1:首個(gè)版本，提出improved aesthetics，優(yōu)化圖像質(zhì)量，使用4plus模型配置。

SD 1.2:引入大數(shù)據(jù)集LAION-2B進(jìn)行訓(xùn)練，提高了圖像質(zhì)量，使用5plus模型配置。

SD 1.3:過渡版本

SD 1.4:在圖像生成效果上有較大提升，訓(xùn)練迭代次數(shù)增加到195000步。

SD 1.5:繼續(xù)改進(jìn)美學(xué)效果，使用5plus模型,訓(xùn)練達(dá)到225000步，可以生成更高質(zhì)量圖片。

在這里插入圖片描述

SD2.0：這是Stable Diffusion的一個(gè)主要版本。它在之前版本的基礎(chǔ)上實(shí)現(xiàn)了顯著的改進(jìn)，特別是在圖像的美學(xué)質(zhì)量和生成模型的細(xì)節(jié)上。

SD2.1：這個(gè)版本進(jìn)一步優(yōu)化了之前版本的特性。強(qiáng)調(diào)了更有效的文本編碼器，使用了更先進(jìn)的CLIP版本，生成的圖像與文本提示的一致性和相關(guān)性有所提升。

SD變種：這可能是Stable Diffusion的一個(gè)變體版本，具有特殊的屬性或針對(duì)特定應(yīng)用場(chǎng)景的優(yōu)化。

SDXL：這是Stable Diffusion的一個(gè)擴(kuò)展版本。演化更大的模型（比如使用了更大的UNet），或者訓(xùn)練了更廣泛的數(shù)據(jù)集。強(qiáng)調(diào)了CLIP文本編碼器和VAE的改進(jìn)，提供了更準(zhǔn)確的文本到圖像的轉(zhuǎn)換能力。

Stable Diffusion 2.x系列:

SD 2.0：基于CompVis模型，提升細(xì)節(jié)生成能力。

SD 2.1：引入Hypernetwork，支持無限分辨率生成。

SD 的演化過程中，最主要的變化就是模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)的變化。SD1.x 系列，大多數(shù)是在 SD1.2 的基礎(chǔ)上繼續(xù)微調(diào)得到的，包括我們使用最多的 SD1.4 和 SD1.5 模型；SD2.x 系列則是新開的故事線，使用了全新的模型結(jié)構(gòu)。