中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

學(xué)做網(wǎng)站論壇vip賬號(hào)破解360手機(jī)助手

學(xué)做網(wǎng)站論壇vip賬號(hào)破解,360手機(jī)助手,專業(yè)做pc+手機(jī)網(wǎng)站,網(wǎng)站多語(yǔ)切換怎么做文章目錄 1.1 擴(kuò)散模型的原理生成模型擴(kuò)散過(guò)程DDPM的擴(kuò)散過(guò)程前向過(guò)程反向過(guò)程優(yōu)化目標(biāo) 1.2 擴(kuò)散模型的發(fā)展開(kāi)始擴(kuò)散:DDPM加速生成:采樣器刷新記錄:基于CLIP的多模態(tài)圖像生成引爆網(wǎng)絡(luò):基于CLIP的多模態(tài)圖像生成再次“出圈”&#…

文章目錄

  • 1.1 擴(kuò)散模型的原理
    • 生成模型
    • 擴(kuò)散過(guò)程
      • DDPM的擴(kuò)散過(guò)程
        • 前向過(guò)程
        • 反向過(guò)程
        • 優(yōu)化目標(biāo)
  • 1.2 擴(kuò)散模型的發(fā)展
    • 開(kāi)始擴(kuò)散:DDPM
    • 加速生成:采樣器
    • 刷新記錄:基于CLIP的多模態(tài)圖像生成
    • 引爆網(wǎng)絡(luò):基于CLIP的多模態(tài)圖像生成
    • 再次“出圈”:大模型的“再學(xué)習(xí)”方法——DreamBooth、LoRA和ControlNet
    • 開(kāi)啟AI作畫時(shí)代:眾多商業(yè)公司提出成熟的圖像生成解決方案
  • 1.3 擴(kuò)散模型的應(yīng)用
    • 計(jì)算機(jī)視覺(jué)
    • 時(shí)序數(shù)據(jù)預(yù)測(cè)
    • 自然語(yǔ)言
    • 基于文本的多模態(tài)
    • AI基礎(chǔ)科學(xué)
  • 參考資料

擴(kuò)散模型(Diffusion Model):基于擴(kuò)散思想的深度學(xué)習(xí)生成模型
生成模型舉例
VAE(Variational Auto-Encoder,變分自編碼器)
GAN(Generative Adversarial Net,生成對(duì)抗網(wǎng)絡(luò))
學(xué)習(xí)內(nèi)容
擴(kuò)散模型的原理:擴(kuò)散模型是如何“擴(kuò)散”
擴(kuò)散模型的發(fā)展:擴(kuò)散模型在圖像生成方面的技術(shù)迭代與生態(tài)發(fā)展歷程
擴(kuò)散模型的應(yīng)用:擴(kuò)散模型除了圖像生成領(lǐng)域之外的其他應(yīng)用

1.1 擴(kuò)散模型的原理

擴(kuò)散模型主要包括前向擴(kuò)散和反向擴(kuò)散兩個(gè)過(guò)程

生成模型

目標(biāo)
根據(jù)給定的樣本,即訓(xùn)練數(shù)據(jù)生成新樣本
基本思想
假設(shè)給定的訓(xùn)練數(shù)據(jù) X X X服從某種真實(shí)分布 p ( x ) p(x) p(x),生成模型則估計(jì)訓(xùn)練數(shù)據(jù)的真實(shí)分布,假設(shè)為 q ( x ) q(x) q(x),再通過(guò)最大似然思想,在使得給定訓(xùn)練數(shù)據(jù)是采樣自 q ( x ) q(x) q(x)的概率盡可能大的過(guò)程中,對(duì)估計(jì)分布 q ( x ) q(x) q(x)進(jìn)行優(yōu)化
總結(jié)來(lái)說(shuō),生成模型就是在對(duì)訓(xùn)練數(shù)據(jù)的分布進(jìn)行建模

擴(kuò)散過(guò)程

初始的簡(jiǎn)單分布通過(guò)擴(kuò)散過(guò)程來(lái)建模一個(gè)復(fù)雜的分布

一滴墨水在水中擴(kuò)散的過(guò)程
在擴(kuò)散開(kāi)始之前,這滴墨水會(huì)在水中的某個(gè)地方形成一個(gè)大的斑點(diǎn),即墨水分子的初始狀態(tài),其分布是很復(fù)雜的,建模是很困難的
隨著擴(kuò)散過(guò)程的進(jìn)行,這滴墨水隨著時(shí)間的推移逐步擴(kuò)散到水中,墨水分子的概率分布將變得更加簡(jiǎn)單和均勻,即容易建模
于是,我們思考將這個(gè)擴(kuò)散過(guò)程反過(guò)來(lái),先對(duì)擴(kuò)散完成時(shí)的墨水分子的概率分布進(jìn)行建模,然后通過(guò)一個(gè)反向擴(kuò)散過(guò)程,得到墨水分子的初始概率分布

公認(rèn)最早的擴(kuò)散模型DDPM(Denoising Diffusion Probabilistic Model)
為了方便建模,擴(kuò)散模型仍需做出很多假設(shè)
DDPM做出的假設(shè):

  1. 假設(shè)擴(kuò)散過(guò)程是馬爾可夫過(guò)程(即每一個(gè)時(shí)間步狀態(tài)的概率分布僅由上一個(gè)時(shí)間步狀態(tài)的概率分布加上當(dāng)前時(shí)間步的高斯噪聲得到)
  2. 擴(kuò)散過(guò)程的逆過(guò)程是高斯分布等

DDPM的擴(kuò)散過(guò)程

分為前向過(guò)程和反向過(guò)程兩個(gè)部分
image.png

前向過(guò)程

給數(shù)據(jù)添加噪聲的過(guò)程,即上圖中從右到左的過(guò)程
前向加噪過(guò)程被分為離散的多個(gè)時(shí)間步T,在每一個(gè)時(shí)間步t,給上一個(gè)時(shí)間步t?1的數(shù)據(jù) x t ? 1 x_{t?1} xt?1?添加高斯噪聲,從而生成帶有噪聲(簡(jiǎn)稱“帶噪”)的數(shù)據(jù) x t x_t xt?,同時(shí)數(shù)據(jù) x t x_t xt?也會(huì)被送入下一個(gè)時(shí)間步t+1以繼續(xù)添加噪聲
關(guān)于噪聲的選取
噪聲的方差是由一個(gè)位于區(qū)間(0,1)的固定值βt確定的
噪聲的均值則由固定值βt和當(dāng)前時(shí)刻“帶噪”的數(shù)據(jù)分布確定
根據(jù)馬爾可夫鏈的性質(zhì),訓(xùn)練數(shù)據(jù)經(jīng)過(guò)這T個(gè)時(shí)間步的迭代、加噪過(guò)程后,將服從純隨機(jī)噪聲分布
公式表達(dá)
從時(shí)間步t?1到時(shí)間步t的單步擴(kuò)散加噪過(guò)程
image.png
最終的噪聲分布
image.png

反向過(guò)程

“去噪”的過(guò)程,即從隨機(jī)噪聲中迭代恢復(fù)出清晰數(shù)據(jù)的過(guò)程
根據(jù)DDPM的假設(shè),待去噪數(shù)據(jù)為采樣自高斯噪聲 x t ~ N ( 0 , I ) x_t\sim N(0,I) xt?N(0,I)的一個(gè)隨機(jī)噪聲
去噪目標(biāo)為原始數(shù)據(jù) x 0 x_0 x0?
去噪實(shí)現(xiàn)需要有一個(gè)每一步的圖像分布狀態(tài)轉(zhuǎn)移的馬爾可夫鏈,即我們需要的擴(kuò)散模型
數(shù)學(xué)表達(dá)式
從時(shí)間步t到時(shí)間步t?1的單步反向“去噪”過(guò)程
image.png
均值表達(dá)式
image.png
方差表達(dá)式
image.png

優(yōu)化目標(biāo)

噪聲殘差,即要求后向過(guò)程中預(yù)測(cè)的噪聲分布與前向過(guò)程中施加的噪聲分布之間的“距離”最小,則能達(dá)到后向去噪過(guò)程得到的 x 0 ′ x_0' x0?與前向加噪的原始數(shù)據(jù) x 0 x_0 x0?最接近
用VAE類比
擴(kuò)散模型可視為一個(gè)包含T個(gè)隱變量的模型,即更深層次的VAE
VAE的損失函數(shù)可以使用變分推斷來(lái)得到變分下界(variational lower bound)
數(shù)學(xué)表達(dá)式
image.png
分析可知,使用的是MSE損失函數(shù)

1.2 擴(kuò)散模型的發(fā)展

與2D圖像生成相關(guān)的擴(kuò)散模型的發(fā)展歷程
發(fā)展歷程:
image.png

開(kāi)始擴(kuò)散:DDPM

于2020年提出的DDPM模型(Denoising Diffusion Probabilistic Models)首次將“去噪”擴(kuò)散概率模型應(yīng)用到圖像生成任務(wù)中,做出的貢獻(xiàn)包括:擴(kuò)散過(guò)程定義、噪聲分布假設(shè)、馬爾可夫鏈計(jì)算、隨機(jī)微分方程求解和損失函數(shù)表征等

加速生成:采樣器

早期的擴(kuò)散模型由于采樣器所控制的圖像生成階段需要迭代多次,生成速度非常慢
當(dāng)時(shí)亟待解決的問(wèn)題是如何在保證生成質(zhì)量的前提下加快采樣
重要突破
論文“Score-Based Generative Modeling through Stochastic Differential Equations”證明了DDPM的采樣過(guò)程是更普遍的隨機(jī)微分方程,這為加速采樣提供了一個(gè)重要的解決思路——更離散化地求解該隨機(jī)微分方程,即可縮短采樣所需步驟
加速的采樣器舉例
Euler、SDE、DPM-Solver++和Karras等
舉個(gè)例子
image.png

刷新記錄:基于CLIP的多模態(tài)圖像生成

由于早期的擴(kuò)散模型在所生成圖像的質(zhì)量和穩(wěn)定性上并不如經(jīng)典的生成模型GAN,擴(kuò)散模型并沒(méi)有被廣泛應(yīng)用到圖像生成領(lǐng)域
重要突破
OpenAI在論文“Diffusion Models Beat GANs on Image Synthesis”中介紹了在擴(kuò)散過(guò)程中使用顯式分類器進(jìn)行引導(dǎo)的方法,這使得擴(kuò)散模型在圖像生成領(lǐng)域打敗了GAN

引爆網(wǎng)絡(luò):基于CLIP的多模態(tài)圖像生成

CLIP介紹
連接文本和圖像的模型,將同一語(yǔ)義的文字和圖片轉(zhuǎn)換到同一個(gè)隱空間中
將CLIP技術(shù)和擴(kuò)散模型結(jié)合,引起了基于文字引導(dǎo)的文字生成圖像擴(kuò)散模型的快速發(fā)展
文生圖模型舉例
OpenAI的GLIDE、DALL-E、DALL-E 2
Google的Imagen以及開(kāi)源的Stable Diffusion

再次“出圈”:大模型的“再學(xué)習(xí)”方法——DreamBooth、LoRA和ControlNet

“再學(xué)習(xí)”方法的原因
現(xiàn)在的圖像生成擴(kuò)散模型都是大規(guī)模的、預(yù)訓(xùn)練的,類比微調(diào)之于大模型,在使用擴(kuò)散模型的圖像生成領(lǐng)域有了多種“再學(xué)習(xí)”方法
常見(jiàn)“再學(xué)習(xí)”方法
針對(duì)不同的任務(wù),有這樣三種再學(xué)習(xí)方法——DreamBooth、LoRA和ControlNet
DreamBooth方法
實(shí)現(xiàn)使用現(xiàn)有模型再學(xué)習(xí)到指定主體圖像的功能,即在訓(xùn)練過(guò)程中將指定主體圖像與特定的文本標(biāo)識(shí)綁定
舉個(gè)例子
image.png
在這個(gè)例子中,訓(xùn)練過(guò)程中將“小狗”與輸入圖像進(jìn)行綁定,從而通過(guò)文字提示生成此特定小狗在不同場(chǎng)景下的圖像
LoRA方法
實(shí)現(xiàn)使用現(xiàn)有模型再學(xué)習(xí)到自己指定數(shù)據(jù)集風(fēng)格或人物的功能,并且還能夠?qū)⑵淙谌氍F(xiàn)有的圖像生成中
如Facechain模型中通過(guò)提供人物數(shù)據(jù)集并選擇不同的風(fēng)格數(shù)據(jù)集,使用LoRA方法得到人物寫真圖像
Hugging Face提供了訓(xùn)練LoRA的UI界面
ControlNet方法
再學(xué)習(xí)到更多模態(tài)的信息,并利用分割圖、邊緣圖等功能更精細(xì)地控制圖像的生成

開(kāi)啟AI作畫時(shí)代:眾多商業(yè)公司提出成熟的圖像生成解決方案

圖像生成解決方案舉例
Midjourney的Discord頻道主頁(yè):輸入提示語(yǔ)來(lái)生成圖像、跟全世界的用戶一起分享和探討圖像生成的細(xì)節(jié)
Stability AI的圖像生成工具箱DreamStudio:使用提示語(yǔ)來(lái)編輯圖像、將其SDK嵌入自己的應(yīng)用或者作為Photoshop插件使用
Photoshop:基于擴(kuò)散模型的圖像編輯工具庫(kù)Adobe Firefly
百度公司:文心一格AI創(chuàng)作平臺(tái)
阿里巴巴達(dá)摩院:通義文生圖大模型
退格網(wǎng)絡(luò):Tiamat圖像生成工具
北京毛線球科技有限公司:6pen Art圖像生成APP,將圖像生成帶到手機(jī)端

1.3 擴(kuò)散模型的應(yīng)用

擴(kuò)散模型最常見(jiàn)、最成熟的應(yīng)用就是完成圖像生成任務(wù)
但擴(kuò)散模型在其他領(lǐng)域仍有極大的應(yīng)用前景,這是不容忽視的
包括但不限于以下領(lǐng)域的應(yīng)用
image.png

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)包括2D視覺(jué)和3D視覺(jué)兩個(gè)方面,這里專注于擴(kuò)散模型在2D圖像領(lǐng)域的應(yīng)用

圖像分割與目標(biāo)檢測(cè)
Meta AI的SegDiff分割擴(kuò)散模型可以生成分割Mask圖
image.png
檢測(cè)擴(kuò)散模型DiffusionDet可以端到端地從隨機(jī)矩形框逐步生成檢測(cè)框
image.png
存在的問(wèn)題:生成速度慢,難以應(yīng)用于一些需要實(shí)時(shí)檢測(cè)的場(chǎng)景

圖像超分辨率

圖像超分辨率是一項(xiàng)能夠?qū)⒌头直媛蕡D像重建為高分辨率圖像,同時(shí)保證圖像布局連貫的技術(shù)

CDM(Cascaded Diffusion Model,級(jí)聯(lián)擴(kuò)散模型)通過(guò)采用串聯(lián)多個(gè)擴(kuò)散模型的方式,分級(jí)式地逐步放大分辨率,實(shí)現(xiàn)了圖像超分辨率(論文"Cascaded Diffusion Models for High Fidelity Image Generation")
image.png
圖像修復(fù)、翻譯和編輯

圖像修復(fù)、圖像翻譯和圖像編輯是對(duì)圖像的部分或全部區(qū)域執(zhí)行的操作,包括缺失部分修補(bǔ)、風(fēng)格遷移、內(nèi)容替換等

Palette:一個(gè)集成了圖像修復(fù)、圖像翻譯和圖像編輯等功能的擴(kuò)散模型,它可以在一個(gè)模型中完成不同的圖像級(jí)任務(wù)(論文"Palette: Image-to-Imge Diffusion Models. ")

時(shí)序數(shù)據(jù)預(yù)測(cè)

時(shí)序數(shù)據(jù)預(yù)測(cè)旨在根據(jù)歷史觀測(cè)數(shù)據(jù)預(yù)測(cè)未來(lái)可能出現(xiàn)的數(shù)據(jù),如空氣溫度預(yù)測(cè)、股票價(jià)格預(yù)測(cè)、銷售與產(chǎn)能預(yù)測(cè)等。時(shí)序數(shù)據(jù)可以視為生成任務(wù),因而擴(kuò)散模型可以發(fā)揮作用

TimeGrad:首個(gè)在多元概率時(shí)序數(shù)據(jù)預(yù)測(cè)任務(wù)中加入擴(kuò)散思想的自回歸模型。為了將擴(kuò)散過(guò)程添加到歷史數(shù)據(jù)中,TimeGrad首先使用RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))處理歷史數(shù)據(jù)并保存到隱空間中,然后對(duì)歷史數(shù)據(jù)添加噪聲以實(shí)現(xiàn)擴(kuò)散過(guò)程,由此處理數(shù)千維度的多元數(shù)據(jù)并完成預(yù)測(cè)任務(wù)(論文"Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forcasting.")
image.png

自然語(yǔ)言

擴(kuò)散模型用于語(yǔ)言類的生成任務(wù):將自然語(yǔ)言類的句子分詞轉(zhuǎn)換為詞向量后使用擴(kuò)散模型學(xué)習(xí)自然語(yǔ)言的語(yǔ)句生成,進(jìn)而完成nlp中更復(fù)雜的任務(wù)

Diffusion-LM是首個(gè)將擴(kuò)散模型應(yīng)用到自然語(yǔ)言領(lǐng)域的擴(kuò)散語(yǔ)言模型,解決了將連續(xù)的擴(kuò)散過(guò)程應(yīng)用到離散的非連續(xù)化文本的問(wèn)題,從而實(shí)現(xiàn)語(yǔ)言類的高細(xì)粒度可控生成。

基于文本的多模態(tài)

多模態(tài)信息:多種數(shù)據(jù)類型的信息,包括文本、圖像、音/視頻、3D物體等。在LLM不斷發(fā)展的今天,多模態(tài)的發(fā)展趨勢(shì)為基于文本和其他模態(tài)的交互,如文本生成圖像、文本生成視頻、文本生成3D等

文本生成圖像
文生圖是擴(kuò)散模型最最流行、最成熟的應(yīng)用
input為文本提示,output為對(duì)應(yīng)圖片
模型舉例:DALLE-2、Imagen以及完全開(kāi)源的Stable Diffusion等

文本生成視頻
將輸入的文本提示語(yǔ)轉(zhuǎn)換為相應(yīng)的視頻流,其難點(diǎn)在于視頻的前后幀需要保持極佳的連貫性
模型舉例:Meta AI的Make-A-Video以及能夠精細(xì)控制視頻生成的ControlNet Video等
image.png
文本生成3D
將輸入的文本轉(zhuǎn)換為相應(yīng)的3D物體,其不同在于3D物體有多種表征方式,如點(diǎn)云、網(wǎng)格、NeRF等
模型舉例:
DiffRF從文本生成3D輻射場(chǎng)
3DFuse基于二維圖像生成對(duì)應(yīng)的3D點(diǎn)云
應(yīng)用前景:室內(nèi)設(shè)計(jì)、游戲建模、元宇宙數(shù)字人等
image.png

AI基礎(chǔ)科學(xué)

AI for Science
SMCDiff創(chuàng)建了一種擴(kuò)散模型,根據(jù)給定的模體結(jié)構(gòu)生成多樣化的支架蛋白質(zhì)(論文"Diffusion Probabilistic Modeling of Prote in Backbones in 3D for the Motif-Scaffolding Problem.“)
image.png
CDVAE提出了一種擴(kuò)散晶體變分自編碼器模型,生成和優(yōu)化具有固定周期性原子結(jié)構(gòu)的材料(論文"Crystal Diffusion Variational Autoencoder for Periodic Material Generation.”)
image.png

參考資料

  1. 《擴(kuò)撒模型從原理到實(shí)戰(zhàn)》
http://www.risenshineclean.com/news/51446.html

相關(guān)文章:

  • 企業(yè)型網(wǎng)站建設(shè)咨詢電話百度搜索引擎網(wǎng)站
  • 獨(dú)立網(wǎng)站開(kāi)發(fā)者兼職網(wǎng)站seo外包公司報(bào)價(jià)
  • 德州做網(wǎng)站的公司有哪些千萬(wàn)別在百度上搜別人名字
  • 南昌優(yōu)化網(wǎng)站服務(wù)哪里有免費(fèi)的網(wǎng)站推廣
  • 織夢(mèng)做的網(wǎng)站怎么加彈窗哪里有軟件培訓(xùn)班
  • 免費(fèi)域名網(wǎng)站推薦關(guān)鍵詞優(yōu)化師
  • 怎么做新聞網(wǎng)站網(wǎng)站友情鏈接購(gòu)買
  • wordpress收費(fèi)破解模板搜索優(yōu)化seo
  • 武漢疫情最新消息今天佛山百度快照優(yōu)化排名
  • 莆田建站培訓(xùn)seo實(shí)戰(zhàn)密碼第四版pdf
  • 新聞網(wǎng)站策劃方案seo綜合查詢網(wǎng)站源碼
  • 網(wǎng)站建設(shè)對(duì)標(biāo)行業(yè)分析站內(nèi)優(yōu)化
  • 網(wǎng)站主辦者刷推廣鏈接人數(shù)的軟件
  • 網(wǎng)站追蹤如何做免費(fèi)找客戶軟件
  • .net 建網(wǎng)站線上教育培訓(xùn)機(jī)構(gòu)十大排名
  • 開(kāi)發(fā)網(wǎng)站設(shè)計(jì)百度競(jìng)價(jià)推廣開(kāi)戶價(jià)格
  • 網(wǎng)站建設(shè)方案 安全優(yōu)化營(yíng)商環(huán)境心得體會(huì)2023
  • 做網(wǎng)站怎么讓百度收錄了高質(zhì)量外鏈代發(fā)
  • web程序設(shè)計(jì)與實(shí)踐做網(wǎng)站搜索引擎關(guān)鍵詞優(yōu)化技巧
  • 上海網(wǎng)站建設(shè)工作室微博推廣平臺(tái)
  • 四川住建廳官方網(wǎng)站的網(wǎng)址樂(lè)云seo
  • 武漢做網(wǎng)站的知名公司個(gè)人網(wǎng)頁(yè)怎么制作
  • 網(wǎng)站建設(shè)淺析昆明seo
  • 網(wǎng)站做百度推廣搜狐綜合小時(shí)報(bào)2022113011
  • 虛擬網(wǎng)站什么是搜索引擎營(yíng)銷?
  • 網(wǎng)站建設(shè)哪家好 上海廣州疫情升級(jí)
  • 古典風(fēng)格網(wǎng)站模板htmlseo的搜索排名影響因素主要有
  • 天河做網(wǎng)站系統(tǒng)放單平臺(tái)
  • 南寧網(wǎng)站建設(shè)制作優(yōu)化大師哪個(gè)好
  • 手機(jī)英文網(wǎng)站大全各大搜索引擎入口