推廣網(wǎng)站的軟件網(wǎng)頁查詢
【論文閱讀筆記】Prompt-to-Prompt Image Editing with Cross-Attention Control
- 個人理解
- 思考
- 基本信息
- 摘要
- 背景
- 挑戰(zhàn)
- 方法
- 結(jié)果
- 引言
- 方法論
- 結(jié)果
- 討論
- 引用
個人理解
- 通過將caption的注意力圖注入到目標(biāo)caption注意力中影響去噪過程
- 以一種直觀和便于理解的形式通過修改交叉注意力的交互來實現(xiàn)文本驅(qū)動圖像編輯
思考
- 基于掩碼的修改如果在修改的同時逐步融合新的Token是否可以更好的進(jìn)行局部修改?
- 修改的范圍是否足夠精準(zhǔn)?
- 要改變物體的時候形狀差異過大會導(dǎo)致偽影?
- 當(dāng)前的方法不能用于在空間上移動圖像中的現(xiàn)有對象
- 怎么樣能更好的生成符合視覺的效果(走Emu Edit造good data并訓(xùn)練的路子?其他的思路該怎么走)
- zero-shot的改進(jìn)方法到目前是否已經(jīng)到了極限(2023年11月28日)
- 當(dāng)注意力存在交集,怎么能分離或者說進(jìn)一步精準(zhǔn)控制?
- 除了注意力機(jī)制還有什么是關(guān)鍵的因素
- 怎么和大語言模型LLM相結(jié)合(instruct pix2pix是一個例子)
基本信息
- 標(biāo)題: Prompt-to-Prompt Image Editing with Cross-Attention Control
- 作者: Google Research
- 鏈接: 項目主頁
- 發(fā)布信息: 2022
- 關(guān)鍵詞: 文生圖,擴(kuò)散模型,圖像編輯
摘要
背景
- 最近的大規(guī)模文本驅(qū)動合成模型因其生成遵循給定文本提示的高度多樣化的圖像的顯著能力而備受關(guān)注。
- 將文本驅(qū)動的圖像合成擴(kuò)展到文本驅(qū)動的圖像編輯是很自然的
挑戰(zhàn)
- 編輯技術(shù)的固有特性是保留大部分原始圖像,而在基于文本的模型中,即使是對文本提示的微小修改也會導(dǎo)致完全不同的結(jié)果
- 最先進(jìn)的方法通過要求用戶提供空間掩碼來定位編輯來緩解這個問題,因此忽略了掩碼區(qū)域內(nèi)的原始結(jié)構(gòu)和內(nèi)容
方法
- 在本文中,我們追求一個直觀的提示到提示編輯框架,其中編輯僅由文本控制。
- 深入分析了一個文本條件模型,并觀察到交叉注意力層是控制圖像空間布局與提示中的每個單詞之間關(guān)系的關(guān)鍵。
結(jié)果
- 通過這一觀察,我們展示了幾個應(yīng)用程序,它們僅通過編輯文本提示來監(jiān)控圖像合成
- 這包括通過添加規(guī)范替換單詞、全局編輯,甚至巧妙地控制單詞在圖像中反映的程度來定位編輯
- 我們在不同的圖像和提示上展示了我們的結(jié)果,展示了編輯提示的高質(zhì)量合成和保真度
- 可以實現(xiàn)各種編輯任務(wù),并且不需要模型訓(xùn)練、微調(diào)、額外數(shù)據(jù)或優(yōu)化
引言
- 論文研究問題是什么?
- 文本驅(qū)動圖像編輯
- 研究的動機(jī)和目的是什么?
- 文本驅(qū)動圖像生成大模型的發(fā)展產(chǎn)生了文本驅(qū)動圖像編輯的需求,如何盡量更改特定語義區(qū)域而盡量不影響其他區(qū)域【由于文本的多義性,很難確定更改應(yīng)該是全局還是局部】
- 作者深入研究了交叉注意力機(jī)制對語義的影響,并通過其控制生成圖像
- 作者提到了哪些相關(guān)工作?
- 現(xiàn)有方法通過定位掩碼屏蔽需要更改的區(qū)域,但阻礙了快速直觀的驅(qū)動,并阻礙圖像整體的結(jié)構(gòu)信息
方法論
方法概述。
-
論文使用了什么方法或技術(shù)?
- 如Fig.3,上圖為視覺和文本嵌入使用交叉注意力層融合,該層為每個文本標(biāo)記生成空間注意力圖。下圖為使用源圖像的注意力圖來控制生成圖像的空間布局和幾何。允許通過僅編輯文本提示來實現(xiàn)各種編輯任務(wù)。
- 通過在擴(kuò)散過程中注入交叉注意力圖來編輯圖像,控制哪些像素關(guān)注擴(kuò)散步驟期間提示文本的哪些標(biāo)記。
- 展示了幾種方法,通過簡單和語義界面控制交叉注意力圖
- 第一個是在修復(fù)交叉注意力圖的同時,在提示中更改單個令牌的值(例如,“dog”到“cat”),以保留場景組合。在交換提示中的單詞時,我們注入源圖像mapsMt,覆蓋目標(biāo)圖像映射M * t,以保留空間布局。
- 第二個是全局編輯圖像,例如改變風(fēng)格,通過在提示中添加新詞并凍結(jié)先前標(biāo)記的注意力,同時允許新的注意力流向新的標(biāo)記。在添加新短語的情況下,我們只注入與提示不變部分相對應(yīng)的映射。
- 第三個是放大或減弱生成圖像中單詞的語義效果。通過重新加權(quán)相應(yīng)的注意力圖來實現(xiàn)的單詞的語義效果放大或減弱。
-
方法的創(chuàng)新點是什么?
- 生成的圖像的結(jié)構(gòu)和外觀不僅取決于隨機(jī)種子,還取決于像素與通過擴(kuò)散過程嵌入之間的交互。通過修改交叉注意層中出現(xiàn)的像素到文本的交互,提供了Prompt-to-Prompt圖像編輯功能
-
方法的優(yōu)勢和潛在劣勢是什么?
- 優(yōu)勢:無需掩碼,直觀地通過新文本修改原文本生成的圖像
- 劣勢:對于真實圖像依賴于反演、文本的歧義性帶來視覺對齊問題(修改文本生成的是否是視覺想要的,這也是Emu edit嘗試解決的問題
)
-
實施步驟
-
設(shè)DM (zt, P, t, s)為擴(kuò)散過程單步t的計算,輸出噪聲圖像zt?1,注意圖Mt(未使用省略)。用 DM (zt, P, t, s){M ← M ^ \hat{M} M^} 表示擴(kuò)散步驟,我們用一個額外的給定映射 M ^ \hat{M} M^覆蓋注意力圖 M,但保留來自提供的提示的值 V。還用 M t ? M^*_t Mt??表示使用編輯提示 p ? p^* p?生成的注意圖。最后,我們將 Edit( M t M_t Mt?, M t ? M^*_t Mt?? , t) 定義為一個通用的編輯函數(shù),在生成過程中接收原始圖像和編輯圖像的第 t 個注意力圖作為輸入
-
word swap
- 通過在設(shè)定注意力交互的時間步可以更好控制編輯程度
- 通過在設(shè)定注意力交互的時間步可以更好控制編輯程度
-
Adding a New Phrase
-
Attention Re–weighting
-
DDIM反演并執(zhí)行P2P
但由于DDIM反演可能會產(chǎn)生和原圖不一致的情況,使用直接從注意力圖中提取的掩碼恢復(fù)原始圖像的未編輯區(qū)域。請注意,這里掩碼是在沒有用戶指導(dǎo)的情況下生成的。
-
結(jié)果
- 實驗結(jié)果顯示了什么?
文本到圖像擴(kuò)散模型中交叉注意力層的強(qiáng)大能力 - 結(jié)果支持了哪些論點?
討論
- 討論中提到哪些限制和未來的工作方向?
- 基于反演的圖像重建失真(Null text很好的解決了這個問題)
- 模型的交叉注意力分辨率較低,限制了性能
- 當(dāng)前的方法不能用于在空間上移動圖像中的現(xiàn)有對象
引用
如何引用本文:
@article{hertz2022prompt,title={Prompt-to-prompt image editing with cross attention control},author={Hertz, Amir and Mokady, Ron and Tenenbaum, Jay and Aberman, Kfir and Pritch, Yael and Cohen-Or, Daniel},booktitle={arXiv preprint arXiv:2208.01626},year={2022}
}