中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

推廣網(wǎng)站的軟件網(wǎng)頁查詢

推廣網(wǎng)站的軟件,網(wǎng)頁查詢,怎樣做電商生意,ppt要怎么做網(wǎng)站【論文閱讀筆記】Prompt-to-Prompt Image Editing with Cross-Attention Control 個人理解思考基本信息摘要背景挑戰(zhàn)方法結(jié)果 引言方法論結(jié)果討論引用 個人理解 通過將caption的注意力圖注入到目標(biāo)caption注意力中影響去噪過程以一種直觀和便于理解的形式通過修改交叉注意力的…

【論文閱讀筆記】Prompt-to-Prompt Image Editing with Cross-Attention Control

  • 個人理解
  • 思考
  • 基本信息
  • 摘要
    • 背景
    • 挑戰(zhàn)
    • 方法
    • 結(jié)果
  • 引言
  • 方法論
  • 結(jié)果
  • 討論
    • 引用

個人理解

  • 通過將caption的注意力圖注入到目標(biāo)caption注意力中影響去噪過程
  • 以一種直觀和便于理解的形式通過修改交叉注意力的交互來實現(xiàn)文本驅(qū)動圖像編輯

思考

  • 基于掩碼的修改如果在修改的同時逐步融合新的Token是否可以更好的進(jìn)行局部修改?
  • 修改的范圍是否足夠精準(zhǔn)?
  • 要改變物體的時候形狀差異過大會導(dǎo)致偽影?
  • 當(dāng)前的方法不能用于在空間上移動圖像中的現(xiàn)有對象
  • 怎么樣能更好的生成符合視覺的效果(走Emu Edit造good data并訓(xùn)練的路子?其他的思路該怎么走)
  • zero-shot的改進(jìn)方法到目前是否已經(jīng)到了極限(2023年11月28日)
  • 當(dāng)注意力存在交集,怎么能分離或者說進(jìn)一步精準(zhǔn)控制?
  • 除了注意力機(jī)制還有什么是關(guān)鍵的因素
  • 怎么和大語言模型LLM相結(jié)合(instruct pix2pix是一個例子)

基本信息

  • 標(biāo)題: Prompt-to-Prompt Image Editing with Cross-Attention Control
  • 作者: Google Research
  • 鏈接: 項目主頁
  • 發(fā)布信息: 2022
  • 關(guān)鍵詞: 文生圖,擴(kuò)散模型,圖像編輯

摘要

背景

  • 最近的大規(guī)模文本驅(qū)動合成模型因其生成遵循給定文本提示的高度多樣化的圖像的顯著能力而備受關(guān)注。
  • 將文本驅(qū)動的圖像合成擴(kuò)展到文本驅(qū)動的圖像編輯是很自然的

挑戰(zhàn)

  • 編輯技術(shù)的固有特性是保留大部分原始圖像,而在基于文本的模型中,即使是對文本提示的微小修改也會導(dǎo)致完全不同的結(jié)果
  • 最先進(jìn)的方法通過要求用戶提供空間掩碼來定位編輯來緩解這個問題,因此忽略了掩碼區(qū)域內(nèi)的原始結(jié)構(gòu)和內(nèi)容

方法

  • 在本文中,我們追求一個直觀的提示到提示編輯框架,其中編輯僅由文本控制。
  • 深入分析了一個文本條件模型,并觀察到交叉注意力層是控制圖像空間布局與提示中的每個單詞之間關(guān)系的關(guān)鍵

結(jié)果

  • 通過這一觀察,我們展示了幾個應(yīng)用程序,它們僅通過編輯文本提示來監(jiān)控圖像合成
  • 這包括通過添加規(guī)范替換單詞、全局編輯,甚至巧妙地控制單詞在圖像中反映的程度來定位編輯
  • 我們在不同的圖像和提示上展示了我們的結(jié)果,展示了編輯提示的高質(zhì)量合成和保真度
  • 可以實現(xiàn)各種編輯任務(wù),并且不需要模型訓(xùn)練、微調(diào)、額外數(shù)據(jù)或優(yōu)化
    在這里插入圖片描述

引言

  • 論文研究問題是什么?
    • 文本驅(qū)動圖像編輯
  • 研究的動機(jī)和目的是什么?
    • 文本驅(qū)動圖像生成大模型的發(fā)展產(chǎn)生了文本驅(qū)動圖像編輯的需求,如何盡量更改特定語義區(qū)域而盡量不影響其他區(qū)域【由于文本的多義性,很難確定更改應(yīng)該是全局還是局部
    • 作者深入研究了交叉注意力機(jī)制對語義的影響,并通過其控制生成圖像
  • 作者提到了哪些相關(guān)工作?
    • 現(xiàn)有方法通過定位掩碼屏蔽需要更改的區(qū)域,但阻礙了快速直觀的驅(qū)動,并阻礙圖像整體的結(jié)構(gòu)信息

方法論

在這里插入圖片描述
方法概述。
在這里插入圖片描述

  • 論文使用了什么方法或技術(shù)?

    • 如Fig.3,上圖為視覺和文本嵌入使用交叉注意力層融合,該層為每個文本標(biāo)記生成空間注意力圖。下圖為使用源圖像的注意力圖來控制生成圖像的空間布局和幾何。允許通過僅編輯文本提示來實現(xiàn)各種編輯任務(wù)。
    • 通過在擴(kuò)散過程中注入交叉注意力圖來編輯圖像,控制哪些像素關(guān)注擴(kuò)散步驟期間提示文本的哪些標(biāo)記。
    • 展示了幾種方法,通過簡單和語義界面控制交叉注意力圖
      • 第一個是在修復(fù)交叉注意力圖的同時,在提示中更改單個令牌的值(例如,“dog”到“cat”),以保留場景組合。在交換提示中的單詞時,我們注入源圖像mapsMt,覆蓋目標(biāo)圖像映射M * t,以保留空間布局。
      • 第二個是全局編輯圖像,例如改變風(fēng)格,通過在提示中添加新詞并凍結(jié)先前標(biāo)記的注意力,同時允許新的注意力流向新的標(biāo)記。在添加新短語的情況下,我們只注入與提示不變部分相對應(yīng)的映射。
      • 第三個是放大或減弱生成圖像中單詞的語義效果。通過重新加權(quán)相應(yīng)的注意力圖來實現(xiàn)的單詞的語義效果放大或減弱。
  • 方法的創(chuàng)新點是什么?

    • 生成的圖像的結(jié)構(gòu)和外觀不僅取決于隨機(jī)種子,還取決于像素與通過擴(kuò)散過程嵌入之間的交互。通過修改交叉注意層中出現(xiàn)的像素到文本的交互,提供了Prompt-to-Prompt圖像編輯功能
  • 方法的優(yōu)勢和潛在劣勢是什么?

    • 優(yōu)勢:無需掩碼,直觀地通過新文本修改原文本生成的圖像
    • 劣勢:對于真實圖像依賴于反演、文本的歧義性帶來視覺對齊問題(修改文本生成的是否是視覺想要的,這也是Emu edit嘗試解決的問題
  • 實施步驟

    • 設(shè)DM (zt, P, t, s)為擴(kuò)散過程單步t的計算,輸出噪聲圖像zt?1,注意圖Mt(未使用省略)。用 DM (zt, P, t, s){M ← M ^ \hat{M} M^} 表示擴(kuò)散步驟,我們用一個額外的給定映射 M ^ \hat{M} M^覆蓋注意力圖 M,但保留來自提供的提示的值 V。還用 M t ? M^*_t Mt??表示使用編輯提示 p ? p^* p?生成的注意圖。最后,我們將 Edit( M t M_t Mt?, M t ? M^*_t Mt?? , t) 定義為一個通用的編輯函數(shù),在生成過程中接收原始圖像和編輯圖像的第 t 個注意力圖作為輸入
      在這里插入圖片描述

    • word swap

      • 通過在設(shè)定注意力交互的時間步可以更好控制編輯程度
        在這里插入圖片描述
        在這里插入圖片描述
    • Adding a New Phrase在這里插入圖片描述 在這里插入圖片描述
      在這里插入圖片描述

    • Attention Re–weighting
      在這里插入圖片描述在這里插入圖片描述

    • DDIM反演并執(zhí)行P2P
      在這里插入圖片描述
      但由于DDIM反演可能會產(chǎn)生和原圖不一致的情況,使用直接從注意力圖中提取的掩碼恢復(fù)原始圖像的未編輯區(qū)域。請注意,這里掩碼是在沒有用戶指導(dǎo)的情況下生成的。
      在這里插入圖片描述

結(jié)果

  • 實驗結(jié)果顯示了什么?
    文本到圖像擴(kuò)散模型中交叉注意力層的強(qiáng)大能力
  • 結(jié)果支持了哪些論點?

討論

  • 討論中提到哪些限制和未來的工作方向?
    • 基于反演的圖像重建失真(Null text很好的解決了這個問題)
    • 模型的交叉注意力分辨率較低,限制了性能
    • 當(dāng)前的方法不能用于在空間上移動圖像中的現(xiàn)有對象

引用

如何引用本文:

@article{hertz2022prompt,title={Prompt-to-prompt image editing with cross attention control},author={Hertz, Amir and Mokady, Ron and Tenenbaum, Jay and Aberman, Kfir and Pritch, Yael and Cohen-Or, Daniel},booktitle={arXiv preprint arXiv:2208.01626},year={2022}
}
http://www.risenshineclean.com/news/53626.html

相關(guān)文章:

  • 杭州的網(wǎng)站建設(shè)公司有哪些百度搜索熱度指數(shù)
  • 響應(yīng)式網(wǎng)站開發(fā)步驟商鋪營銷推廣方案
  • 公司做網(wǎng)站費用外貿(mào)網(wǎng)站建站和推廣
  • 什么是網(wǎng)站微商城的建設(shè)seo建站教學(xué)
  • 騰訊官方網(wǎng)站網(wǎng)絡(luò)營銷成功案例
  • 北京旅游設(shè)計網(wǎng)站建設(shè)網(wǎng)站優(yōu)化推廣seo公司
  • 商城手機(jī)網(wǎng)站制作口碑營銷有哪些
  • 網(wǎng)站建設(shè)銀行卡死期存款提前取出百度學(xué)術(shù)論文查重免費檢測
  • 深圳網(wǎng)站制作公司訊息站長統(tǒng)計幸福寶下載
  • 萊蕪高新區(qū)管委會網(wǎng)站求職seo服務(wù)
  • 蘇州企業(yè)網(wǎng)站優(yōu)化成都新一輪疫情
  • 網(wǎng)站建設(shè)費賬務(wù)處理英雄聯(lián)盟世界排名
  • 企業(yè)網(wǎng)站建站寧波seo公司
  • 做蛋糕招聘網(wǎng)站域名申請
  • 響應(yīng)式網(wǎng)站建設(shè)平臺鄭州網(wǎng)絡(luò)推廣平臺
  • 建設(shè)網(wǎng)站的技術(shù)手段優(yōu)化大師有必要花錢嗎
  • 做裝修的業(yè)務(wù)網(wǎng)站網(wǎng)絡(luò)營銷常用的工具有哪些
  • 香港特別行政區(qū)成品網(wǎng)站源碼的優(yōu)化技巧
  • vr網(wǎng)站開發(fā)免費大數(shù)據(jù)查詢
  • 杭州知名的網(wǎng)站制作策略谷歌seo外包
  • 商城網(wǎng)站html模板競價廣告是什么意思
  • 蘇州建站模板展示360投放廣告怎么收費
  • 本機(jī)怎么放自己做的網(wǎng)站市場推廣外包團(tuán)隊
  • 手機(jī)建網(wǎng)站怎么弄企業(yè)關(guān)鍵詞優(yōu)化最新報價
  • 關(guān)于建設(shè)網(wǎng)站的培訓(xùn)知識長沙做優(yōu)化的公司
  • 西安做網(wǎng)站建設(shè)哪家好搜索引擎優(yōu)化排名seo
  • 自適應(yīng)導(dǎo)航網(wǎng)站模板線下推廣活動策劃方案
  • 做網(wǎng)站生意旁軟文廣告經(jīng)典案例600
  • 視頻拍攝腳本模板廣州seo優(yōu)化費用
  • 百度統(tǒng)計網(wǎng)站速度診斷快速優(yōu)化官網(wǎng)