寧波企業(yè)網(wǎng)站搭建特點百度一下百度一下你知道
文章目錄
- 1 Motivation
- 2 背景 相關工作 Related work
- 3 Method 方法
- 4 效果
1 Motivation
背景是
Tuning-free personalized image generation methods無微調(diào)的個性化圖像生成方式在維持臉部一致性上取得了顯著性的成功。這里我不是很了解
然而,在多個場景中缺乏整體一致性,整體一致性是什么呢?雖然臉一致了,但是比如衣服和身體,頭發(fā)樣式上的一致性很難保證,這些進而阻礙了創(chuàng)建連貫的敘事的能力。
StoryMaker結合了多重條件,包括面部識別和裁剪的人物圖像(包括服裝、發(fā)型和身體),將兩個特征通過一種叫做(位置感知感知重采樣器 (PPR) 的方法 將面部身份信息與裁剪的字符圖像相結合,以獲得不同的人物特征。
為了防止多個人物和背景的混雜,分別通過帶有分割遮擋的MSE損失來限制了不同人物和背景的交叉注意力。
除此之外,訓練了基于特定姿勢的生成模型。
Lora也被用來提高質(zhì)量。
2 背景 相關工作 Related work
主流維持臉部一致性的工作有2個派系
派系1:微調(diào)系列
Break-A-Scene: Extracting Multiple Concepts from a Single Image(2023)
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion(2022)
Multi-Concept Customization of Text-to-Image Diffusion(2022)
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation(2022)
派系1生成能力不自然,因為圖像有限并且在微調(diào)上面花費成本較大
派系2:不微調(diào)系列
Customizing realistic human photos via stacked id embedding(2024)
Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning(2024)
High-fidelity image personalization via multi-modal condition integration(2024)
Instantfamily: Masked attention for zero-shot multi-id image generation.(2024)
Instantid: Zero-shot identity-preserving generation in seconds(2024)
通過視覺編碼器將視覺信息集成到生成器中,沒有用微調(diào)。
然而是上面的工作只能維持臉部特征,他們不能維持更全面的一致性
StoryMaker允許通過文本提示改變背景、人物姿勢和樣式。怎么做到的呢?就通過臉部特征上和裁剪的人物圖像去提取信息,使用位置感知感知器重采樣器(PPR)來導出人物特征
3 Method 方法
具體來說,首先使用人臉編碼器提取人物的面部信息,即面部特征,
以及通過人物圖像編碼器提取它們的衣服、發(fā)型和身體的細節(jié)。
然后,我們使用所提出的位置感知感知器重采樣器(PPR模塊)來細化此信息。PPR模塊的結構組成如右側所示。
為了控制主干生成網(wǎng)絡,將細化的信息注入到IP-Adapter提出的解耦交叉注意模塊中[Ye et al., 2023b]。
為了防止多個字符和背景交錯,我們分別約束交叉注意對不同人物和背景的影響區(qū)域。
ID 損失還用于維護人物的身份。此外,為了將姿態(tài)信息與參考圖像解耦,利用ControlNet檢測到的姿態(tài)訓練網(wǎng)絡[Zhang et al., 2023]。
為了提高保真度和質(zhì)量,我們還使用 LoRA [Hu et al., 2021] 訓練 U-Net。
一旦經(jīng)過訓練,就可以丟棄整個ControlNet,并通過文本提示控制字符的姿勢,或者在推理過程中用新的姿勢指導圖像生成。
提出的方法的完整流程如圖所示
4 效果
訓練在8卡 A100