做中東服裝有什么網(wǎng)站衡陽百度推廣
在生成模型領域,針對特定身份(ID)創(chuàng)建內(nèi)容已經(jīng)引起了極大的興趣。在文本到圖像生成(T2I)領域,以主題驅(qū)動的內(nèi)容生成已經(jīng)取得了巨大的進展,使圖像中的ID可控。然而,將其擴展到視頻生成領域尚未得到很好的探索。今天分享的這個工作,提出了一個簡單而有效的主題ID可控視頻生成框架,稱為Video Custom Diffusion(VCD)。
論文鏈接:https://arxiv.org/pdf/2402.09368
開源地址:https://github.com/Zhen-Dong/Magic-Me
通過指定由少數(shù)圖像定義的主題ID,VCD加強了ID信息的提取,并在初始化階段注入幀間相關性,以穩(wěn)定地生成具有很大程度上保留身份的視頻輸出。為實現(xiàn)這一目標,提出了三個關鍵的新組件,對于高質(zhì)量的ID保留至關重要:
-
通過prompt-to-segmentation訓練的ID模塊,通過分解身份信息和背景噪聲,實現(xiàn)更準確的ID token學習;
-
帶有3D高斯噪聲先驗的文本到視頻(T2V)VCD模塊,以實現(xiàn)更好的幀間一致性;
-
視頻到視頻(V2V)Face VCD和Tiled VCD模塊,以去除臉部模糊并提升視頻分辨率。
盡管VCD的設計簡單,但大量實驗證明,VCD能夠生成穩(wěn)定且高質(zhì)量的視頻,并且在選擇的強基準線上具有更好的ID。此外,由于ID模塊的可轉(zhuǎn)移性,VCD與公開可用的經(jīng)過微調(diào)的文本到圖像模型也能很好地配合,進一步提高了其可用性。
介紹
最近在文本到視頻(T2V)生成領域的進展使得可以從文本描述中創(chuàng)建一致且逼真的動畫,盡管對生成內(nèi)容的精確控制仍然是一個挑戰(zhàn)。在現(xiàn)實世界的應用中,通常需要根據(jù)文本描述的背景生成具有特定身份的內(nèi)容,這就是所謂的身份特定生成任務。在電影制作等場景中,這一點非常重要,因為需要為特定角色進行特定動作的動畫制作。類似的情況也發(fā)生在廣告領域,其中需要在不同的場景或環(huán)境中保持一致的產(chǎn)品身份。
在視頻生成中控制對象身份,特別是與人相關的場景,仍然是一個挑戰(zhàn)。先前的工作通常利用圖像參考,主要關注樣式和動作,而一些工作通過視頻編輯探索定制生成。雖然這些方法提供了綜合的控制,例如參考圖像、參考視頻或深度圖來切換樣式或一般外觀,但它們的重點不在于身份特定控制。如下圖2的第一行所示,傳統(tǒng)的T2V方法將生成的視頻增強為遵循參考圖像,而主體身份并未反映出來。
在最近針對身份特定文本到圖像(T2I)模型的努力中,取得了顯著的進展。這些模型利用與指定ID相關聯(lián)的少數(shù)圖像,通過可學習的概念token微調(diào)預訓練的T2I模型。在推理過程中,網(wǎng)絡通過將ID token整合到文本描述中來生成ID特定的圖像。將這種方法擴展到視頻生成似乎很直觀,可以在視頻生成模型上保持相同的流程。然而,在下圖2的第二行中,生成的ID并不一致,并且視頻背景缺乏穩(wěn)定性。
上圖2中觀察到的失敗案例突顯了兩個潛在問題。
-
收集的參考圖像展示了多樣的背景,捕捉了同一個人的表情、外觀和設置的變化。這種多樣性被印在了獨特的ID token上。因此,在推理過程中,即使使用相同的ID token,生成的視頻幀也可能顯示出不同的ID。雖然在圖像環(huán)境中可能不會造成問題,但在視頻生成中就成為了問題。
-
當前的視頻生成框架依賴于預訓練的運動模塊來建立幀間一致性。當ID token獨立地初始化每個幀并具有多樣化的信息時,運動模塊可能會難以生成時間上一致的視頻幀。
本工作主要關注的是ID特定的定制化,目標是在保留主體ID的同時,用不同的運動和場景來給主體的身份賦予生命。在上圖2的底部一行中,本文的方法處理了保留特定身份和引入變化之間的平衡,并解決了以前方法中的兩個主要問題。
為了解決第一個問題,提出了一個ID模塊,它改善了學習到的ID token信息與主觀ID的對齊。該模塊將身份的特定特征學習為少量緊湊的文本 token embedding,即擴展的ID token,它比SVDiff的參數(shù)數(shù)量少大約105倍(16KB vs. 1.7MB)。在優(yōu)化過程中,ID token的更新完全依賴于對象組件,利用一個從提示到分割的子模塊來區(qū)分身份和背景。實證結果表明,ID模塊在增強ID信息提取和增加生成的視頻與用戶指定的ID之間的一致性方面是有效的。
為了解決第二個問題,提出了一種新穎的3D高斯噪聲先驗來建立輸入幀之間的相關性。它是無需訓練的,并確保在推理階段初始化時的一致性。因此,盡管ID token可能包含多樣化的信息,在去噪過程中,所有幀往往描述出一致的ID,從而產(chǎn)生了改進的視頻剪輯。所有幀的初始化噪聲之間的協(xié)方差由協(xié)方差矩陣控制。為了進一步提高生成視頻的質(zhì)量,進一步應用了Face VCD來去噪模糊的面部以恢復遠處人的身份,以及Tiled VCD來進一步提高視頻的分辨率。VCD框架對T2V和V2V都適用。
本文方法Video Custom Diffusion(VCD),引入了一種模塊化方法來進行ID特定的視頻生成。優(yōu)化過程在兩個pipeline中重復使用相同的ID模塊,即T2V VCD和V2V VCD,以保留身份?;赟table Diffusion的基礎,這些pipeline可以在推理過程中使用任何領域特定模型,在同一基礎上進行微調(diào),為像Civitai和Hugging Face等AI生成內(nèi)容社區(qū)提供了寶貴的靈活性,允許非技術用戶獨立地混合和匹配模塊,類似于廣泛接受的自由組合DreamBooth、LoRA和前綴 embedding權重。
本文貢獻總結如下:
-
引入了一種新穎的框架,Video Custom Diffusion(VCD),專門用于生成高質(zhì)量的ID特定視頻。VCD在將ID與提供的圖像和文本描述對齊方面表現(xiàn)出顯著的改進。
-
提出了一種穩(wěn)健的3D高斯噪聲先驗用于視頻幀去噪,增強幀間相關性,從而提高視頻一致性。
-
提出了兩個V2V模塊,即Face VCD和Tiled VCD,用于將視頻提升到更高的分辨率。
-
設計了一種新的訓練范式,通過prompt-to-segmentation的masked loss來減輕ID token中的噪聲。
相關工作
主題驅(qū)動的文本到圖像生成
T2I擴散模型的發(fā)展代表了圖像生成的一大進步,可以創(chuàng)建逼真的肖像和幻想實體的想象描繪。最近的努力集中在定制這些生成模型上,其中使用預訓練的T2I擴散模型以及一組最小的定制主題圖像,旨在微調(diào)模型并學習與所需主題相關聯(lián)的唯一標識符。開創(chuàng)性的方法,如Textual Inversion,調(diào)整了 token embedding以學習 token與主題圖像之間的映射,而不改變模型結構,而DreamBooth則涉及全面的模型微調(diào),以學習主題的概念,并保留通用概念生成的能力。這引發(fā)了一系列后續(xù)工作,如NeTI,側(cè)重于主題的保真度和身份保留。它進一步擴展到多主題生成,其中模型能夠共同學習多個主題,并將它們組合成單個生成的圖像。
文本到視頻生成
在圖像生成的基礎上,文本到視頻(T2V)似乎是生成模型新應用的下一個突破。與圖像生成相比,視頻生成更具挑戰(zhàn)性,因為它需要高計算成本來保持跨多幀的長期空間和時間一致性,需要以簡短視頻字幕的模糊提示為條件,并且缺乏具有視頻-文本對的高質(zhì)量標注數(shù)據(jù)集。早期的探索利用GAN和VAE-based方法以自回歸方式生成幀,給定一個字幕,然而,這些工作局限于簡單、孤立運動的低分辨率視頻。接下來的研究采用大規(guī)模的變壓器架構來生成長時間、高清質(zhì)量的視頻,但是這些方法面臨著顯著的訓練、內(nèi)存和計算成本。擴散模型的最近成功引領了以擴散為基礎的視頻生成新浪潮,開創(chuàng)性的工作如Video Diffusion Models 和 Imagen Video 引入了新的條件采樣技術,用于時空視頻擴展。MagicVideo通過在低維潛在空間中生成視頻剪輯顯著提高了生成效率,這之后又被 Video LDM 所跟隨。
視頻編輯
進一步的進展更加注重控制生成的視頻。Tune-a-Video允許在保持動作的同時更改視頻內(nèi)容,通過使用單個文本-視頻對微調(diào)T2I擴散模型。Text2Video-Zero和Runway Gen提出將可訓練的運動動態(tài)模塊與預訓練的Stable Diffusion相結合,進一步實現(xiàn)了由文本和姿勢/邊緣/圖像指導的視頻合成,而無需使用任何配對的文本-視頻數(shù)據(jù)。最近,AnimateDiff通過在運動模塊的訓練中提煉合理的動作先驗來對大多數(shù)現(xiàn)有的個性化T2I模型進行動畫化。
圖像動畫
以前關于圖像動畫的研究主要集中在將靜態(tài)圖像擴展為序列幀,而不改變場景或修改角色屬性。以前的工作從圖像或視頻中獲取主題,并將另一個視頻中發(fā)生的動作轉(zhuǎn)移到主題上。本文框架不僅能夠?qū)o定的幀進行動畫處理,還能夠修改主題的屬性并更改背景,所有這些都以合理的動作呈現(xiàn)出來。
基礎知識
潛在擴散模型。 本工作基于Stable Diffusion,這是潛在擴散模型的一種變體。在訓練中,擴散模型以圖像和條件c作為輸入,并使用圖像編碼器將編碼為潛在代碼。潛在代碼通過正向過程與高斯噪聲ε混合,可以轉(zhuǎn)換為封閉形式。
擴散模型是通過去噪目標來訓練以逼近原始數(shù)據(jù)分布的,其中是模型的預測,通常由UNet建模。
在推理過程中,給定隨機高斯噪聲初始化和條件c,擴散模型執(zhí)行反向過程,對于t = T,...,1,通過以下方程得到采樣圖像的編碼:
曝光偏差。 將方程2與方程3進行比較,注意到模型在訓練和推理階段的輸入之間存在差異。具體來說,在訓練過程中,模型接收zt作為輸入,該輸入根據(jù)方程1從實際數(shù)據(jù)中進行采樣。然而,在推理過程中,模型使用,該值是基于先前的預測計算得到的。這種差異稱為曝光偏差,導致推理中的累積誤差。在T2V生成中,這種差異在時間維度上也存在。在訓練期間,是從實際視頻中采樣的,通常表現(xiàn)出時間相關性。相反,在推理期間,是通過聯(lián)合推理得到的,涉及T2I模型和運動模塊,其中T2I模型的預測在不同幀之間變化。為了解決這個問題,提出了一種無需訓練的方法,即3D高斯噪聲先驗。該方法在推理期間引入了協(xié)方差到噪聲初始化中。經(jīng)驗上發(fā)現(xiàn)這種方法有助于穩(wěn)定聯(lián)合推理,并平衡運動的質(zhì)量和幅度。
方法
本文提出了一個預處理模塊用于VCD,以及一個ID模塊和運動模塊,如下圖3所示。此外提供了一個可選模塊,利用ControlNet Tile來對視頻進行上采樣并生成高分辨率內(nèi)容。包括來自AnimateDiff 的現(xiàn)成運動模塊,并增加了提出的3D高斯噪聲先驗。ID模塊采用了擴展的ID token,具有掩碼損失和提示到分割。最后介紹了兩個V2V VCDpipeline,Face VCD和Tiled VCD。
3D高斯噪聲先驗
為了簡化,將無需訓練的3D高斯噪聲先驗應用于一個現(xiàn)成的運動模塊,以減輕推理過程中的曝光偏差。所選的運動模塊擴展了網(wǎng)絡以涵蓋時間維度。它將2D卷積和注意力層轉(zhuǎn)換為時間偽3D層,符合前面方程2中概述的訓練目標。
3D高斯噪聲先驗。 對于包含f幀的視頻,3D高斯噪聲先驗從多元高斯分布中采樣。這里,表示由γ ∈(0,1)參數(shù)化的協(xié)方差矩陣。
上述描述的協(xié)方差確保了初始化的3D噪聲在第m和第n幀之間的相同位置呈的協(xié)方差。超參數(shù)γ代表了穩(wěn)定性和運動幅度之間的權衡,如下圖4所示。較低的γ值會導致具有劇烈運動但增加不穩(wěn)定性的視頻,而較高的γ值會導致更穩(wěn)定的運動,但幅度降低。
ID模塊
盡管先前的研究已經(jīng)探索了Token embedding 和權重微調(diào)用于T2I的身份定制,但很少有人深入研究T2V生成中的身份定制。觀察到雖然像CustomDiffusion 或 LoRA 這樣的權重調(diào)整方法在圖像生成中實現(xiàn)了精確的身份,但生成的視頻往往顯示出有限的多樣性和用戶輸入對齊。
擴展的ID token。 建議使用擴展的ID token僅與條件編碼交互,并更好地保留身份的視覺特征,如下圖5所示。與原始的LoRA相比,這種方法在下表1中顯示出了更高質(zhì)量的視頻。此外,所提出的ID模塊僅需要16KB的存儲空間,與Stable Diffusion中需要的3.6G參數(shù)或SVDiff 中的1.7MB相比,參數(shù)空間明顯更緊湊。
prompt-to-segmentation。 在工作[11,20]中已經(jīng)注意到,ID token中的背景噪聲編碼是保持身份的重要問題。背景噪聲可能會破壞條件化的文本 embedding,從而損害圖像-文本一致性。在VCD框架中,ID模塊在各幀之間引入了不同級別的過擬合的背景噪聲預測,這妨礙了運動模塊將各種背景對齊為一致的背景。為了去除編碼的背景噪聲,這里提出了一個簡單而強大的方法:提示到分割。由于訓練數(shù)據(jù)已經(jīng)包含了身份的類別,使用GPT-4V描述圖像中的主體以及COCO 中的相應類,并將這些類信息輸入Grounding DINO來獲取邊界框。然后,將這些邊界框輸入SAM來生成主體的分割mask。在訓練期間,僅在mask區(qū)域內(nèi)計算損失。如下圖6所示,通過prompt-to-segmentation,生成的視頻與用戶的提示更加接近。
人臉VCD和平鋪VCD
如前面圖3所示,由于擴散模型受限于在潛在空間中幾個單元內(nèi)呈現(xiàn)清晰的臉部,其中每個單元由VAE從8x8像素下采樣而來,遠處的臉部會模糊。為了解決這個問題,提出了人臉VCD。它首先檢測并裁剪不同幀的人臉區(qū)域,并將人臉幀連接成一個以人臉為中心的視頻。然后,通過插值將人臉上采樣到512x512,并通過具有相同ID模塊的VCD進行部分去噪處理,以便以更高的分辨率更好地恢復身份。然后,將輸出降采樣過的人臉并粘貼回幀的原始位置。
人臉VCD的輸出分辨率仍然有限(512x512)。建議應用平鋪VCD來提高視頻的分辨率同時保持身份。視頻首先通過ESRGAN上采樣到1024x1024,然后分割成4個tile,每個tile占據(jù)512x512像素。每個tile都通過VCD進行部分去噪,以恢復在ESRGAN上采樣中丟失的身份細節(jié)。
實驗
定性結果
在下圖7中呈現(xiàn)了幾個結果。本文提出的模型不僅保持了現(xiàn)實基礎模型中角色的身份,還在各種類型的風格化模型中保持了身份。從Civitai 獲取了開源模型,包括Realist Vision,ToonYou和RCNZ Cartoon 3D。本節(jié)首先描述了實現(xiàn)細節(jié)和選擇的基線的細節(jié)。然后,提出了消融研究和與選定基線方法的比較。
實現(xiàn)細節(jié)
訓練。 除非另有說明,否則ID模塊是使用Stable Diffusion 1.5進行訓練的,并在推理過程中與Realistic Vision一起使用。將其直接應用于Stable Diffusion 1.5進行視頻生成,結合AnimateDiff,會導致視頻失真。將擴展的 token tokens的學習率設置為1e-3。批量大小固定為4。每個身份的ID模塊在訓練過程中進行了200個優(yōu)化步驟。對于運動模塊,將方程4中的γ調(diào)整為0.15。在人臉VCD中去噪80%,在平鋪VCD中去噪20%。
數(shù)據(jù)集。 為驗證VCD框架的有效性,精心從DreamBooth數(shù)據(jù)集、CustomConcept101以及互聯(lián)網(wǎng)上選擇了16個主體,確保了人類、動物和物體的多樣化代表。對于每個主體,要求GPT-4V創(chuàng)建25個提示,以在不同背景下進行動畫制作。為了評估,模型為每個提示生成四個視頻,使用不同的隨機種子。這個過程總共生成了1600個視頻。
評估指標。 從三個角度評估生成的視頻。
-
ID對齊:生成的身份的視覺外觀應與參考圖像中的視覺外觀相匹配。利用CLIP-I和DINO計算每對視頻幀和參考圖像之間的相似性分數(shù)。
-
文本對齊:在CLIP特征空間中計算文本圖像相似性分數(shù)。
-
時間平滑性:通過計算所有連續(xù)視頻幀對之間的CLIP和DINO相似性分數(shù)來評估生成的視頻的時間一致性。
值得注意的是,時間平滑性不僅受到連續(xù)幀之間內(nèi)容一致性的影響,還受到動作幅度的影響。因此,在比較結果時,建議綜合考慮文本對齊、圖像對齊和時間平滑性。
基線。 由于缺乏特定于身份的T2V方法,將選擇的ID模塊與AnimateDiff和幾種特定于身份的定制方法進行比較,例如CustomDiffusion 、Textual Inversion (TI) 和LoRA ,所有這些方法都與3D高斯噪聲先驗結合使用。盡管最近的進展引入了更多針對多身份定制的新方法,例如[17, 20]中的方法,但與這些方法的集成可能留待未來工作。
定量結果
在下表1中呈現(xiàn)了定量結果。最初,評估了兩個預訓練模型: Stable Diffusion (SD) 和Realistic Vision。Realistic Vision是社區(qū)開發(fā)的模型,在SD上進行了微調(diào),顯示出在生成逼真圖像方面的有希望的結果。如表1所示,Realistic Vision通常優(yōu)于SD,這導致在可能的情況下采用它作為基準模型。然而,對于像DreamBooth這樣的模型,它涉及對UNet中的所有權重進行微調(diào),替換基準模型權重是不可行的。其性能通常較其他模型差,突顯了廣泛微調(diào)的局限性。
消融研究
如下表2所示,進行了詳細的消融研究,并發(fā)現(xiàn)3D高斯噪聲先驗對視頻平滑度、圖像對齊度和CLIP-T分數(shù)至關重要。相反,去除prompt-to-segmentation模塊會增加視頻的平滑度,但會降低CLIP-T和CLIP-I分數(shù)。這種降低是因為去除會導致 token中編碼的背景噪聲,從而損壞文本條件。因此,生成的視頻缺乏動作,導致更高的平滑度分數(shù)。
限制和未來工作
VCD框架有幾個改進的方面。首先,當嘗試制作具有幾個不同身份的視頻時,每個身份都有自己特殊的 token embedding和LoRA權重時,它會遇到困難。當這些角色需要相互交互時,生成的視頻會比較差。其次,所提出的框架受到動作模塊容量的限制。鑒于動作模塊只生成短時間的視頻,要在保持相同一致性和保真度的情況下延長視頻長度并不容易。展望未來,需要致力于使系統(tǒng)能夠處理相互交互的多個身份,并確保其在更長的視頻中能夠保持質(zhì)量。
結論
本文介紹了Video Custom Diffusion(VCD),這是一個旨在解決主體身份可控視頻生成挑戰(zhàn)的框架。通過專注于身份信息與逐幀相關性的融合,VCD為生成視頻鋪平了道路,這些視頻不僅跨越幀保持主體的身份,而且穩(wěn)定而清晰。創(chuàng)新貢獻,包括用于精確身份解纏的ID模塊、用于增強幀一致性的T2V VCD模塊以及用于改善視頻質(zhì)量的V2V模塊,共同確立了視頻內(nèi)容中身份保留的新標準。進行的廣泛實驗證實,與現(xiàn)有方法相比,VCD在生成保持主體身份的高質(zhì)量、穩(wěn)定視頻方面具有優(yōu)勢。此外,ID模塊適應現(xiàn)有的文本到圖像模型,增強了VCD的實用性,使其在廣泛的應用領域具有多樣性。
參考文獻
[1] Magic-Me: Identity-Specific Video Customized Diffusion
更多精彩內(nèi)容,請關注公眾號:AI生成未來