去越南做網(wǎng)站網(wǎng)頁(yè)設(shè)計(jì)軟件dreamweaver
阿里新發(fā)布的UniAnimate,與 AnimateAnyone 非常相似,它可以根據(jù)單張圖片和姿勢(shì)指導(dǎo)生成視頻。項(xiàng)目核心技術(shù)是統(tǒng)一視頻擴(kuò)散模型,通過(guò)將參考圖像和估計(jì)視頻內(nèi)容嵌入到共享特征空間,實(shí)現(xiàn)外觀和動(dòng)作的同步。
相關(guān)鏈接
項(xiàng)目:unianimate.github.io
論文:arxiv.org/abs/2406.01188
代碼:github.com/ali-vilab/UniAnimate
論文閱讀
利用統(tǒng)一視頻傳播模型實(shí)現(xiàn)一致的人體圖像動(dòng)畫(huà)
摘要
最近基于擴(kuò)散的人體圖像動(dòng)畫(huà)技術(shù)在合成完全遵循給定參考身份和所需運(yùn)動(dòng)姿勢(shì)序列的視頻方面取得了令人印象深刻的成功。
盡管如此,仍然存在兩個(gè)限制:
-
需要額外的參考模型來(lái)將身份圖像與主視頻分支對(duì)齊,這顯著增加了優(yōu)化負(fù)擔(dān)和模型參數(shù);
-
生成的視頻通常時(shí)間較短(例如24幀),阻礙了實(shí)際應(yīng)用。
為了解決這些缺點(diǎn),我們提出了一個(gè) UniAnimate 框架來(lái)實(shí)現(xiàn)高效和長(zhǎng)期的人體視頻生成。
首先,為了降低優(yōu)化難度并確保時(shí)間連貫性,我們通過(guò)結(jié)合統(tǒng)一的視頻擴(kuò)散模型將參考圖像與姿勢(shì)指導(dǎo)和噪聲視頻一起映射到一個(gè)共同的特征空間中。
其次,我們提出了一種統(tǒng)一的噪聲輸入,它支持隨機(jī)噪聲輸入以及第一幀條件輸入,從而增強(qiáng)了生成長(zhǎng)期視頻的能力。
最后,為了進(jìn)一步有效地處理長(zhǎng)序列,我們探索了一種基于狀態(tài)空間模型的替代時(shí)間建模架構(gòu),以取代原始的計(jì)算耗時(shí)的 Transformer。
大量實(shí)驗(yàn)結(jié)果表明,UniAnimate 在定量和定性評(píng)估中都取得了優(yōu)于現(xiàn)有最先進(jìn)技術(shù)的合成結(jié)果。值得注意的是,UniAnimate 甚至可以通過(guò)迭代采用第一幀調(diào)節(jié)策略來(lái)生成高度一致的一分鐘視頻。代碼和模型將公開(kāi)提供。
方法
所提出的 UniAnimate 的整體架構(gòu)。
首先,我們利用 CLIP 編碼器和 VAE 編碼器提取給定參考圖像的潛在特征。為了便于學(xué)習(xí)參考圖像中的人體結(jié)構(gòu),我們還將參考姿勢(shì)的表示納入最終的參考指導(dǎo)中。
隨后,我們使用姿勢(shì)編碼器對(duì)目標(biāo)驅(qū)動(dòng)姿勢(shì)序列進(jìn)行編碼,并將其與沿通道維度的噪聲輸入連接起來(lái)。噪聲輸入來(lái)自第一幀條件視頻或噪聲視頻。
然后,將連接的噪聲輸入與參考指導(dǎo)沿時(shí)間維度堆疊,并輸入到統(tǒng)一視頻擴(kuò)散模型中以消除噪聲。統(tǒng)一視頻擴(kuò)散模型中的時(shí)間模塊可以是時(shí)間 Transformer 或時(shí)間 Mamba。
最后,采用 VAE 解碼器將生成的潛在視頻映射到像素空間。
實(shí)驗(yàn)
為合成模型角色制作動(dòng)畫(huà)
真實(shí)模型角色動(dòng)畫(huà)
制作粘土風(fēng)格角色動(dòng)畫(huà)
人物:Yann LeCun & Elon Musk
動(dòng)畫(huà)其他跨域角色
更多
結(jié)論
在本文中,我們介紹了 UniAnimate,這是一種用于生成高保真、時(shí)間平滑的人體圖像動(dòng)畫(huà)視頻的新方法。通過(guò)引入統(tǒng)一視頻擴(kuò)散模型、統(tǒng)一噪聲輸入和時(shí)間 Mamba,我們解決了現(xiàn)有方法的外觀錯(cuò)位限制,并提高了視頻生成質(zhì)量和效率。大量實(shí)驗(yàn)結(jié)果定量和定性地驗(yàn)證了所提出的 UniAnimate 的有效性,并強(qiáng)調(diào)了其在實(shí)際應(yīng)用部署中的潛力。