保健品網(wǎng)站設(shè)計短視頻營銷案例
從單視圖圖像進行3D重建是計算機視覺和圖形學中的一項基本任務(wù),因為它在游戲設(shè)計、虛擬現(xiàn)實和機器人技術(shù)中具有潛在的應(yīng)用價值。早期的研究主要依賴于直接在體素上進行3D回歸,這往往會導致過于平滑的結(jié)果,并且由于3D訓練數(shù)據(jù)的限制,難以泛化到現(xiàn)實世界中的未見物體。最近,擴散模型(DMs)通過在極大規(guī)模的數(shù)據(jù)集上進行訓練,在圖像或視頻合成上展現(xiàn)了強大的生成能力。這些擴散模型是用于單視圖3D重建的有前途的工具,因為可以從給定圖像生成新穎視圖的圖像以實現(xiàn)3D重建。
為了利用圖像DMs進行單視圖3D重建,一項開創(chuàng)性的工作DreamFusion嘗試通過Score Distillation Sampling(SDS)損失從2D圖像擴散中提煉出像NeRF或Gaussian Splatting這樣的3D表示,許多后續(xù)工作在質(zhì)量和效率上改進了基于蒸餾的方法。然而,這些方法存在不穩(wěn)定收斂和退化質(zhì)量的問題。另外,最近的工作如MVDream、Sync-Dreamer、Wonder3D和Zero123++通過多視圖擴散明確生成多視圖圖像,然后通過神經(jīng)重建方法或大型重建模型(LRMs)從生成的圖像中重建3D模型。明確生成多視圖圖像使這些方法比SDS方法更具可控性和效率,因此在單視圖3D重建任務(wù)中更受歡迎。
盡管多視圖擴散方法取得了令人印象深刻的進步,但如何為高質(zhì)量3D重建高效生成新視角圖像仍然是一個懸而未決的挑戰(zhàn)。當前的多視圖擴散方法面臨三個顯著挑戰(zhàn)。
(1)預定義的相機類型不一致。大多數(shù)多視圖擴散方法假設(shè)輸入圖像是由具有預定義焦距的相機捕獲的。當輸入圖像是由不同類型的相機或具有不同內(nèi)在特性的相機捕獲時,這會導致不希望的失真(例如,當輸入圖像是由焦距較小的透視相機捕獲時,Wonder3D對正交相機的假設(shè)會導致網(wǎng)格扭曲)。
(2)多視圖擴散效率低下。多視圖擴散方法通常依賴于多視圖注意力層來交換不同視圖之間的信息,以生成多視圖一致的圖像。然而,這些多視圖注意力層通常是通過將Stable Diffusion中的自注意力擴展到所有多視圖圖像來實現(xiàn)的(密集多視圖注意力),并導致計算復雜度和內(nèi)存消耗顯著增加。
(3)生成的圖像分辨率低。上述限制使得大多數(shù)現(xiàn)有的多視圖擴散模型僅能達到256×256的分辨率,這阻礙了它們重建詳細的網(wǎng)格。解決上述挑戰(zhàn)對于開發(fā)實用且可擴展的多視圖擴散方法至關(guān)重要。
在本文中,我們介紹了Era3D,這是一種新穎的多視角擴散方法,能夠高效地生成高分辨率(512×512)的單視角3D重建一致多視角圖像。與現(xiàn)有方法不同,Era3D允許使用常用相機類型的圖像作為輸入,同時緩解不同相機模型帶來的不必要畸變。為此,我們采用了一種獨特的方法:使用不同的相機模型對輸入圖像和生成圖像進行訓練,這意味著輸入圖像可以有任意的焦距和仰角,而生成圖像則使用正交相機和固定的0?仰角視角。然而,這需要擴散模型在生成過程中隱式地推斷和糾正輸入圖像的焦距和視角,這是一項具有挑戰(zhàn)性的任務(wù),會降低生成質(zhì)量。為了克服這一挑戰(zhàn)并提高生成質(zhì)量,我們提出了一種新穎的回歸和條件方案,并利用UNet在每個去噪步驟中的低級特征圖來預測輸入圖像的相機信息。我們發(fā)現(xiàn),這種回歸和條件方案比現(xiàn)有方法更準確地預測相機姿態(tài),并導致生成更多的細節(jié)。Era3D成功地避免了不同相機類型和焦距帶來的上述畸變問題。
此外,受到極線注意力的啟發(fā),Era3D通過引入一種新穎的行級多視角注意力,實現(xiàn)了高分辨率多視角生成的高效訓練。極線約束可用于約束跨視角的注意力區(qū)域,從而提高注意力的效率。然而,對于一般的相機設(shè)置直接應(yīng)用這種極線注意力在內(nèi)存和計算上仍然效率不高,因為我們必須對極線上的多個點進行采樣以進行注意力計算。這需要我們?yōu)槎嘁暯菆D像在視錐體中構(gòu)建一個3D特征網(wǎng)格,這既慢又消耗內(nèi)存。相反,由于Era3D使用正交相機在0?視角下生成圖像,我們發(fā)現(xiàn)我們的相機設(shè)置中的極線在不同視角的圖像行之間是對齊的,這使得我們能夠提出一種高效的行級注意力層。與密集的多視角注意力相比,行級注意力顯著減少了多視角注意力的內(nèi)存消耗(35.32GB vs. 1.66GB)和計算復雜度(220.41ms vs. 2.23ms)。即使使用Xformers,一個加速注意力計算的庫,行級注意力的效率仍然比現(xiàn)有方法高出大約十二倍。因此,提出的行級注意力使我們能夠輕松地將Era3D擴展到512×512的高分辨率,以重建更詳細的3D網(wǎng)格。
下面一起來閱讀一下這項工作~
1. 論文信息
標題:Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention
作者:Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo
機構(gòu):HKUST、HKU、DreamTech、PKU、Light Illusions
原文鏈接:https://arxiv.org/pdf/2405.11616
代碼鏈接:https://github.com/pengHTYX/Era3D
官方主頁:https://penghtyx.github.io/Era3D/
2. 摘要
在本文中,我們介紹了Era3D,這是一種新穎的多視圖擴散方法,可以從單視圖圖像生成高分辨率的多視圖圖像。盡管多視圖生成領(lǐng)域取得了顯著進展,但現(xiàn)有方法仍受到相機先驗不匹配、無效性和低分辨率的困擾,導致生成的多視圖圖像質(zhì)量較差。具體而言,這些方法假設(shè)輸入圖像應(yīng)符合預定義的相機類型,例如具有固定焦距的透視相機,當假設(shè)不成立時會導致形狀扭曲。此外,它們采用的全圖像或密集多視圖注意力隨著圖像分辨率的增加會導致計算復雜度的指數(shù)爆炸,從而產(chǎn)生令人望而卻步的訓練成本。為了彌合假設(shè)與現(xiàn)實之間的差距,Era3D首先提出了一個基于擴散的相機預測模塊來估計輸入圖像的焦距和仰角,這使得我們的方法能夠生成無形狀扭曲的圖像。此外,我們還使用了一個簡單但高效的注意力層,稱為逐行注意力,來在多視圖擴散中加強極線先驗,促進有效的跨視圖信息融合。因此,與最先進的方法相比,Era3D能夠生成高達512*512分辨率的高質(zhì)量多視圖圖像,同時將計算復雜度降低了12倍。綜合實驗表明,Era3D可以從各種單視圖輸入圖像中重構(gòu)高質(zhì)量且詳細的3D網(wǎng)格,顯著優(yōu)于基線多視圖擴散方法。
3. 效果展示
新視角合成。首先,圖1展示了Era3D生成的多視角圖像和法線圖的幾個示例。結(jié)果顯示,給定具有不同焦距和視角的輸入圖像,Era3D能夠生成高質(zhì)量且一致的多視角圖像和法線圖。當輸入圖像由透視相機捕獲且其視角不在0?仰角時,Era3D能夠正確感知視角的仰角和透視畸變。然后,我們的方法學習使用標準視角下的正交相機生成同一對象的高保真圖像,有效減少了透視畸變引起的偽影,提高了重建質(zhì)量。此外,Era3D能夠生成512×512分辨率的圖像,從而能夠生成更多的細節(jié),如圖1中“Armor”上的精細紋理和“Mecha”上的復雜結(jié)構(gòu)。
重建。我們進一步進行了實驗來評估重建的3D網(wǎng)格的質(zhì)量。我們將我們的方法與RealFusion、Zero-1-to-3、One-2-3-45、Shap-E、Magic123、Wonder3D、SyncDreamer和LGM進行了比較。GSO數(shù)據(jù)集上的重建網(wǎng)格及其紋理如圖5所示,而基于文本生成的圖像上的重建網(wǎng)格的渲染效果如圖6所示。從結(jié)果中可以看出,Shap-E無法生成完整的結(jié)構(gòu)。One-2-3-45和LGM重建的網(wǎng)格由于Zero-1-to-3或ImageDream生成圖像中的多視角不一致性而趨于過度平滑且缺乏細節(jié)。Wonder3D在使用35mm焦距渲染的這些輸入圖像上的結(jié)果往往會出現(xiàn)扭曲,因為它假設(shè)輸入圖像是由正交相機捕獲的。相比之下,我們的結(jié)果在完整性和細節(jié)方面都比這些基線方法有了顯著的改進。
4. 主要貢獻
總體而言,我們的主要貢獻總結(jié)如下:
(1)Era3D是首個嘗試解決3D生成中不一致的相機內(nèi)參所帶來的畸變問題的方法;
(2)我們設(shè)計了一種新穎的回歸和條件方案,使擴散模型能夠接收任意相機拍攝的圖像作為輸入,并在標準相機設(shè)置下輸出正交圖像;
(3)我們提出了逐行多視角注意力機制,這是一種用于高分辨率多視角圖像生成的高效注意力層;
(4)我們的方法在單視角3D生成方面取得了最先進的性能。
5. 基本原理是啥?
Era3D旨在從單視角圖像生成3D網(wǎng)格。其概述如圖4所示,包含三個關(guān)鍵組件。給定一個具有常用焦距和任意視角的輸入圖像,Era3D在標準相機設(shè)置下生成多視角圖像。為了提高生成質(zhì)量,我們提出了一種回歸和條件方案,使擴散模型能夠預測準確的相機姿態(tài)和焦距,并指導去噪過程。最后,我們通過提出行式多視角注意力,顯著減少了內(nèi)存消耗并提高了計算效率,該方案通過多視角圖像之間交換信息來維持多視角一致性。最后,我們使用諸如NeuS之類的神經(jīng)重建方法從生成的圖像和法線圖中重建3D網(wǎng)格。
6. 實驗結(jié)果
Chamfer距離(CD)和交并比(IoU)的定量比較如表1所示。Era3D在所有其他方法中表現(xiàn)最佳,展現(xiàn)出更低的Chamfer距離和更高的體積IoU,這表明它生成的網(wǎng)格與實際3D模型更為接近。
除了已討論的任務(wù)之外,我們還在GSO數(shù)據(jù)集上進一步評估了Era3D的姿態(tài)預測。我們使用[-10, 40]度的仰角和{35, 50, 85, 105, 135, ∞}的焦距分別渲染圖像。作為基準方法,我們采用dinov2_vitb14特征來預測姿態(tài),并使用相同的數(shù)據(jù)集進行訓練。我們將我們的預測與這個基準方法和One-2-3-45進行了比較。如表2所示,Era3D在誤差和方差方面均取得了優(yōu)越的性能。
行式多視角注意力。如圖1所示,我們提出的行式多視角注意力(RMA)有效地促進了多視角圖像之間的信息交換,產(chǎn)生了與密集多視角注意力層相當?shù)囊恢陆Y(jié)果。在N視角相機系統(tǒng)中,假設(shè)潛在特征的大小為S×S,我們的RMA設(shè)計通過將注意力層的計算復雜度從O(N2S4)降低到O(N2S3),顯著提高了訓練效率。盡管極線注意力也實現(xiàn)了將復雜度降低到O(N2S2K),其中K是樣本數(shù)量,但這是以增加內(nèi)存和時間消耗為代價的,因為需要進行采樣過程。為了進一步突出RMA相對于密集多視角注意力的效率,我們展示了256和512分辨率下的內(nèi)存使用情況和運行時間。我們使用了中的極線注意力實現(xiàn)。如表3所列,隨著分辨率的增加,RMA的優(yōu)勢變得越來越明顯。在512分辨率下,RMA實現(xiàn)了內(nèi)存使用量的三十倍減少和運行時間的近百倍減少。即使使用xFormers,我們的方法也大大提高了訓練效率(22.9毫秒對比1.86毫秒)。這種效率使得在更高分辨率或更密集的視角下訓練模型成為可能,而不會顯著增加計算效率和需求,從而保持了一個輕量級的框架。
7. 限制性 & 總結(jié)
局限性。雖然Era3D在多視角生成任務(wù)上取得了改進,但我們的方法在生成如薄結(jié)構(gòu)等復雜幾何形狀時存在困難,因為我們僅生成6個多視角圖像,這些稀疏生成的圖像難以建模復雜的幾何形狀。由于重建算法基于神經(jīng)符號距離函數(shù)(Neural SDF),Era3D無法重建具有開放表面的網(wǎng)格。在未來的工作中,我們可以將我們的框架與其他3D表示法(如高斯濺射)相結(jié)合,以提高渲染和幾何質(zhì)量。
結(jié)論。在本文中,我們提出了Era3D,一種用于單視角3D重建的高質(zhì)量多視角生成方法。在Era3D中,我們建議在標準相機設(shè)置下生成圖像,同時允許輸入圖像具有任意的相機內(nèi)參和視角。為了提高生成質(zhì)量,我們設(shè)計了一種回歸和條件方案來預測輸入圖像的焦距和仰角,這些參數(shù)進一步作為擴散過程的條件。此外,我們采用行式多視角注意力機制來替代密集注意力,顯著降低了計算工作量,并促進了高分辨率跨視角生成。與基線方法相比,Era3D在單視角3D重建中實現(xiàn)了更高的幾何質(zhì)量。