中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

保健品網(wǎng)站設(shè)計(jì)最近新聞報(bào)道

保健品網(wǎng)站設(shè)計(jì),最近新聞報(bào)道,免費(fèi)圖文制作app,網(wǎng)站建設(shè)洽談問題從單視圖圖像進(jìn)行3D重建是計(jì)算機(jī)視覺和圖形學(xué)中的一項(xiàng)基本任務(wù),因?yàn)樗谟螒蛟O(shè)計(jì)、虛擬現(xiàn)實(shí)和機(jī)器人技術(shù)中具有潛在的應(yīng)用價(jià)值。早期的研究主要依賴于直接在體素上進(jìn)行3D回歸,這往往會(huì)導(dǎo)致過于平滑的結(jié)果,并且由于3D訓(xùn)練數(shù)據(jù)的限制&#xff0…

從單視圖圖像進(jìn)行3D重建是計(jì)算機(jī)視覺和圖形學(xué)中的一項(xiàng)基本任務(wù),因?yàn)樗谟螒蛟O(shè)計(jì)、虛擬現(xiàn)實(shí)和機(jī)器人技術(shù)中具有潛在的應(yīng)用價(jià)值。早期的研究主要依賴于直接在體素上進(jìn)行3D回歸,這往往會(huì)導(dǎo)致過于平滑的結(jié)果,并且由于3D訓(xùn)練數(shù)據(jù)的限制,難以泛化到現(xiàn)實(shí)世界中的未見物體。最近,擴(kuò)散模型(DMs)通過在極大規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練,在圖像或視頻合成上展現(xiàn)了強(qiáng)大的生成能力。這些擴(kuò)散模型是用于單視圖3D重建的有前途的工具,因?yàn)榭梢詮慕o定圖像生成新穎視圖的圖像以實(shí)現(xiàn)3D重建。

為了利用圖像DMs進(jìn)行單視圖3D重建,一項(xiàng)開創(chuàng)性的工作DreamFusion嘗試通過Score Distillation Sampling(SDS)損失從2D圖像擴(kuò)散中提煉出像NeRF或Gaussian Splatting這樣的3D表示,許多后續(xù)工作在質(zhì)量和效率上改進(jìn)了基于蒸餾的方法。然而,這些方法存在不穩(wěn)定收斂和退化質(zhì)量的問題。另外,最近的工作如MVDream、Sync-Dreamer、Wonder3D和Zero123++通過多視圖擴(kuò)散明確生成多視圖圖像,然后通過神經(jīng)重建方法或大型重建模型(LRMs)從生成的圖像中重建3D模型。明確生成多視圖圖像使這些方法比SDS方法更具可控性和效率,因此在單視圖3D重建任務(wù)中更受歡迎。

盡管多視圖擴(kuò)散方法取得了令人印象深刻的進(jìn)步,但如何為高質(zhì)量3D重建高效生成新視角圖像仍然是一個(gè)懸而未決的挑戰(zhàn)。當(dāng)前的多視圖擴(kuò)散方法面臨三個(gè)顯著挑戰(zhàn)。

(1)預(yù)定義的相機(jī)類型不一致。大多數(shù)多視圖擴(kuò)散方法假設(shè)輸入圖像是由具有預(yù)定義焦距的相機(jī)捕獲的。當(dāng)輸入圖像是由不同類型的相機(jī)或具有不同內(nèi)在特性的相機(jī)捕獲時(shí),這會(huì)導(dǎo)致不希望的失真(例如,當(dāng)輸入圖像是由焦距較小的透視相機(jī)捕獲時(shí),Wonder3D對(duì)正交相機(jī)的假設(shè)會(huì)導(dǎo)致網(wǎng)格扭曲)。

(2)多視圖擴(kuò)散效率低下。多視圖擴(kuò)散方法通常依賴于多視圖注意力層來交換不同視圖之間的信息,以生成多視圖一致的圖像。然而,這些多視圖注意力層通常是通過將Stable Diffusion中的自注意力擴(kuò)展到所有多視圖圖像來實(shí)現(xiàn)的(密集多視圖注意力),并導(dǎo)致計(jì)算復(fù)雜度和內(nèi)存消耗顯著增加。

(3)生成的圖像分辨率低。上述限制使得大多數(shù)現(xiàn)有的多視圖擴(kuò)散模型僅能達(dá)到256×256的分辨率,這阻礙了它們重建詳細(xì)的網(wǎng)格。解決上述挑戰(zhàn)對(duì)于開發(fā)實(shí)用且可擴(kuò)展的多視圖擴(kuò)散方法至關(guān)重要。

在本文中,我們介紹了Era3D,這是一種新穎的多視角擴(kuò)散方法,能夠高效地生成高分辨率(512×512)的單視角3D重建一致多視角圖像。與現(xiàn)有方法不同,Era3D允許使用常用相機(jī)類型的圖像作為輸入,同時(shí)緩解不同相機(jī)模型帶來的不必要畸變。為此,我們采用了一種獨(dú)特的方法:使用不同的相機(jī)模型對(duì)輸入圖像和生成圖像進(jìn)行訓(xùn)練,這意味著輸入圖像可以有任意的焦距和仰角,而生成圖像則使用正交相機(jī)和固定的0?仰角視角。然而,這需要擴(kuò)散模型在生成過程中隱式地推斷和糾正輸入圖像的焦距和視角,這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),會(huì)降低生成質(zhì)量。為了克服這一挑戰(zhàn)并提高生成質(zhì)量,我們提出了一種新穎的回歸和條件方案,并利用UNet在每個(gè)去噪步驟中的低級(jí)特征圖來預(yù)測輸入圖像的相機(jī)信息。我們發(fā)現(xiàn),這種回歸和條件方案比現(xiàn)有方法更準(zhǔn)確地預(yù)測相機(jī)姿態(tài),并導(dǎo)致生成更多的細(xì)節(jié)。Era3D成功地避免了不同相機(jī)類型和焦距帶來的上述畸變問題。

此外,受到極線注意力的啟發(fā),Era3D通過引入一種新穎的行級(jí)多視角注意力,實(shí)現(xiàn)了高分辨率多視角生成的高效訓(xùn)練。極線約束可用于約束跨視角的注意力區(qū)域,從而提高注意力的效率。然而,對(duì)于一般的相機(jī)設(shè)置直接應(yīng)用這種極線注意力在內(nèi)存和計(jì)算上仍然效率不高,因?yàn)槲覀儽仨殞?duì)極線上的多個(gè)點(diǎn)進(jìn)行采樣以進(jìn)行注意力計(jì)算。這需要我們?yōu)槎嘁暯菆D像在視錐體中構(gòu)建一個(gè)3D特征網(wǎng)格,這既慢又消耗內(nèi)存。相反,由于Era3D使用正交相機(jī)在0?視角下生成圖像,我們發(fā)現(xiàn)我們的相機(jī)設(shè)置中的極線在不同視角的圖像行之間是對(duì)齊的,這使得我們能夠提出一種高效的行級(jí)注意力層。與密集的多視角注意力相比,行級(jí)注意力顯著減少了多視角注意力的內(nèi)存消耗(35.32GB vs. 1.66GB)和計(jì)算復(fù)雜度(220.41ms vs. 2.23ms)。即使使用Xformers,一個(gè)加速注意力計(jì)算的庫,行級(jí)注意力的效率仍然比現(xiàn)有方法高出大約十二倍。因此,提出的行級(jí)注意力使我們能夠輕松地將Era3D擴(kuò)展到512×512的高分辨率,以重建更詳細(xì)的3D網(wǎng)格。

下面一起來閱讀一下這項(xiàng)工作~

1. 論文信息

標(biāo)題:Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention

作者:Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo

機(jī)構(gòu):HKUST、HKU、DreamTech、PKU、Light Illusions

原文鏈接:https://arxiv.org/pdf/2405.11616

代碼鏈接:https://github.com/pengHTYX/Era3D

官方主頁:https://penghtyx.github.io/Era3D/

2. 摘要

在本文中,我們介紹了Era3D,這是一種新穎的多視圖擴(kuò)散方法,可以從單視圖圖像生成高分辨率的多視圖圖像。盡管多視圖生成領(lǐng)域取得了顯著進(jìn)展,但現(xiàn)有方法仍受到相機(jī)先驗(yàn)不匹配、無效性和低分辨率的困擾,導(dǎo)致生成的多視圖圖像質(zhì)量較差。具體而言,這些方法假設(shè)輸入圖像應(yīng)符合預(yù)定義的相機(jī)類型,例如具有固定焦距的透視相機(jī),當(dāng)假設(shè)不成立時(shí)會(huì)導(dǎo)致形狀扭曲。此外,它們采用的全圖像或密集多視圖注意力隨著圖像分辨率的增加會(huì)導(dǎo)致計(jì)算復(fù)雜度的指數(shù)爆炸,從而產(chǎn)生令人望而卻步的訓(xùn)練成本。為了彌合假設(shè)與現(xiàn)實(shí)之間的差距,Era3D首先提出了一個(gè)基于擴(kuò)散的相機(jī)預(yù)測模塊來估計(jì)輸入圖像的焦距和仰角,這使得我們的方法能夠生成無形狀扭曲的圖像。此外,我們還使用了一個(gè)簡單但高效的注意力層,稱為逐行注意力,來在多視圖擴(kuò)散中加強(qiáng)極線先驗(yàn),促進(jìn)有效的跨視圖信息融合。因此,與最先進(jìn)的方法相比,Era3D能夠生成高達(dá)512*512分辨率的高質(zhì)量多視圖圖像,同時(shí)將計(jì)算復(fù)雜度降低了12倍。綜合實(shí)驗(yàn)表明,Era3D可以從各種單視圖輸入圖像中重構(gòu)高質(zhì)量且詳細(xì)的3D網(wǎng)格,顯著優(yōu)于基線多視圖擴(kuò)散方法。

3. 效果展示

新視角合成。首先,圖1展示了Era3D生成的多視角圖像和法線圖的幾個(gè)示例。結(jié)果顯示,給定具有不同焦距和視角的輸入圖像,Era3D能夠生成高質(zhì)量且一致的多視角圖像和法線圖。當(dāng)輸入圖像由透視相機(jī)捕獲且其視角不在0?仰角時(shí),Era3D能夠正確感知視角的仰角和透視畸變。然后,我們的方法學(xué)習(xí)使用標(biāo)準(zhǔn)視角下的正交相機(jī)生成同一對(duì)象的高保真圖像,有效減少了透視畸變引起的偽影,提高了重建質(zhì)量。此外,Era3D能夠生成512×512分辨率的圖像,從而能夠生成更多的細(xì)節(jié),如圖1中“Armor”上的精細(xì)紋理和“Mecha”上的復(fù)雜結(jié)構(gòu)。

重建。我們進(jìn)一步進(jìn)行了實(shí)驗(yàn)來評(píng)估重建的3D網(wǎng)格的質(zhì)量。我們將我們的方法與RealFusion、Zero-1-to-3、One-2-3-45、Shap-E、Magic123、Wonder3D、SyncDreamer和LGM進(jìn)行了比較。GSO數(shù)據(jù)集上的重建網(wǎng)格及其紋理如圖5所示,而基于文本生成的圖像上的重建網(wǎng)格的渲染效果如圖6所示。從結(jié)果中可以看出,Shap-E無法生成完整的結(jié)構(gòu)。One-2-3-45和LGM重建的網(wǎng)格由于Zero-1-to-3或ImageDream生成圖像中的多視角不一致性而趨于過度平滑且缺乏細(xì)節(jié)。Wonder3D在使用35mm焦距渲染的這些輸入圖像上的結(jié)果往往會(huì)出現(xiàn)扭曲,因?yàn)樗僭O(shè)輸入圖像是由正交相機(jī)捕獲的。相比之下,我們的結(jié)果在完整性和細(xì)節(jié)方面都比這些基線方法有了顯著的改進(jìn)。

4. 主要貢獻(xiàn)

總體而言,我們的主要貢獻(xiàn)總結(jié)如下:

(1)Era3D是首個(gè)嘗試解決3D生成中不一致的相機(jī)內(nèi)參所帶來的畸變問題的方法;

(2)我們?cè)O(shè)計(jì)了一種新穎的回歸和條件方案,使擴(kuò)散模型能夠接收任意相機(jī)拍攝的圖像作為輸入,并在標(biāo)準(zhǔn)相機(jī)設(shè)置下輸出正交圖像;

(3)我們提出了逐行多視角注意力機(jī)制,這是一種用于高分辨率多視角圖像生成的高效注意力層;

(4)我們的方法在單視角3D生成方面取得了最先進(jìn)的性能。

5. 基本原理是啥?

Era3D旨在從單視角圖像生成3D網(wǎng)格。其概述如圖4所示,包含三個(gè)關(guān)鍵組件。給定一個(gè)具有常用焦距和任意視角的輸入圖像,Era3D在標(biāo)準(zhǔn)相機(jī)設(shè)置下生成多視角圖像。為了提高生成質(zhì)量,我們提出了一種回歸和條件方案,使擴(kuò)散模型能夠預(yù)測準(zhǔn)確的相機(jī)姿態(tài)和焦距,并指導(dǎo)去噪過程。最后,我們通過提出行式多視角注意力,顯著減少了內(nèi)存消耗并提高了計(jì)算效率,該方案通過多視角圖像之間交換信息來維持多視角一致性。最后,我們使用諸如NeuS之類的神經(jīng)重建方法從生成的圖像和法線圖中重建3D網(wǎng)格。

6. 實(shí)驗(yàn)結(jié)果

Chamfer距離(CD)和交并比(IoU)的定量比較如表1所示。Era3D在所有其他方法中表現(xiàn)最佳,展現(xiàn)出更低的Chamfer距離和更高的體積IoU,這表明它生成的網(wǎng)格與實(shí)際3D模型更為接近。

除了已討論的任務(wù)之外,我們還在GSO數(shù)據(jù)集上進(jìn)一步評(píng)估了Era3D的姿態(tài)預(yù)測。我們使用[-10, 40]度的仰角和{35, 50, 85, 105, 135, ∞}的焦距分別渲染圖像。作為基準(zhǔn)方法,我們采用dinov2_vitb14特征來預(yù)測姿態(tài),并使用相同的數(shù)據(jù)集進(jìn)行訓(xùn)練。我們將我們的預(yù)測與這個(gè)基準(zhǔn)方法和One-2-3-45進(jìn)行了比較。如表2所示,Era3D在誤差和方差方面均取得了優(yōu)越的性能。

行式多視角注意力。如圖1所示,我們提出的行式多視角注意力(RMA)有效地促進(jìn)了多視角圖像之間的信息交換,產(chǎn)生了與密集多視角注意力層相當(dāng)?shù)囊恢陆Y(jié)果。在N視角相機(jī)系統(tǒng)中,假設(shè)潛在特征的大小為S×S,我們的RMA設(shè)計(jì)通過將注意力層的計(jì)算復(fù)雜度從O(N2S4)降低到O(N2S3),顯著提高了訓(xùn)練效率。盡管極線注意力也實(shí)現(xiàn)了將復(fù)雜度降低到O(N2S2K),其中K是樣本數(shù)量,但這是以增加內(nèi)存和時(shí)間消耗為代價(jià)的,因?yàn)樾枰M(jìn)行采樣過程。為了進(jìn)一步突出RMA相對(duì)于密集多視角注意力的效率,我們展示了256和512分辨率下的內(nèi)存使用情況和運(yùn)行時(shí)間。我們使用了中的極線注意力實(shí)現(xiàn)。如表3所列,隨著分辨率的增加,RMA的優(yōu)勢變得越來越明顯。在512分辨率下,RMA實(shí)現(xiàn)了內(nèi)存使用量的三十倍減少和運(yùn)行時(shí)間的近百倍減少。即使使用xFormers,我們的方法也大大提高了訓(xùn)練效率(22.9毫秒對(duì)比1.86毫秒)。這種效率使得在更高分辨率或更密集的視角下訓(xùn)練模型成為可能,而不會(huì)顯著增加計(jì)算效率和需求,從而保持了一個(gè)輕量級(jí)的框架。

7. 限制性 & 總結(jié)

局限性。雖然Era3D在多視角生成任務(wù)上取得了改進(jìn),但我們的方法在生成如薄結(jié)構(gòu)等復(fù)雜幾何形狀時(shí)存在困難,因?yàn)槲覀儍H生成6個(gè)多視角圖像,這些稀疏生成的圖像難以建模復(fù)雜的幾何形狀。由于重建算法基于神經(jīng)符號(hào)距離函數(shù)(Neural SDF),Era3D無法重建具有開放表面的網(wǎng)格。在未來的工作中,我們可以將我們的框架與其他3D表示法(如高斯濺射)相結(jié)合,以提高渲染和幾何質(zhì)量。

結(jié)論。在本文中,我們提出了Era3D,一種用于單視角3D重建的高質(zhì)量多視角生成方法。在Era3D中,我們建議在標(biāo)準(zhǔn)相機(jī)設(shè)置下生成圖像,同時(shí)允許輸入圖像具有任意的相機(jī)內(nèi)參和視角。為了提高生成質(zhì)量,我們?cè)O(shè)計(jì)了一種回歸和條件方案來預(yù)測輸入圖像的焦距和仰角,這些參數(shù)進(jìn)一步作為擴(kuò)散過程的條件。此外,我們采用行式多視角注意力機(jī)制來替代密集注意力,顯著降低了計(jì)算工作量,并促進(jìn)了高分辨率跨視角生成。與基線方法相比,Era3D在單視角3D重建中實(shí)現(xiàn)了更高的幾何質(zhì)量。

http://www.risenshineclean.com/news/21408.html

相關(guān)文章:

  • 做網(wǎng)站用哪種語言推廣賺錢的平臺(tái)
  • 友匯網(wǎng)站建設(shè)一般多少錢網(wǎng)站建設(shè)哪家好公司
  • 青島網(wǎng)站建成都關(guān)鍵詞排名推廣
  • 焦作做網(wǎng)站免費(fèi)注冊(cè)公司
  • 上傳wordpress后網(wǎng)頁為什么空白谷歌seo網(wǎng)站排名優(yōu)化
  • 做網(wǎng)站自動(dòng)賺錢嗎靠譜的廣告聯(lián)盟
  • 博興專業(yè)做網(wǎng)站阿里指數(shù)app下載
  • wordpress 高端鄭州seo招聘
  • 簡約個(gè)人網(wǎng)站模板網(wǎng)頁制作工具有哪些
  • 住房和城鄉(xiāng)建設(shè)廳網(wǎng)站辦事大廳獲客軟件排名前十名
  • 網(wǎng)站域名301湖南網(wǎng)站制作哪家好
  • 武安市精品網(wǎng)站開發(fā)湖人最新消息
  • 勞務(wù)網(wǎng)站怎樣做成都網(wǎng)站設(shè)計(jì)
  • 阿克蘇交通建設(shè)局網(wǎng)站軟文推廣文章案例
  • 邯鄲wap網(wǎng)站建設(shè)報(bào)價(jià)網(wǎng)上宣傳方法有哪些
  • 萬網(wǎng)博通官網(wǎng)專業(yè)網(wǎng)站優(yōu)化排名
  • 學(xué)編程哪個(gè)機(jī)構(gòu)有權(quán)威慈溪seo
  • 龍巖網(wǎng)站開發(fā)鴻星爾克網(wǎng)絡(luò)營銷
  • 交友網(wǎng)站初期怎么做網(wǎng)絡(luò)營銷工具的特點(diǎn)
  • 做爰網(wǎng)站有哪些seo線下培訓(xùn)課程
  • 網(wǎng)站焦點(diǎn)圖制作教程百度網(wǎng)站快速優(yōu)化
  • 網(wǎng)站開發(fā)用python嗎seo技巧與技術(shù)
  • 網(wǎng)站讀取錯(cuò)誤時(shí)怎樣做愛站之家
  • 學(xué)校校園網(wǎng)站建設(shè)必要性全國免費(fèi)發(fā)布信息平臺(tái)
  • 網(wǎng)站建設(shè)合同標(biāo)的怎么寫西安樓市最新房價(jià)
  • 企業(yè)做英文網(wǎng)站什么關(guān)鍵詞可以搜到那種
  • 信譽(yù)比較好的網(wǎng)上做任務(wù)的網(wǎng)站百度熱搜廣告位
  • 幼教網(wǎng)站建設(shè)分析今日新聞國際最新消息
  • 青縣網(wǎng)站建設(shè)蘇州seo服務(wù)
  • 做網(wǎng)站開發(fā)語言哪里可以建網(wǎng)站