青島做網(wǎng)站哪家專業(yè)小紅書代運營
論文鏈接: MATLABER: Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR
背景
得益擴散模型和大量的text - image 成對的圖片, 現(xiàn)在文生2D的模型已經(jīng)比較成熟的框架和模型,主流的技術(shù)比如說stable diffusion 和 midjourney 以及工業(yè)領(lǐng)域runway 等。當(dāng)2D技術(shù)日漸成熟之后,開發(fā)者的眼光逐漸轉(zhuǎn)向了文生3D的領(lǐng)域,開創(chuàng)性的工作由DreamFusion提出的Relying on promising Score Distillation Sampling (SDS) 一文中提出SDS_loss,簡單的來說其是一種優(yōu)化3D表示的技術(shù),通過向不同的方向去渲染圖片生成,使得生成的圖片更加的逼近真實的圖片。
在Dream Dusion工作之后,又有幾項突出性的工作提出:
- Magic3D: 第一個將DreanFusion生成模型的分辨率由64 提升至512 ,其大致可以分為兩個階段,第一個階段用NERF , 第二個階段將模型轉(zhuǎn)成Mesh的格式再給其上色。
- Fantasia3D: 同時實現(xiàn)了一個更好的geometry 和現(xiàn)實紋理的生成
- ProlificDreamer: 通過優(yōu)化SDS loss ,從而實現(xiàn)更加逼真的紋理效果。
但是上述的幾種方法中,雖然都取得了不錯的效果,但是在這些工作中材質(zhì)的因素卻鮮有人考慮,比如說dreamFusion 只考慮了光照的反射因素。而Fantasia3D雖然使用BRDF的材質(zhì)進行建模,但是其優(yōu)化的過程中使用的固定的enviroment map所以導(dǎo)致物體非常容易與環(huán)境的光照進行耦合。 而真實理想的環(huán)境下,我們應(yīng)當(dāng)期望不同的材質(zhì)能與不同的環(huán)境做解耦從而形成更加逼真的真實環(huán)境下的3D模型。但是由于少有的文本-材料對數(shù)據(jù)集,目前僅有一些BRDF材料數(shù)據(jù)庫,因此前人的工作在對材質(zhì)的因素還是止步不前。
MATLABER
作者提出了一種隱式的BRDF自編碼器去實現(xiàn)一個材質(zhì)的prior。其工作原理大致如上圖,首先作者是在前人公開的一個7維的BRDF材質(zhì)的數(shù)據(jù)集上做訓(xùn)練,首先將數(shù)據(jù)通過一個Encoder得到一個隱式空間上的code然后再通過一個Decoder 得到了一個重建后的BRDF材質(zhì), 然后去計算重建的損失。除此之外,作者參考前人的工作通過線性插值的方法得到了一個平滑的latent space 記作Zn, 然后Zn通過一個Decoder-Encoder的結(jié)構(gòu)可以恢復(fù)成Zn’ 其中添加了Cyclic Loss 和Smoothness Loss 以及初始的latent code 和 經(jīng)過插值得到的smooth latent space 中間的KL散度的損失。將上述的這四個Loss通過加權(quán)平均加起來之后就是整個BRDF自編碼器的損失了??梢钥吹浇?jīng)過優(yōu)化后的模型恢復(fù)的BRDF的材質(zhì)跟原始的材質(zhì)還是比較像的。
通過上一節(jié)介紹的BRDF材質(zhì)的自編碼器訓(xùn)練好后,作者就將其整合到幾何建模的3D-generation model (參考Fantasia3D工作)里。其整個pipeline,如上圖,材質(zhì)的MLP首先去預(yù)測latnt code Z然后通過前文訓(xùn)練好的Decoder去重塑一個7維的BRDF材質(zhì),在通過渲染管線把圖片渲染出來,再通過將圖片加上SDS loss 再去進行擴散的過程,去更新材質(zhì)的MLP 以及幾何建模里的參數(shù),從而實現(xiàn)整個Pipeline。
為了解決材質(zhì)與環(huán)境解耦的一些問題,在訓(xùn)練的過程中,作者提出了幾個trick:
- 使用了多個環(huán)境地圖,人為的去創(chuàng)造多個反應(yīng)光從而使得模型泛化能力增強
- 訓(xùn)練過程中,不斷的旋轉(zhuǎn)環(huán)境光,使其模型多光照角度的解耦能力增加
- SDS 損失去自適應(yīng)的針對不同材質(zhì)的變化
- 添加材質(zhì)損失的正則項,使得生成的BRDF材質(zhì)更加的平滑
下面是幾個demo,可以看到整個模型生成的3D模型對環(huán)境光的解耦能力還是十分真實的。
除此之外,由于材質(zhì)的latent code 是一個十分平滑的空間,所以整個模型還可以通過對atent code 進行線性插值的方法去改變最終生成的結(jié)果,下面是幾個例子可以將材質(zhì)由黃金變成銀,也可以將顏色進行改變。
整體來說,作者提出的模型基于幾個trick相比于前人的工作效果還是很好的。作者在原文中從四個方面(1.3維物體和真實的物體是否能對齊 2. 外觀是否真實 3. 外觀是否細節(jié) 4. 材質(zhì)與環(huán)境光的解耦能力)也做了量化對比實驗,可以看到作者提出的模型相比于之前的模型在后面三個維度都是最高的。 Algnment 的不足,作者解釋是因為stable diffusion不足導(dǎo)致的,是clip model因為其對文本的理解能力相比于Magic3D模型使用的text-iamge-diffusion model 更差,所以導(dǎo)致對齊的能力相比于Magic3D模型更差。
未來工作
- 針對形狀和外觀能力對齊能力的優(yōu)化
- 更大的BRDF的數(shù)據(jù)庫
- 生成的模型與環(huán)境更好的解耦能力
- 基于SDS loss的優(yōu)化
- 3D物體拓展到世界場景