什么公司做網(wǎng)站出名國際新聞
ICCV 2023
創(chuàng)新點
HyperDiffusion:一種用隱式神經(jīng)場無條件生成建模的新方法。
HyperDiffusion直接對MLP權重進行操作,并生成新的神經(jīng)隱式場。
HyperDiffusion是與維度無關的生成模型。可以對不同維度的數(shù)據(jù)用相同的訓練方法來合成高保真示例。
局限性
擴散過程僅在優(yōu)化后的MLP參數(shù)上運行,而不了解任何表面重建過程。
只用單個mlp擬合模型,如果加上grid會有更好的空間表達能力?
Pipeline
1.過擬合mlp,使得每個mlp精確表征一個模型,然后把網(wǎng)絡參數(shù)展平成一維向量。
2.將優(yōu)化后的一維向量送到擴散模型中,這個模型無需任何先驗知識。
3.訓練完成后,可用隨機采樣的噪聲進行反向擴散過程來合成新的MLP,該權重對應于新的神經(jīng)隱式場。
Per-Sample MLP Overfitting
對訓練數(shù)據(jù)集中的不同樣本{Si,i=1,…,N}使用相同的MLP架構,但權重是專門針對每個數(shù)據(jù)樣本進行優(yōu)化的。
指定模型i,以及模型的某一處位置x,可計算表面表示。
用bce損失優(yōu)化模。其中ogt是真實的占用率。
mlp架構
包含3個隱藏層,每個隱藏層有128個神經(jīng)元,最終輸出占用值。
在3D空間內(nèi)隨機采樣100k個點,將所有實例歸一化到[?0.5,0.5]3。
進一步對mesh表面附近采樣100k個點。
兩組點組合起來,這些占用用于監(jiān)督過度擬合過程。使用每批次2048點來優(yōu)化MLP,并使用BCE損失進行800個epoch的訓練,直到收斂,每個形狀大約需要6分鐘。
4D形狀
對于每個時間幀,按照3D形狀采樣對200k個點及其占用進行采樣,對序列的每一幀重復采樣過程。
為每個序列優(yōu)化一組MLP權重和偏差來表示每個4D形狀。
參數(shù)初始化
通過一致的權重初始化來指導MLP優(yōu)化過程。
優(yōu)化第一組MLP權重和偏差θ1來表示第一個樣本S1,并使用θ1的優(yōu)化權重來初始化其余MLP。
消融實驗也證明使用第一個MLP優(yōu)化后的參數(shù)進行初始化會帶來更好的效果。
MLP Weight-Space Diffusion
Transformer已被證明可以在語言域中優(yōu)雅地處理長向量,因此是MLP權重空間建模的合適選擇。
使用transformer T作為去噪網(wǎng)絡,T 直接預測去噪的MLP權重,而不是噪聲。
對每個向量θ應用標準高斯噪聲t次。然后將噪聲向量與t的正弦嵌入一起輸入到線性投影。
將投影與可學習的位置編碼向量相加。
transformer輸出去噪的token,經(jīng)過投影生成預測的去噪MLP權重w*。
使用去噪權重θ*和輸入權重θ之間的均方誤差(MSE)損失進行訓練。
Experiments
3層128維的MLP包含約36k個參數(shù),這些參數(shù)被展平并標記化以進行擴散。批大小為32,初始學習率為2e?4,每200個epoch減少20%。訓練約4000個epoch直到收斂,在單個A6000上需要約4 天。
對于3D形狀生成,使用ShapeNet數(shù)據(jù)集的汽車、椅子和飛機類別。
對于4D形狀生成,使用DeformingThings4D中的16幀動物動畫序列。
對3D形狀使用243的分辨率,對4D形狀使用16×243的分辨率(最大空間分辨率,以便可以輕松地訓練4D網(wǎng)格)。
遠小于8i。
對于ShapeNet的3D形狀生成的比較。
生成3D模型的可視化對比?;隗w素的diffusion的結果分辨率相對較低,sota的PVD和DPC只能合成離散點云。
相比之下,我們的神經(jīng)場合成可以生成高質(zhì)量、連續(xù)的表面表示,很容易提取為網(wǎng)格。
4D動畫合成的可視化對比。生成更詳細的動畫,而且實現(xiàn)了更平滑的時間一致性。