手機網(wǎng)站建設(shè)方案書/網(wǎng)店推廣渠道有哪些
基于單幅圖像的自監(jiān)督三維人體姿態(tài)估計
?
主頁:?https://josesosajs.github.io/ imagepose/
源碼:未開源
摘要
我們提出了一種新的自我監(jiān)督的方法預(yù)測三維人體姿勢從一個單一的圖像。預(yù)測網(wǎng)絡(luò)是從描繪處于典型姿勢的人的未標(biāo)記圖像的數(shù)據(jù)集和一組未配對的2D姿勢訓(xùn)練的。通過最小化對注釋數(shù)據(jù)的需要,該方法具有快速應(yīng)用于其他鉸接結(jié)構(gòu)(例如,關(guān)節(jié))的姿態(tài)估計的潛力。動物)。自我監(jiān)督來自早期的想法,利用3D旋轉(zhuǎn)下的預(yù)測姿勢之間的一致性。我們的方法是一個實質(zhì)性的進步,在國家的最先進的自我監(jiān)督的方法,直接從圖像中訓(xùn)練映射,沒有肢體關(guān)節(jié)的約束或任何3D經(jīng)驗的姿態(tài)之前。我們使用提供圖像和地面真實3D姿勢的基準(zhǔn)數(shù)據(jù)集(Human3.6M,MPI-INF-3DHP)將性能與最先進的自監(jiān)督方法進行比較。盡管對注釋數(shù)據(jù)的要求降低,但我們表明該方法優(yōu)于Human3.6M,并與MPI-INF-3DHP的性能相匹配。定性結(jié)果的數(shù)據(jù)集ofhuman手顯示的潛力,快速學(xué)習(xí),以預(yù)測3D姿態(tài)關(guān)節(jié)結(jié)構(gòu)以外的人體。
?3D姿態(tài)估計流水線。我們的方法通過2D姿態(tài)的中間表示聯(lián)合學(xué)習(xí)從圖像中估計3D姿態(tài)。管道嵌入在更大的網(wǎng)絡(luò)中,用于端到端訓(xùn)練。
引言
我們的方法同時學(xué)習(xí)2D和3D姿態(tài)表示在很大程度上是無監(jiān)督的方式,只需要一個經(jīng)驗先驗的未配對的2D姿勢。我們在Human3.6M [11]和MPI-INF 3DHP [23]數(shù)據(jù)集上證明了其有效性,這是兩個最受歡迎的人體姿勢估計基準(zhǔn)。我們還使用人手的合成數(shù)據(jù)集顯示了該方法對其他關(guān)節(jié)結(jié)構(gòu)的適應(yīng)性[33]。在實驗中,該方法優(yōu)于最先進的自監(jiān)督方法,這些方法從圖像中估計3D姿態(tài),并且在訓(xùn)練中需要更高的監(jiān)督??偟膩碚f,我們的方法具有以下優(yōu)點:
它不假設(shè)任何3D姿勢注釋或配對的2D姿勢注釋。
它具有快速適應(yīng)其他鉸接結(jié)構(gòu)(例如,關(guān)節(jié))的3D姿態(tài)預(yù)測的潛力。動物和有關(guān)節(jié)的無生命物體)。
方法
我們提出的3D姿態(tài)估計模型由從全身圖像映射到3D姿態(tài)的三個網(wǎng)絡(luò)Φ、Ω、Λ的流水線組成。這在圖2中左上角的藍色虛線框中顯示。管道包括:
- 從輸入圖像X映射到中間骨架圖像s的卷積神經(jīng)網(wǎng)絡(luò)(CNN)Φ
-?從s到2D姿態(tài)表示y的第二CNN Ω映射
- 完全連接的網(wǎng)絡(luò)Λ將2D姿態(tài)y提升到所需的3D姿態(tài)V

?
我們通過將這三個網(wǎng)絡(luò)合并到一個更大的網(wǎng)絡(luò)(圖2)來一起訓(xùn)練它們,并優(yōu)化端到端。該更大的網(wǎng)絡(luò)被構(gòu)造成并入3D姿態(tài)的變換的循環(huán)。環(huán)周圍的幾何一致性的程度有助于損失函數(shù),并提供訓(xùn)練的自我監(jiān)督。訓(xùn)練從描繪不同姿勢的人的圖像數(shù)據(jù)集開始。我們還假設(shè)我們有一個典型的2D姿態(tài)的(通常不相關(guān)的)數(shù)據(jù)集,我們使用可微渲染函數(shù)κ從該數(shù)據(jù)集獲得骨架圖像。這些將在GAN框架D中使用,以幫助確保生成的骨架圖像是真實的。在下面的章節(jié)中,我們將提供有關(guān)模型組件的更多詳細(xì)信息。
Image to 3D pose mapping
圖像到姿態(tài)映射是網(wǎng)絡(luò)Φ、Ω、Λ的組成,以將示出人的圖像X映射到其3D姿態(tài)表示V。映射的第一部分是CNN Φ,它從圖像x映射到骨架圖像s = Φ(x),將人顯示為簡筆畫。我們的網(wǎng)絡(luò)Φ采用與[14]中的自動編碼器類似的架構(gòu),但沒有解碼器級。經(jīng)過訓(xùn)練后,s中出現(xiàn)的骨架與x中的人對齊。
然后,網(wǎng)絡(luò)?將骨架圖像s映射到2D姿態(tài)表示y = ?(Φ(x))。非正式地,?學(xué)習(xí)從骨架圖像中提取2D關(guān)節(jié)位置(xi,yi)。最后,Λ是將2D姿態(tài)提升到3D中的所需姿態(tài)V的神經(jīng)網(wǎng)絡(luò)。特別地,Λ(y)估計輸入y中的每對(xi,yi)關(guān)節(jié)位置的深度zi = di + Δ,其中Δ是恒定深度。然后,關(guān)節(jié)vi在3D姿態(tài)V中的3D位置由下式給出:
?
?其中Zi被強制為大于1,以防止來自負(fù)深度的不確定性。與以前的作品[3,38,41]一致,?固定為10。
我們的提升網(wǎng)絡(luò)Λ是基于[3,22]的工作,并在[38]之后擴展。在這種情況下,我們的擴展版本不僅輸出輸入中每個關(guān)節(jié)位置(xi,yi)的深度zi,還生成仰角α的值。當(dāng)執(zhí)行3D姿勢V的旋轉(zhuǎn)時,將使用該角度。特別地,我們使用α來固定垂直軸相對于執(zhí)行旋轉(zhuǎn)的地平面的仰角。
總結(jié)
?Skeleton images and discriminator
骨架圖像和鑒別器
我們鼓勵訓(xùn)練網(wǎng)絡(luò)生成逼真的骨架圖像的幫助下,經(jīng)驗的2D姿勢。注意,這些2D姿態(tài)是未配對的,即,它們不是訓(xùn)練圖像的注釋。首先使用[14]提出的渲染器將來自我們的經(jīng)驗先驗的2D姿態(tài)渲染為骨架圖像。令C是一組連接的關(guān)節(jié)對(i,j),e是圖像像素位置,并且u是身體關(guān)節(jié)位置的一組(x,y)2D坐標(biāo)。骨架圖像渲染函數(shù)由下式給出:
非正式地,κ通過從鏈接關(guān)節(jié)的線段定義距離場來工作,并應(yīng)用指數(shù)衰減來創(chuàng)建圖像。?
由[14],我們使用鑒別器網(wǎng)絡(luò)D,其使用先前骨骼圖像來鼓勵預(yù)測的骨骼圖像表示可信的姿勢。D的任務(wù)是確定骨架圖像s = Φ(x)是否看起來像真實的骨架圖像,例如先前w = κ(u)中的那些。形式上,目標(biāo)是學(xué)習(xí)D(s)∈ [0,1]以匹配骨架圖像的參考分布p(w)和預(yù)測骨架圖像的分布q(s)。對抗性損失[8]比較未配對樣本w和預(yù)測s:
?Random rotations and projections
隨機旋轉(zhuǎn)和投影
我們的模型的基本組成部分是提升過程,其允許從估計的2D輸入y學(xué)習(xí)準(zhǔn)確的3D姿態(tài)V。為了提供提升函數(shù)和最終整個端到端網(wǎng)絡(luò)的自我監(jiān)督,我們通過隨機旋轉(zhuǎn)三維姿態(tài)v的第二個虛擬視圖(v = R * v)來模擬三維姿態(tài)v的虛擬視圖。以前的工作[3]已經(jīng)通過從固定分布均勻地采樣方位角和仰角來選擇旋轉(zhuǎn)矩陣R。最近,[38]證明了學(xué)習(xí)仰角分布會導(dǎo)致更好的結(jié)果。因此,我們遵循他們的方法并使用Λ來預(yù)測旋轉(zhuǎn)矩陣的仰角。圍繞方位軸Ra的旋轉(zhuǎn)從均勻分布[-π,π]采樣。
根據(jù)[38],我們還通過計算分批平均值μe和標(biāo)準(zhǔn)差σe來預(yù)測數(shù)據(jù)集的仰角Re正態(tài)分布。我們從正態(tài)分布N(μe,σe)中采樣,以在仰角方向Re上旋轉(zhuǎn)姿態(tài)。然后,完整的旋轉(zhuǎn)矩陣R由給出。
在旋轉(zhuǎn)3D姿勢之后,我們通過透視投影投影來投影v。然后,相同的提升網(wǎng)絡(luò)Λ(y)產(chǎn)生另一個3D姿態(tài)(v’,其然后旋轉(zhuǎn)回到原始視圖。使用相同的透視投影將最終3D姿勢v’投影到2D。3D姿勢的變換的該循環(huán)提供了自我監(jiān)督的一致性損失。在此上下文中,我們假設(shè)如果提升網(wǎng)絡(luò)Λ準(zhǔn)確地估計2D輸入y的深度,則3D姿態(tài)(v)和(v’應(yīng)該是相似的。相同的原理適用于y和最終2D投影y’。這給出了損失函數(shù)的以下兩個分量:
此外,3D姿勢v和v’應(yīng)該是相似的。然而,我們不是與L2損失進行比較,而是遵循[38,41]并測量來自網(wǎng)絡(luò)中相應(yīng)階段的批次的兩個樣本之間的3D姿態(tài)差異的變化。
?
?類似于Wandt et al.[38],我們不假設(shè)樣本來自相同的視頻序列;樣本j和k可以來自不同的序列和對象。
總結(jié)
?,
由
預(yù)測,從均勻分布[-π,π]采樣。
由數(shù)據(jù)集的均值方差求來,從正態(tài)分布N(μe,σe)中采樣。實現(xiàn)自我監(jiān)督
Empirical prior on 2D pose
LikeWandt等人[38],我們使用歸一化流來提供2D姿勢的先驗。歸一化流將簡單分布(例如,正態(tài)分布)轉(zhuǎn)換成復(fù)分布,使得可以容易地計算在該復(fù)分布下的樣本密度。設(shè)Z ∈ RN為正態(tài)分布,g為可逆函數(shù)g(z)= ˉy,其中ˉy ∈ RN為二維人體姿態(tài)向量y在PCA子空間中的投影。通過改變變量,y的概率密度函數(shù)由下式給出:
其中f是g的倒數(shù),det中是雅可比矩陣。在[38]中的歸一化流程實現(xiàn)之后,我們將f表示為神經(jīng)網(wǎng)絡(luò)[4],并在具有負(fù)對數(shù)似然損失的2D姿態(tài)數(shù)據(jù)集上進行優(yōu)化:?
?
Additional losses
我們計算從骨骼圖像到2D姿態(tài)的映射的損失y = ?(s)。我們使用與[14]相同的損失,但沒有預(yù)訓(xùn)練?,即,我們與所有其他網(wǎng)絡(luò)同時學(xué)習(xí)這種映射。L?由下式給出
其中u表示來自未配對先驗的2D姿態(tài),s是預(yù)測的骨架圖像,并且λ是設(shè)置為0.1的平衡系數(shù)。函數(shù)κ是骨架圖像渲染器。?
基于將相對骨長度并入姿態(tài)估計方法[21,28,38]的已證明的有效性,我們添加該方法以在估計3D姿態(tài)時施加軟約束。按照[38]中的公式,我們計算第n個骨骼的相對骨骼長度bn除以給定姿勢v的所有骨骼的平均值。我們使用預(yù)先計算的相對骨骼長度作為高斯先驗的平均值。然后,骨長度的負(fù)對數(shù)似然定義損失函數(shù)
?其中,N是由關(guān)節(jié)之間的連接性定義的骨骼數(shù)量。請注意,這是一個軟約束,允許個體之間的相對骨長度變化。
Training
我們從頭開始訓(xùn)練Φ、?、D和Λ。如[38]所示,只有歸一化流是獨立預(yù)訓(xùn)練的。用于訓(xùn)練我們的模型的完整損耗函數(shù)具有七個分量,為了便于消融研究,我們將這些損失項中的三個分組并將其表示為Lbase
因此,最終的復(fù)合損失函數(shù)被定義為:
?
?在測試期間,我們只保留由圖2左上方框中所示的訓(xùn)練Φ、?和Λ網(wǎng)絡(luò)組成的流水線。關(guān)于網(wǎng)絡(luò)和培訓(xùn)的更詳細(xì)說明,請參見補充部分。