手機(jī)網(wǎng)站建設(shè)方案書/網(wǎng)店推廣渠道有哪些
基于單幅圖像的自監(jiān)督三維人體姿態(tài)估計(jì)
?
主頁:?https://josesosajs.github.io/ imagepose/
源碼:未開源
摘要
我們提出了一種新的自我監(jiān)督的方法預(yù)測(cè)三維人體姿勢(shì)從一個(gè)單一的圖像。預(yù)測(cè)網(wǎng)絡(luò)是從描繪處于典型姿勢(shì)的人的未標(biāo)記圖像的數(shù)據(jù)集和一組未配對(duì)的2D姿勢(shì)訓(xùn)練的。通過最小化對(duì)注釋數(shù)據(jù)的需要,該方法具有快速應(yīng)用于其他鉸接結(jié)構(gòu)(例如,關(guān)節(jié))的姿態(tài)估計(jì)的潛力。動(dòng)物)。自我監(jiān)督來自早期的想法,利用3D旋轉(zhuǎn)下的預(yù)測(cè)姿勢(shì)之間的一致性。我們的方法是一個(gè)實(shí)質(zhì)性的進(jìn)步,在國家的最先進(jìn)的自我監(jiān)督的方法,直接從圖像中訓(xùn)練映射,沒有肢體關(guān)節(jié)的約束或任何3D經(jīng)驗(yàn)的姿態(tài)之前。我們使用提供圖像和地面真實(shí)3D姿勢(shì)的基準(zhǔn)數(shù)據(jù)集(Human3.6M,MPI-INF-3DHP)將性能與最先進(jìn)的自監(jiān)督方法進(jìn)行比較。盡管對(duì)注釋數(shù)據(jù)的要求降低,但我們表明該方法優(yōu)于Human3.6M,并與MPI-INF-3DHP的性能相匹配。定性結(jié)果的數(shù)據(jù)集ofhuman手顯示的潛力,快速學(xué)習(xí),以預(yù)測(cè)3D姿態(tài)關(guān)節(jié)結(jié)構(gòu)以外的人體。
?3D姿態(tài)估計(jì)流水線。我們的方法通過2D姿態(tài)的中間表示聯(lián)合學(xué)習(xí)從圖像中估計(jì)3D姿態(tài)。管道嵌入在更大的網(wǎng)絡(luò)中,用于端到端訓(xùn)練。
引言
我們的方法同時(shí)學(xué)習(xí)2D和3D姿態(tài)表示在很大程度上是無監(jiān)督的方式,只需要一個(gè)經(jīng)驗(yàn)先驗(yàn)的未配對(duì)的2D姿勢(shì)。我們?cè)贖uman3.6M [11]和MPI-INF 3DHP [23]數(shù)據(jù)集上證明了其有效性,這是兩個(gè)最受歡迎的人體姿勢(shì)估計(jì)基準(zhǔn)。我們還使用人手的合成數(shù)據(jù)集顯示了該方法對(duì)其他關(guān)節(jié)結(jié)構(gòu)的適應(yīng)性[33]。在實(shí)驗(yàn)中,該方法優(yōu)于最先進(jìn)的自監(jiān)督方法,這些方法從圖像中估計(jì)3D姿態(tài),并且在訓(xùn)練中需要更高的監(jiān)督??偟膩碚f,我們的方法具有以下優(yōu)點(diǎn):
它不假設(shè)任何3D姿勢(shì)注釋或配對(duì)的2D姿勢(shì)注釋。
它具有快速適應(yīng)其他鉸接結(jié)構(gòu)(例如,關(guān)節(jié))的3D姿態(tài)預(yù)測(cè)的潛力。動(dòng)物和有關(guān)節(jié)的無生命物體)。
方法
我們提出的3D姿態(tài)估計(jì)模型由從全身圖像映射到3D姿態(tài)的三個(gè)網(wǎng)絡(luò)Φ、Ω、Λ的流水線組成。這在圖2中左上角的藍(lán)色虛線框中顯示。管道包括:
- 從輸入圖像X映射到中間骨架圖像s的卷積神經(jīng)網(wǎng)絡(luò)(CNN)Φ
-?從s到2D姿態(tài)表示y的第二CNN Ω映射
- 完全連接的網(wǎng)絡(luò)Λ將2D姿態(tài)y提升到所需的3D姿態(tài)V

?
我們通過將這三個(gè)網(wǎng)絡(luò)合并到一個(gè)更大的網(wǎng)絡(luò)(圖2)來一起訓(xùn)練它們,并優(yōu)化端到端。該更大的網(wǎng)絡(luò)被構(gòu)造成并入3D姿態(tài)的變換的循環(huán)。環(huán)周圍的幾何一致性的程度有助于損失函數(shù),并提供訓(xùn)練的自我監(jiān)督。訓(xùn)練從描繪不同姿勢(shì)的人的圖像數(shù)據(jù)集開始。我們還假設(shè)我們有一個(gè)典型的2D姿態(tài)的(通常不相關(guān)的)數(shù)據(jù)集,我們使用可微渲染函數(shù)κ從該數(shù)據(jù)集獲得骨架圖像。這些將在GAN框架D中使用,以幫助確保生成的骨架圖像是真實(shí)的。在下面的章節(jié)中,我們將提供有關(guān)模型組件的更多詳細(xì)信息。
Image to 3D pose mapping
圖像到姿態(tài)映射是網(wǎng)絡(luò)Φ、Ω、Λ的組成,以將示出人的圖像X映射到其3D姿態(tài)表示V。映射的第一部分是CNN Φ,它從圖像x映射到骨架圖像s = Φ(x),將人顯示為簡(jiǎn)筆畫。我們的網(wǎng)絡(luò)Φ采用與[14]中的自動(dòng)編碼器類似的架構(gòu),但沒有解碼器級(jí)。經(jīng)過訓(xùn)練后,s中出現(xiàn)的骨架與x中的人對(duì)齊。
然后,網(wǎng)絡(luò)?將骨架圖像s映射到2D姿態(tài)表示y = ?(Φ(x))。非正式地,?學(xué)習(xí)從骨架圖像中提取2D關(guān)節(jié)位置(xi,yi)。最后,Λ是將2D姿態(tài)提升到3D中的所需姿態(tài)V的神經(jīng)網(wǎng)絡(luò)。特別地,Λ(y)估計(jì)輸入y中的每對(duì)(xi,yi)關(guān)節(jié)位置的深度zi = di + Δ,其中Δ是恒定深度。然后,關(guān)節(jié)vi在3D姿態(tài)V中的3D位置由下式給出:
?
?其中Zi被強(qiáng)制為大于1,以防止來自負(fù)深度的不確定性。與以前的作品[3,38,41]一致,?固定為10。
我們的提升網(wǎng)絡(luò)Λ是基于[3,22]的工作,并在[38]之后擴(kuò)展。在這種情況下,我們的擴(kuò)展版本不僅輸出輸入中每個(gè)關(guān)節(jié)位置(xi,yi)的深度zi,還生成仰角α的值。當(dāng)執(zhí)行3D姿勢(shì)V的旋轉(zhuǎn)時(shí),將使用該角度。特別地,我們使用α來固定垂直軸相對(duì)于執(zhí)行旋轉(zhuǎn)的地平面的仰角。
總結(jié)
?Skeleton images and discriminator
骨架圖像和鑒別器
我們鼓勵(lì)訓(xùn)練網(wǎng)絡(luò)生成逼真的骨架圖像的幫助下,經(jīng)驗(yàn)的2D姿勢(shì)。注意,這些2D姿態(tài)是未配對(duì)的,即,它們不是訓(xùn)練圖像的注釋。首先使用[14]提出的渲染器將來自我們的經(jīng)驗(yàn)先驗(yàn)的2D姿態(tài)渲染為骨架圖像。令C是一組連接的關(guān)節(jié)對(duì)(i,j),e是圖像像素位置,并且u是身體關(guān)節(jié)位置的一組(x,y)2D坐標(biāo)。骨架圖像渲染函數(shù)由下式給出:
非正式地,κ通過從鏈接關(guān)節(jié)的線段定義距離場(chǎng)來工作,并應(yīng)用指數(shù)衰減來創(chuàng)建圖像。?
由[14],我們使用鑒別器網(wǎng)絡(luò)D,其使用先前骨骼圖像來鼓勵(lì)預(yù)測(cè)的骨骼圖像表示可信的姿勢(shì)。D的任務(wù)是確定骨架圖像s = Φ(x)是否看起來像真實(shí)的骨架圖像,例如先前w = κ(u)中的那些。形式上,目標(biāo)是學(xué)習(xí)D(s)∈ [0,1]以匹配骨架圖像的參考分布p(w)和預(yù)測(cè)骨架圖像的分布q(s)。對(duì)抗性損失[8]比較未配對(duì)樣本w和預(yù)測(cè)s:
?Random rotations and projections
隨機(jī)旋轉(zhuǎn)和投影
我們的模型的基本組成部分是提升過程,其允許從估計(jì)的2D輸入y學(xué)習(xí)準(zhǔn)確的3D姿態(tài)V。為了提供提升函數(shù)和最終整個(gè)端到端網(wǎng)絡(luò)的自我監(jiān)督,我們通過隨機(jī)旋轉(zhuǎn)三維姿態(tài)v的第二個(gè)虛擬視圖(v = R * v)來模擬三維姿態(tài)v的虛擬視圖。以前的工作[3]已經(jīng)通過從固定分布均勻地采樣方位角和仰角來選擇旋轉(zhuǎn)矩陣R。最近,[38]證明了學(xué)習(xí)仰角分布會(huì)導(dǎo)致更好的結(jié)果。因此,我們遵循他們的方法并使用Λ來預(yù)測(cè)旋轉(zhuǎn)矩陣的仰角。圍繞方位軸Ra的旋轉(zhuǎn)從均勻分布[-π,π]采樣。
根據(jù)[38],我們還通過計(jì)算分批平均值μe和標(biāo)準(zhǔn)差σe來預(yù)測(cè)數(shù)據(jù)集的仰角Re正態(tài)分布。我們從正態(tài)分布N(μe,σe)中采樣,以在仰角方向Re上旋轉(zhuǎn)姿態(tài)。然后,完整的旋轉(zhuǎn)矩陣R由給出。
在旋轉(zhuǎn)3D姿勢(shì)之后,我們通過透視投影投影來投影v。然后,相同的提升網(wǎng)絡(luò)Λ(y)產(chǎn)生另一個(gè)3D姿態(tài)(v’,其然后旋轉(zhuǎn)回到原始視圖。使用相同的透視投影將最終3D姿勢(shì)v’投影到2D。3D姿勢(shì)的變換的該循環(huán)提供了自我監(jiān)督的一致性損失。在此上下文中,我們假設(shè)如果提升網(wǎng)絡(luò)Λ準(zhǔn)確地估計(jì)2D輸入y的深度,則3D姿態(tài)(v)和(v’應(yīng)該是相似的。相同的原理適用于y和最終2D投影y’。這給出了損失函數(shù)的以下兩個(gè)分量:
此外,3D姿勢(shì)v和v’應(yīng)該是相似的。然而,我們不是與L2損失進(jìn)行比較,而是遵循[38,41]并測(cè)量來自網(wǎng)絡(luò)中相應(yīng)階段的批次的兩個(gè)樣本之間的3D姿態(tài)差異的變化。
?
?類似于Wandt et al.[38],我們不假設(shè)樣本來自相同的視頻序列;樣本j和k可以來自不同的序列和對(duì)象。
總結(jié)
?,
由
預(yù)測(cè),從均勻分布[-π,π]采樣。
由數(shù)據(jù)集的均值方差求來,從正態(tài)分布N(μe,σe)中采樣。實(shí)現(xiàn)自我監(jiān)督
Empirical prior on 2D pose
LikeWandt等人[38],我們使用歸一化流來提供2D姿勢(shì)的先驗(yàn)。歸一化流將簡(jiǎn)單分布(例如,正態(tài)分布)轉(zhuǎn)換成復(fù)分布,使得可以容易地計(jì)算在該復(fù)分布下的樣本密度。設(shè)Z ∈ RN為正態(tài)分布,g為可逆函數(shù)g(z)= ˉy,其中ˉy ∈ RN為二維人體姿態(tài)向量y在PCA子空間中的投影。通過改變變量,y的概率密度函數(shù)由下式給出:
其中f是g的倒數(shù),det中是雅可比矩陣。在[38]中的歸一化流程實(shí)現(xiàn)之后,我們將f表示為神經(jīng)網(wǎng)絡(luò)[4],并在具有負(fù)對(duì)數(shù)似然損失的2D姿態(tài)數(shù)據(jù)集上進(jìn)行優(yōu)化:?
?
Additional losses
我們計(jì)算從骨骼圖像到2D姿態(tài)的映射的損失y = ?(s)。我們使用與[14]相同的損失,但沒有預(yù)訓(xùn)練?,即,我們與所有其他網(wǎng)絡(luò)同時(shí)學(xué)習(xí)這種映射。L?由下式給出
其中u表示來自未配對(duì)先驗(yàn)的2D姿態(tài),s是預(yù)測(cè)的骨架圖像,并且λ是設(shè)置為0.1的平衡系數(shù)。函數(shù)κ是骨架圖像渲染器。?
基于將相對(duì)骨長度并入姿態(tài)估計(jì)方法[21,28,38]的已證明的有效性,我們添加該方法以在估計(jì)3D姿態(tài)時(shí)施加軟約束。按照[38]中的公式,我們計(jì)算第n個(gè)骨骼的相對(duì)骨骼長度bn除以給定姿勢(shì)v的所有骨骼的平均值。我們使用預(yù)先計(jì)算的相對(duì)骨骼長度作為高斯先驗(yàn)的平均值。然后,骨長度的負(fù)對(duì)數(shù)似然定義損失函數(shù)
?其中,N是由關(guān)節(jié)之間的連接性定義的骨骼數(shù)量。請(qǐng)注意,這是一個(gè)軟約束,允許個(gè)體之間的相對(duì)骨長度變化。
Training
我們從頭開始訓(xùn)練Φ、?、D和Λ。如[38]所示,只有歸一化流是獨(dú)立預(yù)訓(xùn)練的。用于訓(xùn)練我們的模型的完整損耗函數(shù)具有七個(gè)分量,為了便于消融研究,我們將這些損失項(xiàng)中的三個(gè)分組并將其表示為Lbase
因此,最終的復(fù)合損失函數(shù)被定義為:
?
?在測(cè)試期間,我們只保留由圖2左上方框中所示的訓(xùn)練Φ、?和Λ網(wǎng)絡(luò)組成的流水線。關(guān)于網(wǎng)絡(luò)和培訓(xùn)的更詳細(xì)說明,請(qǐng)參見補(bǔ)充部分。