當(dāng)前位置：首頁 > news >正文

手機(jī)網(wǎng)站建設(shè)方案書/網(wǎng)店推廣渠道有哪些

news 2025/7/6 23:46:43

手機(jī)網(wǎng)站建設(shè)方案書,網(wǎng)店推廣渠道有哪些,南昌做網(wǎng)站哪家公司比較好,一個(gè)成功的網(wǎng)站要具備哪些方面基于單幅圖像的自監(jiān)督三維人體姿態(tài)估計(jì) 主頁： https://josesosajs.github.io/ imagepose/ 源碼：未開源摘要我們提出了一種新的自我監(jiān)督的方法預(yù)測(cè)三維人體姿勢(shì)從一個(gè)單一的圖像。預(yù)測(cè)網(wǎng)絡(luò)是從描繪處于典型姿勢(shì)的人的未標(biāo)記圖像的數(shù)據(jù)集和一組未配對(duì)…

基于單幅圖像的自監(jiān)督三維人體姿態(tài)估計(jì)

主頁：?https://josesosajs.github.io/ imagepose/

源碼：未開源

摘要

我們提出了一種新的自我監(jiān)督的方法預(yù)測(cè)三維人體姿勢(shì)從一個(gè)單一的圖像。預(yù)測(cè)網(wǎng)絡(luò)是從描繪處于典型姿勢(shì)的人的未標(biāo)記圖像的數(shù)據(jù)集和一組未配對(duì)的2D姿勢(shì)訓(xùn)練的。通過最小化對(duì)注釋數(shù)據(jù)的需要，該方法具有快速應(yīng)用于其他鉸接結(jié)構(gòu)（例如，關(guān)節(jié)）的姿態(tài)估計(jì)的潛力。動(dòng)物）。自我監(jiān)督來自早期的想法，利用3D旋轉(zhuǎn)下的預(yù)測(cè)姿勢(shì)之間的一致性。我們的方法是一個(gè)實(shí)質(zhì)性的進(jìn)步，在國家的最先進(jìn)的自我監(jiān)督的方法，直接從圖像中訓(xùn)練映射，沒有肢體關(guān)節(jié)的約束或任何3D經(jīng)驗(yàn)的姿態(tài)之前。我們使用提供圖像和地面真實(shí)3D姿勢(shì)的基準(zhǔn)數(shù)據(jù)集（Human3.6M，MPI-INF-3DHP）將性能與最先進(jìn)的自監(jiān)督方法進(jìn)行比較。盡管對(duì)注釋數(shù)據(jù)的要求降低，但我們表明該方法優(yōu)于Human3.6M，并與MPI-INF-3DHP的性能相匹配。定性結(jié)果的數(shù)據(jù)集ofhuman手顯示的潛力，快速學(xué)習(xí)，以預(yù)測(cè)3D姿態(tài)關(guān)節(jié)結(jié)構(gòu)以外的人體。

?3D姿態(tài)估計(jì)流水線。我們的方法通過2D姿態(tài)的中間表示聯(lián)合學(xué)習(xí)從圖像中估計(jì)3D姿態(tài)。管道嵌入在更大的網(wǎng)絡(luò)中，用于端到端訓(xùn)練。

引言

我們的方法同時(shí)學(xué)習(xí)2D和3D姿態(tài)表示在很大程度上是無監(jiān)督的方式，只需要一個(gè)經(jīng)驗(yàn)先驗(yàn)的未配對(duì)的2D姿勢(shì)。我們?cè)贖uman3.6M [11]和MPI-INF 3DHP [23]數(shù)據(jù)集上證明了其有效性，這是兩個(gè)最受歡迎的人體姿勢(shì)估計(jì)基準(zhǔn)。我們還使用人手的合成數(shù)據(jù)集顯示了該方法對(duì)其他關(guān)節(jié)結(jié)構(gòu)的適應(yīng)性[33]。在實(shí)驗(yàn)中，該方法優(yōu)于最先進(jìn)的自監(jiān)督方法，這些方法從圖像中估計(jì)3D姿態(tài)，并且在訓(xùn)練中需要更高的監(jiān)督?？偟膩碚f，我們的方法具有以下優(yōu)點(diǎn)：

它不假設(shè)任何3D姿勢(shì)注釋或配對(duì)的2D姿勢(shì)注釋。

它具有快速適應(yīng)其他鉸接結(jié)構(gòu)（例如，關(guān)節(jié)）的3D姿態(tài)預(yù)測(cè)的潛力。動(dòng)物和有關(guān)節(jié)的無生命物體）。

方法

我們提出的3D姿態(tài)估計(jì)模型由從全身圖像映射到3D姿態(tài)的三個(gè)網(wǎng)絡(luò)Φ、Ω、Λ的流水線組成。這在圖2中左上角的藍(lán)色虛線框中顯示。管道包括：

- 從輸入圖像X映射到中間骨架圖像s的卷積神經(jīng)網(wǎng)絡(luò)（CNN）Φ

-?從s到2D姿態(tài)表示y的第二CNN Ω映射

- 完全連接的網(wǎng)絡(luò)Λ將2D姿態(tài)y提升到所需的3D姿態(tài)V

我們通過將這三個(gè)網(wǎng)絡(luò)合并到一個(gè)更大的網(wǎng)絡(luò)（圖2）來一起訓(xùn)練它們，并優(yōu)化端到端。該更大的網(wǎng)絡(luò)被構(gòu)造成并入3D姿態(tài)的變換的循環(huán)。環(huán)周圍的幾何一致性的程度有助于損失函數(shù)，并提供訓(xùn)練的自我監(jiān)督。訓(xùn)練從描繪不同姿勢(shì)的人的圖像數(shù)據(jù)集開始。我們還假設(shè)我們有一個(gè)典型的2D姿態(tài)的（通常不相關(guān)的）數(shù)據(jù)集，我們使用可微渲染函數(shù)κ從該數(shù)據(jù)集獲得骨架圖像。這些將在GAN框架D中使用，以幫助確保生成的骨架圖像是真實(shí)的。在下面的章節(jié)中，我們將提供有關(guān)模型組件的更多詳細(xì)信息。

Image to 3D pose mapping

圖像到姿態(tài)映射是網(wǎng)絡(luò)Φ、Ω、Λ的組成，以將示出人的圖像X映射到其3D姿態(tài)表示V。映射的第一部分是CNN Φ，它從圖像x映射到骨架圖像s = Φ（x），將人顯示為簡(jiǎn)筆畫。我們的網(wǎng)絡(luò)Φ采用與[14]中的自動(dòng)編碼器類似的架構(gòu)，但沒有解碼器級(jí)。經(jīng)過訓(xùn)練后，s中出現(xiàn)的骨架與x中的人對(duì)齊。

然后，網(wǎng)絡(luò)?將骨架圖像s映射到2D姿態(tài)表示y = ?（Φ（x））。非正式地，?學(xué)習(xí)從骨架圖像中提取2D關(guān)節(jié)位置（xi，yi）。最后，Λ是將2D姿態(tài)提升到3D中的所需姿態(tài)V的神經(jīng)網(wǎng)絡(luò)。特別地，Λ（y）估計(jì)輸入y中的每對(duì)（xi，yi）關(guān)節(jié)位置的深度zi = di + Δ，其中Δ是恒定深度。然后，關(guān)節(jié)vi在3D姿態(tài)V中的3D位置由下式給出：

? $v_i=(x_iz_i,y_iz_i,z_i)$

?其中Zi被強(qiáng)制為大于1，以防止來自負(fù)深度的不確定性。與以前的作品[3，38，41]一致，?固定為10。

我們的提升網(wǎng)絡(luò)Λ是基于[3，22]的工作，并在[38]之后擴(kuò)展。在這種情況下，我們的擴(kuò)展版本不僅輸出輸入中每個(gè)關(guān)節(jié)位置（xi，yi）的深度zi，還生成仰角α的值。當(dāng)執(zhí)行3D姿勢(shì)V的旋轉(zhuǎn)時(shí)，將使用該角度。特別地，我們使用α來固定垂直軸相對(duì)于執(zhí)行旋轉(zhuǎn)的地平面的仰角。

總結(jié)

?Skeleton images and discriminator

骨架圖像和鑒別器

我們鼓勵(lì)訓(xùn)練網(wǎng)絡(luò)生成逼真的骨架圖像的幫助下，經(jīng)驗(yàn)的2D姿勢(shì)。注意，這些2D姿態(tài)是未配對(duì)的，即，它們不是訓(xùn)練圖像的注釋。首先使用[14]提出的渲染器將來自我們的經(jīng)驗(yàn)先驗(yàn)的2D姿態(tài)渲染為骨架圖像。令C是一組連接的關(guān)節(jié)對(duì)（i，j），e是圖像像素位置，并且u是身體關(guān)節(jié)位置的一組（x，y）2D坐標(biāo)。骨架圖像渲染函數(shù)由下式給出：

非正式地，κ通過從鏈接關(guān)節(jié)的線段定義距離場(chǎng)來工作，并應(yīng)用指數(shù)衰減來創(chuàng)建圖像。?

由[14]，我們使用鑒別器網(wǎng)絡(luò)D，其使用先前骨骼圖像來鼓勵(lì)預(yù)測(cè)的骨骼圖像表示可信的姿勢(shì)。D的任務(wù)是確定骨架圖像s = Φ（x）是否看起來像真實(shí)的骨架圖像，例如先前w = κ（u）中的那些。形式上，目標(biāo)是學(xué)習(xí)D（s）∈ [0，1]以匹配骨架圖像的參考分布p（w）和預(yù)測(cè)骨架圖像的分布q（s）。對(duì)抗性損失[8]比較未配對(duì)樣本w和預(yù)測(cè)s：

?Random rotations and projections

隨機(jī)旋轉(zhuǎn)和投影

我們的模型的基本組成部分是提升過程，其允許從估計(jì)的2D輸入y學(xué)習(xí)準(zhǔn)確的3D姿態(tài)V。為了提供提升函數(shù)和最終整個(gè)端到端網(wǎng)絡(luò)的自我監(jiān)督，我們通過隨機(jī)旋轉(zhuǎn)三維姿態(tài)v的第二個(gè)虛擬視圖（v = R * v）來模擬三維姿態(tài)v的虛擬視圖。以前的工作[3]已經(jīng)通過從固定分布均勻地采樣方位角和仰角來選擇旋轉(zhuǎn)矩陣R。最近，[38]證明了學(xué)習(xí)仰角分布會(huì)導(dǎo)致更好的結(jié)果。因此，我們遵循他們的方法并使用Λ來預(yù)測(cè)旋轉(zhuǎn)矩陣的仰角。圍繞方位軸Ra的旋轉(zhuǎn)從均勻分布[-π，π]采樣。

根據(jù)[38]，我們還通過計(jì)算分批平均值μe和標(biāo)準(zhǔn)差σe來預(yù)測(cè)數(shù)據(jù)集的仰角Re正態(tài)分布。我們從正態(tài)分布N（μe，σe）中采樣，以在仰角方向Re上旋轉(zhuǎn)姿態(tài)。然后，完整的旋轉(zhuǎn)矩陣R由 $R=R_e^TR_aR_e$ 給出。

在旋轉(zhuǎn)3D姿勢(shì)之后，我們通過透視投影投影來投影v。然后，相同的提升網(wǎng)絡(luò)Λ（y）產(chǎn)生另一個(gè)3D姿態(tài)（v’，其然后旋轉(zhuǎn)回到原始視圖。使用相同的透視投影將最終3D姿勢(shì)v’投影到2D。3D姿勢(shì)的變換的該循環(huán)提供了自我監(jiān)督的一致性損失。在此上下文中，我們假設(shè)如果提升網(wǎng)絡(luò)Λ準(zhǔn)確地估計(jì)2D輸入y的深度，則3D姿態(tài)（v）和（v’應(yīng)該是相似的。相同的原理適用于y和最終2D投影y’。這給出了損失函數(shù)的以下兩個(gè)分量：

此外，3D姿勢(shì)v和v’應(yīng)該是相似的。然而，我們不是與L2損失進(jìn)行比較，而是遵循[38，41]并測(cè)量來自網(wǎng)絡(luò)中相應(yīng)階段的批次的兩個(gè)樣本之間的3D姿態(tài)差異的變化。

?類似于Wandt et al.[38]，我們不假設(shè)樣本來自相同的視頻序列;樣本j和k可以來自不同的序列和對(duì)象。

總結(jié)

? $R=R_e^TR_aR_e$ ， $R_a$ 由 $\Lambda$ 預(yù)測(cè)，從均勻分布[-π，π]采樣。 $R_e$ 由數(shù)據(jù)集的均值方差求來，從正態(tài)分布N（μe，σe）中采樣。實(shí)現(xiàn)自我監(jiān)督

Empirical prior on 2D pose

LikeWandt等人[38]，我們使用歸一化流來提供2D姿勢(shì)的先驗(yàn)。歸一化流將簡(jiǎn)單分布（例如，正態(tài)分布）轉(zhuǎn)換成復(fù)分布，使得可以容易地計(jì)算在該復(fù)分布下的樣本密度。設(shè)Z ∈ RN為正態(tài)分布，g為可逆函數(shù)g（z）= ˉy，其中ˉy ∈ RN為二維人體姿態(tài)向量y在PCA子空間中的投影。通過改變變量，y的概率密度函數(shù)由下式給出：

其中f是g的倒數(shù)，det中是雅可比矩陣。在[38]中的歸一化流程實(shí)現(xiàn)之后，我們將f表示為神經(jīng)網(wǎng)絡(luò)[4]，并在具有負(fù)對(duì)數(shù)似然損失的2D姿態(tài)數(shù)據(jù)集上進(jìn)行優(yōu)化：?

Additional losses

我們計(jì)算從骨骼圖像到2D姿態(tài)的映射的損失y = ?（s）。我們使用與[14]相同的損失，但沒有預(yù)訓(xùn)練?，即，我們與所有其他網(wǎng)絡(luò)同時(shí)學(xué)習(xí)這種映射。L?由下式給出

其中u表示來自未配對(duì)先驗(yàn)的2D姿態(tài)，s是預(yù)測(cè)的骨架圖像，并且λ是設(shè)置為0.1的平衡系數(shù)。函數(shù)κ是骨架圖像渲染器。?

基于將相對(duì)骨長度并入姿態(tài)估計(jì)方法[21，28，38]的已證明的有效性，我們添加該方法以在估計(jì)3D姿態(tài)時(shí)施加軟約束。按照[38]中的公式，我們計(jì)算第n個(gè)骨骼的相對(duì)骨骼長度bn除以給定姿勢(shì)v的所有骨骼的平均值。我們使用預(yù)先計(jì)算的相對(duì)骨骼長度作為高斯先驗(yàn)的平均值。然后，骨長度的負(fù)對(duì)數(shù)似然定義損失函數(shù)