做淘寶相關(guān)網(wǎng)站seo下載站
預(yù)加載一個3D數(shù)字人物模型(Digital Mark),該模型可以通過音頻驅(qū)動進行面部動畫。
用戶上傳音頻文件作為輸入。
將音頻輸入饋送到預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中。
Audio2Face加載預(yù)制的3d人頭mesh
3D數(shù)字人物面部模型由大量頂點組成,每個頂點都有xyz坐標(biāo)。
深度神經(jīng)網(wǎng)絡(luò)輸入音頻特征,輸出是這些頂點在每個時刻的(載預(yù)制的3d人頭)位移量(delta x, delta y, delta z)。
將網(wǎng)絡(luò)輸出的頂點位移量應(yīng)用到人物面部模型的原始頂點位置上,就可以得到每個時刻面部形狀變化后的新頂點坐標(biāo)。
這樣預(yù)制的人頭mesh就被聲音信號驅(qū)動了。
Audio2Face是如何實現(xiàn)retarget的?
Audio2Face就可以使用retarget技術(shù)將這些表情映射到目標(biāo)角色上。它會自動分析源角色和目標(biāo)角色的面部結(jié)構(gòu)和特征,找出它們之間的對應(yīng)關(guān)系,然后將源角色的面部表情映射到目標(biāo)角色上。這樣,目標(biāo)角色就能夠呈現(xiàn)出與源角色相同的面部表情。
需要注意的是,retarget技術(shù)的效果取決于源角色和目標(biāo)角色之間的相似程度。如果它們之間的面部結(jié)構(gòu)和特征差異較大,那么retarget后的效果可能會出現(xiàn)一些失真或不準(zhǔn)確的情況。