wordpress調(diào)用分類欄目深圳seo論壇
概述
論文地址:https://arxiv.org/pdf/2402.16124v1.pdf
逼真的人臉三維動(dòng)畫在娛樂業(yè)中至關(guān)重要,包括數(shù)字人物動(dòng)畫、電影視覺配音和虛擬化身的創(chuàng)建。以往的研究曾試圖建立動(dòng)態(tài)頭部姿勢(shì)與音頻節(jié)奏之間的關(guān)聯(lián)模型,或使用情感標(biāo)簽或視頻剪輯作為風(fēng)格參考,但這些方法的表現(xiàn)力有限,無法捕捉到情感的細(xì)微差別。它們還要求用戶手動(dòng)選擇風(fēng)格源,這往往會(huì)導(dǎo)致應(yīng)用不自然。
本文提出了一種更自然的方法。它旨在利用人類語(yǔ)音中的風(fēng)格信息,生成能直接反映說話者情緒和風(fēng)格的富有表現(xiàn)力的說話表情。從音頻中合成各種逼真的面部動(dòng)作是一項(xiàng)復(fù)雜而具有挑戰(zhàn)性的任務(wù),同時(shí)還要保持準(zhǔn)確的唇部同步。為了解決這個(gè)問題,我們正在開發(fā)一個(gè)名為 AVI-Talking 的新系統(tǒng)。該系統(tǒng)可通過視聽引導(dǎo)系統(tǒng)生成富有表現(xiàn)力的說話表情。
AVI-Talking 通過使用中間視覺教學(xué)表征而不是直接從音頻中學(xué)習(xí),有效地彌補(bǔ)了視聽差距。具體來說,該框架將生成過程分為兩個(gè)階段,每個(gè)階段都有一套明確的目標(biāo),從而大大降低了優(yōu)化的復(fù)雜性。此外,將視覺指令作為中間輸出的呈現(xiàn)方式提高了模型的可解釋性,并為用戶根據(jù)自己的意愿進(jìn)行指令和修改提供了靈活性。
這項(xiàng)技術(shù)有望開辟娛樂技術(shù)的新天地。
AVI-Talking 概述
AVI-Talking 的目標(biāo)是根據(jù)語(yǔ)音片段生成具有同步嘴唇動(dòng)作和一致面部表情的三維動(dòng)畫人臉。它不是根據(jù)直接語(yǔ)音合成會(huì)說話的人臉,而是利用大規(guī)模語(yǔ)言模型來有效指導(dǎo)生成過程。
下圖概述了 AVI-Talking 系統(tǒng)的流程。該系統(tǒng)由兩個(gè)主要階段組成:第一個(gè)階段是 “通過 LLMs 進(jìn)行視聽教學(xué)”。第二個(gè)階段是 “會(huì)說話的面部 指令系統(tǒng)”。在這里,三維面部動(dòng)作是根據(jù)指導(dǎo)實(shí)時(shí)合成的。其目的是從輸入語(yǔ)音中生成三維參數(shù)系數(shù)的時(shí)間序列。
這種方法能夠真實(shí)地再現(xiàn)說話者的自然面部表情和嘴部動(dòng)作,為觀眾提供更逼真的視覺體驗(yàn)。
實(shí)驗(yàn)和結(jié)果
對(duì)生成的指南和會(huì)說話的面孔的質(zhì)量進(jìn)行量化評(píng)估。評(píng)估分為兩類:第一類是視聽指令預(yù)測(cè)。在這里,自然語(yǔ)言生成領(lǐng)域廣泛采用的指標(biāo)被用來評(píng)估使用 BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr 和 SPICE 生成的指南的準(zhǔn)確性。使用 GAN 指標(biāo) FID 和 KID 評(píng)估面部保真度,并通過多樣性得分進(jìn)一步衡量特定語(yǔ)音片段的面部表情多樣性。它還通過計(jì)算不同噪音條件下風(fēng)格特征之間的距離來量化生成面部表情的變化,并使用 LSE-D 來衡量唇部同步的準(zhǔn)確性。
在 MeadText 和 RAVEDESS 數(shù)據(jù)集上獲得的 "三維會(huì)說話的人臉合成 "結(jié)果如下表所示。在許多評(píng)估指標(biāo)上,AVI-Talking 都表現(xiàn)出色。不過,在唇音同步的準(zhǔn)確性方面,它可能略遜于其他方法,這主要是由于 SyncNet 是基于無表情視頻預(yù)先訓(xùn)練的,因此偏向于中性面部表情。
AVI-Talking 的重點(diǎn)是面部表情,這是影響得分的一個(gè)因素。不過,它獲得的 LSE-D 分?jǐn)?shù)接近參考視頻,這表明生成精確的唇音同步視頻是可能的。
本文還進(jìn)行了定量評(píng)估。主觀評(píng)估對(duì)于驗(yàn)證模型在生成任務(wù)中的表現(xiàn)至關(guān)重要。下圖顯示了AVI-Talking 與傳統(tǒng)技術(shù)在三種不同情況下的比較結(jié)果。結(jié)果表明,AVI-Talking可根據(jù)說話者的狀態(tài)生成可靠的視聽指令和富有表現(xiàn)力的面部細(xì)節(jié)。
關(guān)于唇語(yǔ)同步的性能,據(jù)觀察,CodeTalker 和 Faceformer 等其他方法可以在沒有面部表情的情況下產(chǎn)生更自然的發(fā)音。然而,根據(jù)這項(xiàng)研究,在涉及情緒的場(chǎng)景中,可以觀察到唇部動(dòng)作的輕微失真。這一觀察結(jié)果與上述表格中的 LSE-D 分?jǐn)?shù)也是一致的,后者是一種定量評(píng)估。
此外,論文還包括一項(xiàng)用戶研究,15 名參與者對(duì)AVI-Talking 和三種競(jìng)爭(zhēng)方法生成的共 30 個(gè)視頻進(jìn)行了評(píng)分。這些視頻是使用從 MeadText 測(cè)試集中隨機(jī)抽取的 20 段口語(yǔ)音頻和從 RAVEDESS 中抽取的 10 段音頻生成的。
評(píng)估采用業(yè)內(nèi)廣泛使用的 MOS。參與者從三個(gè)維度對(duì)每段視頻進(jìn)行 1 到 5 分的評(píng)分。
- 唇語(yǔ)同步質(zhì)量:評(píng)估與口語(yǔ)內(nèi)容同步的嘴部動(dòng)作。
- 動(dòng)作的表現(xiàn)力:評(píng)估面部細(xì)節(jié)的豐富程度。
- 面部表情的一致性:評(píng)估面部動(dòng)作與說話者表情的一致性。
結(jié)果如下表所示,由于 MeshTalk 采用了簡(jiǎn)單的 UNet 架構(gòu)設(shè)計(jì),因此在各方面的得分都最低。另一方面,EmoTalk 和 CodeTalker(引入了轉(zhuǎn)換器塊)的唇音同步質(zhì)量得分較高。
在動(dòng)作的表現(xiàn)力和面部表情的一致性方面,AVI-Talking明顯優(yōu)于其他方法??傮w而言,AVI-Talking 在表現(xiàn)力合成方面優(yōu)于其他模型,清楚地表明了該方法的有效性。
總結(jié)
本文提出的 AVI-Talking 是一種基于語(yǔ)音生成富有表現(xiàn)力的三維說話表情的新型系統(tǒng)。該系統(tǒng)首先將語(yǔ)音-視覺生成分解為兩個(gè)不同的學(xué)習(xí)步驟,并通過使用中間視覺引導(dǎo)來促進(jìn)語(yǔ)音驅(qū)動(dòng)的說話表情生成。它還引入了一種新穎的軟提示策略,利用大規(guī)模語(yǔ)言模型的語(yǔ)境知識(shí)來捕捉說話者的語(yǔ)音狀態(tài)。此外,我們還建立了一個(gè)預(yù)訓(xùn)練程序,以整合唇語(yǔ)同步和視聽指令。最后,我們利用擴(kuò)散預(yù)網(wǎng)絡(luò)將視聽指令有效映射到潛在空間中,以實(shí)現(xiàn)高質(zhì)量的生產(chǎn)。
不過,也發(fā)現(xiàn)了一些局限性。對(duì)特定語(yǔ)音狀態(tài)的低靈敏度和說話人臉合成網(wǎng)絡(luò)對(duì)有限視覺指示的依賴被認(rèn)為是挑戰(zhàn)。這歸因于數(shù)據(jù)集的異質(zhì)性,以及說話者的語(yǔ)音沒有得到很好的識(shí)別。
未來的研究還將考慮使用檢索增強(qiáng)生成(RAG)技術(shù)進(jìn)行進(jìn)一步的微調(diào)和知識(shí)注入。這將使大規(guī)模語(yǔ)言能夠?qū)iT用于特定的跨模態(tài)視聽生成任務(wù),從而生成更具表現(xiàn)力的會(huì)說話的人臉。此外,通過使用強(qiáng)大的視覺標(biāo)記器和對(duì)一般視覺基礎(chǔ)設(shè)施模型進(jìn)行微調(diào),有望獲得更通用和更有競(jìng)爭(zhēng)力的結(jié)果。這些發(fā)展有望成為未來會(huì)說話的人臉生成技術(shù)的重要步驟。