當(dāng)前位置：首頁(yè) > news >正文

wordpress調(diào)用分類欄目深圳seo論壇

news 2025/7/8 21:25:13

wordpress調(diào)用分類欄目,深圳seo論壇,南京網(wǎng)站公安備案,政府網(wǎng)站建設(shè)的目的和意義概述論文地址：https://arxiv.org/pdf/2402.16124v1.pdf 逼真的人臉三維動(dòng)畫在娛樂業(yè)中至關(guān)重要，包括數(shù)字人物動(dòng)畫、電影視覺配音和虛擬化身的創(chuàng)建。以往的研究曾試圖建立動(dòng)態(tài)頭部姿勢(shì)與音頻節(jié)奏之間的關(guān)聯(lián)模型，或使用情感標(biāo)簽或視頻剪輯作…

概述

論文地址：https://arxiv.org/pdf/2402.16124v1.pdf

逼真的人臉三維動(dòng)畫在娛樂業(yè)中至關(guān)重要，包括數(shù)字人物動(dòng)畫、電影視覺配音和虛擬化身的創(chuàng)建。以往的研究曾試圖建立動(dòng)態(tài)頭部姿勢(shì)與音頻節(jié)奏之間的關(guān)聯(lián)模型，或使用情感標(biāo)簽或視頻剪輯作為風(fēng)格參考，但這些方法的表現(xiàn)力有限，無法捕捉到情感的細(xì)微差別。它們還要求用戶手動(dòng)選擇風(fēng)格源，這往往會(huì)導(dǎo)致應(yīng)用不自然。

本文提出了一種更自然的方法。它旨在利用人類語(yǔ)音中的風(fēng)格信息，生成能直接反映說話者情緒和風(fēng)格的富有表現(xiàn)力的說話表情。從音頻中合成各種逼真的面部動(dòng)作是一項(xiàng)復(fù)雜而具有挑戰(zhàn)性的任務(wù)，同時(shí)還要保持準(zhǔn)確的唇部同步。為了解決這個(gè)問題，我們正在開發(fā)一個(gè)名為 AVI-Talking 的新系統(tǒng)。該系統(tǒng)可通過視聽引導(dǎo)系統(tǒng)生成富有表現(xiàn)力的說話表情。

AVI-Talking 通過使用中間視覺教學(xué)表征而不是直接從音頻中學(xué)習(xí)，有效地彌補(bǔ)了視聽差距。具體來說，該框架將生成過程分為兩個(gè)階段，每個(gè)階段都有一套明確的目標(biāo)，從而大大降低了優(yōu)化的復(fù)雜性。此外，將視覺指令作為中間輸出的呈現(xiàn)方式提高了模型的可解釋性，并為用戶根據(jù)自己的意愿進(jìn)行指令和修改提供了靈活性。

這項(xiàng)技術(shù)有望開辟娛樂技術(shù)的新天地。

AVI-Talking 概述

AVI-Talking 的目標(biāo)是根據(jù)語(yǔ)音片段生成具有同步嘴唇動(dòng)作和一致面部表情的三維動(dòng)畫人臉。它不是根據(jù)直接語(yǔ)音合成會(huì)說話的人臉，而是利用大規(guī)模語(yǔ)言模型來有效指導(dǎo)生成過程。

下圖概述了 AVI-Talking 系統(tǒng)的流程。該系統(tǒng)由兩個(gè)主要階段組成：第一個(gè)階段是 “通過 LLMs 進(jìn)行視聽教學(xué)”。第二個(gè)階段是 “會(huì)說話的面部指令系統(tǒng)”。在這里，三維面部動(dòng)作是根據(jù)指導(dǎo)實(shí)時(shí)合成的。其目的是從輸入語(yǔ)音中生成三維參數(shù)系數(shù)的時(shí)間序列。

這種方法能夠真實(shí)地再現(xiàn)說話者的自然面部表情和嘴部動(dòng)作，為觀眾提供更逼真的視覺體驗(yàn)。

實(shí)驗(yàn)和結(jié)果

對(duì)生成的指南和會(huì)說話的面孔的質(zhì)量進(jìn)行量化評(píng)估。評(píng)估分為兩類：第一類是視聽指令預(yù)測(cè)。在這里，自然語(yǔ)言生成領(lǐng)域廣泛采用的指標(biāo)被用來評(píng)估使用 BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr 和 SPICE 生成的指南的準(zhǔn)確性。使用 GAN 指標(biāo) FID 和 KID 評(píng)估面部保真度，并通過多樣性得分進(jìn)一步衡量特定語(yǔ)音片段的面部表情多樣性。它還通過計(jì)算不同噪音條件下風(fēng)格特征之間的距離來量化生成面部表情的變化，并使用 LSE-D 來衡量唇部同步的準(zhǔn)確性。

在 MeadText 和 RAVEDESS 數(shù)據(jù)集上獲得的 "三維會(huì)說話的人臉合成 "結(jié)果如下表所示。在許多評(píng)估指標(biāo)上，AVI-Talking 都表現(xiàn)出色。不過，在唇音同步的準(zhǔn)確性方面，它可能略遜于其他方法，這主要是由于 SyncNet 是基于無表情視頻預(yù)先訓(xùn)練的，因此偏向于中性面部表情。

AVI-Talking 的重點(diǎn)是面部表情，這是影響得分的一個(gè)因素。不過，它獲得的 LSE-D 分?jǐn)?shù)接近參考視頻，這表明生成精確的唇音同步視頻是可能的。

本文還進(jìn)行了定量評(píng)估。主觀評(píng)估對(duì)于驗(yàn)證模型在生成任務(wù)中的表現(xiàn)至關(guān)重要。下圖顯示了AVI-Talking 與傳統(tǒng)技術(shù)在三種不同情況下的比較結(jié)果。結(jié)果表明，AVI-Talking可根據(jù)說話者的狀態(tài)生成可靠的視聽指令和富有表現(xiàn)力的面部細(xì)節(jié)。

關(guān)于唇語(yǔ)同步的性能，據(jù)觀察，CodeTalker 和 Faceformer 等其他方法可以在沒有面部表情的情況下產(chǎn)生更自然的發(fā)音。然而，根據(jù)這項(xiàng)研究，在涉及情緒的場(chǎng)景中，可以觀察到唇部動(dòng)作的輕微失真。這一觀察結(jié)果與上述表格中的 LSE-D 分?jǐn)?shù)也是一致的，后者是一種定量評(píng)估。

此外，論文還包括一項(xiàng)用戶研究，15 名參與者對(duì)AVI-Talking 和三種競(jìng)爭(zhēng)方法生成的共 30 個(gè)視頻進(jìn)行了評(píng)分。這些視頻是使用從 MeadText 測(cè)試集中隨機(jī)抽取的 20 段口語(yǔ)音頻和從 RAVEDESS 中抽取的 10 段音頻生成的。

評(píng)估采用業(yè)內(nèi)廣泛使用的 MOS。參與者從三個(gè)維度對(duì)每段視頻進(jìn)行 1 到 5 分的評(píng)分。

唇語(yǔ)同步質(zhì)量：評(píng)估與口語(yǔ)內(nèi)容同步的嘴部動(dòng)作。
動(dòng)作的表現(xiàn)力：評(píng)估面部細(xì)節(jié)的豐富程度。
面部表情的一致性：評(píng)估面部動(dòng)作與說話者表情的一致性。

結(jié)果如下表所示，由于 MeshTalk 采用了簡(jiǎn)單的 UNet 架構(gòu)設(shè)計(jì)，因此在各方面的得分都最低。另一方面，EmoTalk 和 CodeTalker（引入了轉(zhuǎn)換器塊）的唇音同步質(zhì)量得分較高。

在動(dòng)作的表現(xiàn)力和面部表情的一致性方面，AVI-Talking明顯優(yōu)于其他方法?？傮w而言，AVI-Talking 在表現(xiàn)力合成方面優(yōu)于其他模型，清楚地表明了該方法的有效性。
在這里插入圖片描述

總結(jié)

本文提出的 AVI-Talking 是一種基于語(yǔ)音生成富有表現(xiàn)力的三維說話表情的新型系統(tǒng)。該系統(tǒng)首先將語(yǔ)音-視覺生成分解為兩個(gè)不同的學(xué)習(xí)步驟，并通過使用中間視覺引導(dǎo)來促進(jìn)語(yǔ)音驅(qū)動(dòng)的說話表情生成。它還引入了一種新穎的軟提示策略，利用大規(guī)模語(yǔ)言模型的語(yǔ)境知識(shí)來捕捉說話者的語(yǔ)音狀態(tài)。此外，我們還建立了一個(gè)預(yù)訓(xùn)練程序，以整合唇語(yǔ)同步和視聽指令。最后，我們利用擴(kuò)散預(yù)網(wǎng)絡(luò)將視聽指令有效映射到潛在空間中，以實(shí)現(xiàn)高質(zhì)量的生產(chǎn)。

不過，也發(fā)現(xiàn)了一些局限性。對(duì)特定語(yǔ)音狀態(tài)的低靈敏度和說話人臉合成網(wǎng)絡(luò)對(duì)有限視覺指示的依賴被認(rèn)為是挑戰(zhàn)。這歸因于數(shù)據(jù)集的異質(zhì)性，以及說話者的語(yǔ)音沒有得到很好的識(shí)別。

未來的研究還將考慮使用檢索增強(qiáng)生成（RAG）技術(shù)進(jìn)行進(jìn)一步的微調(diào)和知識(shí)注入。這將使大規(guī)模語(yǔ)言能夠?qū)ｉT用于特定的跨模態(tài)視聽生成任務(wù)，從而生成更具表現(xiàn)力的會(huì)說話的人臉。此外，通過使用強(qiáng)大的視覺標(biāo)記器和對(duì)一般視覺基礎(chǔ)設(shè)施模型進(jìn)行微調(diào)，有望獲得更通用和更有競(jìng)爭(zhēng)力的結(jié)果。這些發(fā)展有望成為未來會(huì)說話的人臉生成技術(shù)的重要步驟。

查看全文

http://www.risenshineclean.com/news/2299.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

wordpress調(diào)用分類欄目深圳seo論壇

概述

AVI-Talking 概述

實(shí)驗(yàn)和結(jié)果

總結(jié)

相關(guān)文章：