中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

wordpress調(diào)用分類欄目深圳seo論壇

wordpress調(diào)用分類欄目,深圳seo論壇,南京網(wǎng)站公安備案,政府網(wǎng)站建設(shè)的目的和意義概述 論文地址:https://arxiv.org/pdf/2402.16124v1.pdf 逼真的人臉三維動(dòng)畫在娛樂業(yè)中至關(guān)重要,包括數(shù)字人物動(dòng)畫、電影視覺配音和虛擬化身的創(chuàng)建。以往的研究曾試圖建立動(dòng)態(tài)頭部姿勢(shì)與音頻節(jié)奏之間的關(guān)聯(lián)模型,或使用情感標(biāo)簽或視頻剪輯作…

概述

論文地址:https://arxiv.org/pdf/2402.16124v1.pdf

逼真的人臉三維動(dòng)畫在娛樂業(yè)中至關(guān)重要,包括數(shù)字人物動(dòng)畫、電影視覺配音和虛擬化身的創(chuàng)建。以往的研究曾試圖建立動(dòng)態(tài)頭部姿勢(shì)與音頻節(jié)奏之間的關(guān)聯(lián)模型,或使用情感標(biāo)簽或視頻剪輯作為風(fēng)格參考,但這些方法的表現(xiàn)力有限,無法捕捉到情感的細(xì)微差別。它們還要求用戶手動(dòng)選擇風(fēng)格源,這往往會(huì)導(dǎo)致應(yīng)用不自然。

本文提出了一種更自然的方法。它旨在利用人類語(yǔ)音中的風(fēng)格信息,生成能直接反映說話者情緒和風(fēng)格的富有表現(xiàn)力的說話表情。從音頻中合成各種逼真的面部動(dòng)作是一項(xiàng)復(fù)雜而具有挑戰(zhàn)性的任務(wù),同時(shí)還要保持準(zhǔn)確的唇部同步。為了解決這個(gè)問題,我們正在開發(fā)一個(gè)名為 AVI-Talking 的新系統(tǒng)。該系統(tǒng)可通過視聽引導(dǎo)系統(tǒng)生成富有表現(xiàn)力的說話表情。

AVI-Talking 通過使用中間視覺教學(xué)表征而不是直接從音頻中學(xué)習(xí),有效地彌補(bǔ)了視聽差距。具體來說,該框架將生成過程分為兩個(gè)階段,每個(gè)階段都有一套明確的目標(biāo),從而大大降低了優(yōu)化的復(fù)雜性。此外,將視覺指令作為中間輸出的呈現(xiàn)方式提高了模型的可解釋性,并為用戶根據(jù)自己的意愿進(jìn)行指令和修改提供了靈活性。

這項(xiàng)技術(shù)有望開辟娛樂技術(shù)的新天地。

AVI-Talking 概述

AVI-Talking 的目標(biāo)是根據(jù)語(yǔ)音片段生成具有同步嘴唇動(dòng)作和一致面部表情的三維動(dòng)畫人臉。它不是根據(jù)直接語(yǔ)音合成會(huì)說話的人臉,而是利用大規(guī)模語(yǔ)言模型來有效指導(dǎo)生成過程。

下圖概述了 AVI-Talking 系統(tǒng)的流程。該系統(tǒng)由兩個(gè)主要階段組成:第一個(gè)階段是 “通過 LLMs 進(jìn)行視聽教學(xué)”。第二個(gè)階段是 “會(huì)說話的面部 指令系統(tǒng)”。在這里,三維面部動(dòng)作是根據(jù)指導(dǎo)實(shí)時(shí)合成的。其目的是從輸入語(yǔ)音中生成三維參數(shù)系數(shù)的時(shí)間序列。

這種方法能夠真實(shí)地再現(xiàn)說話者的自然面部表情和嘴部動(dòng)作,為觀眾提供更逼真的視覺體驗(yàn)。

實(shí)驗(yàn)和結(jié)果

對(duì)生成的指南和會(huì)說話的面孔的質(zhì)量進(jìn)行量化評(píng)估。評(píng)估分為兩類:第一類是視聽指令預(yù)測(cè)。在這里,自然語(yǔ)言生成領(lǐng)域廣泛采用的指標(biāo)被用來評(píng)估使用 BLEU1、BLEU4、METEOR、ROUGE-L、CIDEr 和 SPICE 生成的指南的準(zhǔn)確性。使用 GAN 指標(biāo) FID 和 KID 評(píng)估面部保真度,并通過多樣性得分進(jìn)一步衡量特定語(yǔ)音片段的面部表情多樣性。它還通過計(jì)算不同噪音條件下風(fēng)格特征之間的距離來量化生成面部表情的變化,并使用 LSE-D 來衡量唇部同步的準(zhǔn)確性。

在 MeadText 和 RAVEDESS 數(shù)據(jù)集上獲得的 "三維會(huì)說話的人臉合成 "結(jié)果如下表所示。在許多評(píng)估指標(biāo)上,AVI-Talking 都表現(xiàn)出色。不過,在唇音同步的準(zhǔn)確性方面,它可能略遜于其他方法,這主要是由于 SyncNet 是基于無表情視頻預(yù)先訓(xùn)練的,因此偏向于中性面部表情。

AVI-Talking 的重點(diǎn)是面部表情,這是影響得分的一個(gè)因素。不過,它獲得的 LSE-D 分?jǐn)?shù)接近參考視頻,這表明生成精確的唇音同步視頻是可能的。

本文還進(jìn)行了定量評(píng)估。主觀評(píng)估對(duì)于驗(yàn)證模型在生成任務(wù)中的表現(xiàn)至關(guān)重要。下圖顯示了AVI-Talking 與傳統(tǒng)技術(shù)在三種不同情況下的比較結(jié)果。結(jié)果表明,AVI-Talking可根據(jù)說話者的狀態(tài)生成可靠的視聽指令和富有表現(xiàn)力的面部細(xì)節(jié)。

關(guān)于唇語(yǔ)同步的性能,據(jù)觀察,CodeTalker 和 Faceformer 等其他方法可以在沒有面部表情的情況下產(chǎn)生更自然的發(fā)音。然而,根據(jù)這項(xiàng)研究,在涉及情緒的場(chǎng)景中,可以觀察到唇部動(dòng)作的輕微失真。這一觀察結(jié)果與上述表格中的 LSE-D 分?jǐn)?shù)也是一致的,后者是一種定量評(píng)估。

此外,論文還包括一項(xiàng)用戶研究,15 名參與者對(duì)AVI-Talking 和三種競(jìng)爭(zhēng)方法生成的共 30 個(gè)視頻進(jìn)行了評(píng)分。這些視頻是使用從 MeadText 測(cè)試集中隨機(jī)抽取的 20 段口語(yǔ)音頻和從 RAVEDESS 中抽取的 10 段音頻生成的。

評(píng)估采用業(yè)內(nèi)廣泛使用的 MOS。參與者從三個(gè)維度對(duì)每段視頻進(jìn)行 1 到 5 分的評(píng)分。

  • 唇語(yǔ)同步質(zhì)量:評(píng)估與口語(yǔ)內(nèi)容同步的嘴部動(dòng)作。
  • 動(dòng)作的表現(xiàn)力:評(píng)估面部細(xì)節(jié)的豐富程度。
  • 面部表情的一致性:評(píng)估面部動(dòng)作與說話者表情的一致性。

結(jié)果如下表所示,由于 MeshTalk 采用了簡(jiǎn)單的 UNet 架構(gòu)設(shè)計(jì),因此在各方面的得分都最低。另一方面,EmoTalk 和 CodeTalker(引入了轉(zhuǎn)換器塊)的唇音同步質(zhì)量得分較高。

在動(dòng)作的表現(xiàn)力和面部表情的一致性方面,AVI-Talking明顯優(yōu)于其他方法??傮w而言,AVI-Talking 在表現(xiàn)力合成方面優(yōu)于其他模型,清楚地表明了該方法的有效性。
在這里插入圖片描述

總結(jié)

本文提出的 AVI-Talking 是一種基于語(yǔ)音生成富有表現(xiàn)力的三維說話表情的新型系統(tǒng)。該系統(tǒng)首先將語(yǔ)音-視覺生成分解為兩個(gè)不同的學(xué)習(xí)步驟,并通過使用中間視覺引導(dǎo)來促進(jìn)語(yǔ)音驅(qū)動(dòng)的說話表情生成。它還引入了一種新穎的軟提示策略,利用大規(guī)模語(yǔ)言模型的語(yǔ)境知識(shí)來捕捉說話者的語(yǔ)音狀態(tài)。此外,我們還建立了一個(gè)預(yù)訓(xùn)練程序,以整合唇語(yǔ)同步和視聽指令。最后,我們利用擴(kuò)散預(yù)網(wǎng)絡(luò)將視聽指令有效映射到潛在空間中,以實(shí)現(xiàn)高質(zhì)量的生產(chǎn)。

不過,也發(fā)現(xiàn)了一些局限性。對(duì)特定語(yǔ)音狀態(tài)的低靈敏度和說話人臉合成網(wǎng)絡(luò)對(duì)有限視覺指示的依賴被認(rèn)為是挑戰(zhàn)。這歸因于數(shù)據(jù)集的異質(zhì)性,以及說話者的語(yǔ)音沒有得到很好的識(shí)別。

未來的研究還將考慮使用檢索增強(qiáng)生成(RAG)技術(shù)進(jìn)行進(jìn)一步的微調(diào)和知識(shí)注入。這將使大規(guī)模語(yǔ)言能夠?qū)iT用于特定的跨模態(tài)視聽生成任務(wù),從而生成更具表現(xiàn)力的會(huì)說話的人臉。此外,通過使用強(qiáng)大的視覺標(biāo)記器和對(duì)一般視覺基礎(chǔ)設(shè)施模型進(jìn)行微調(diào),有望獲得更通用和更有競(jìng)爭(zhēng)力的結(jié)果。這些發(fā)展有望成為未來會(huì)說話的人臉生成技術(shù)的重要步驟。

http://www.risenshineclean.com/news/2299.html

相關(guān)文章:

  • 深圳企業(yè)做網(wǎng)站公司有哪些百度指數(shù)有三個(gè)功能模塊
  • 北京企業(yè)優(yōu)化推廣網(wǎng)站淄博
  • 手機(jī)網(wǎng)站打開速度項(xiàng)目宣傳推廣方案
  • 網(wǎng)頁(yè)布局的類型有哪些seo公司軟件
  • 付運(yùn)費(fèi)送東西的網(wǎng)站怎么做6如何推廣app賺錢
  • 本地最好的網(wǎng)站開發(fā)建設(shè)公司資源搜索引擎
  • 鄭州網(wǎng)站建設(shè)zhuotop新聞?lì)^條今日要聞
  • 鄭州網(wǎng)站服務(wù)外包公司鄭州做網(wǎng)站最好的公司
  • 網(wǎng)站服務(wù)器端口設(shè)置河南網(wǎng)站排名優(yōu)化
  • 廣州沙河一起做網(wǎng)站百度指數(shù)查詢移民
  • 免費(fèi)微信網(wǎng)站開發(fā)seo網(wǎng)絡(luò)推廣外包公司
  • 基于微信公眾號(hào)開發(fā)網(wǎng)站關(guān)鍵詞優(yōu)化建議
  • 哪里去找做的好看的網(wǎng)站北京自動(dòng)網(wǎng)絡(luò)營(yíng)銷推廣
  • 自己做的網(wǎng)站上傳網(wǎng)站數(shù)據(jù)分析案例
  • 犀牛做網(wǎng)站的公司湖南網(wǎng)站推廣
  • 網(wǎng)站建設(shè) 英文怎么說漯河seo推廣
  • 網(wǎng)站替換圖片怎么做網(wǎng)站關(guān)鍵詞優(yōu)化排名公司
  • 如何搭建視頻網(wǎng)站建站網(wǎng)站
  • 用tomcat做網(wǎng)站南京seo全網(wǎng)營(yíng)銷
  • 手機(jī)網(wǎng)站開發(fā)標(biāo)準(zhǔn)seo概念
  • 公司企業(yè)文化展示墻seo交流論壇seo顧問
  • 代運(yùn)營(yíng)公司怎么找客戶安卓系統(tǒng)優(yōu)化app
  • 做網(wǎng)站的大小seo網(wǎng)站有優(yōu)化培訓(xùn)嗎
  • 免費(fèi)學(xué)校網(wǎng)站系統(tǒng)競(jìng)價(jià)托管推廣多少錢
  • 廊坊網(wǎng)站排名優(yōu)化公司saascrm國(guó)內(nèi)免費(fèi)pdf
  • 做網(wǎng)站最主要是那個(gè)一類商標(biāo)如何快速收錄一個(gè)網(wǎng)站的信息
  • 網(wǎng)站手機(jī)端做app開發(fā)工具創(chuàng)建網(wǎng)站的流程
  • 公司轉(zhuǎn)讓交易平臺(tái)app紹興seo排名
  • 網(wǎng)站開發(fā)所需經(jīng)費(fèi)網(wǎng)站維護(hù)中
  • 住房城鄉(xiāng)建設(shè)部門戶網(wǎng)站主頁(yè)微信公眾號(hào)營(yíng)銷