中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

佛山高端網(wǎng)站建設(shè)比較火的推廣軟件

佛山高端網(wǎng)站建設(shè),比較火的推廣軟件,廣州小程序軟件開(kāi)發(fā),職業(yè)生涯規(guī)劃大賽心得體會(huì)大家讀完覺(jué)得有幫助記得及時(shí)關(guān)注和點(diǎn)贊!!! 抽象 視頻生成技術(shù)的蓬勃發(fā)展危及了現(xiàn)實(shí)世界信息的可信度,并加劇了對(duì) AI 生成的視頻檢測(cè)器的需求。 盡管取得了一些進(jìn)展,但缺乏高質(zhì)量的真實(shí)數(shù)據(jù)集阻礙了可信檢測(cè)器的開(kāi)發(fā)。 …

大家讀完覺(jué)得有幫助記得及時(shí)關(guān)注和點(diǎn)贊!!!

抽象

視頻生成技術(shù)的蓬勃發(fā)展危及了現(xiàn)實(shí)世界信息的可信度,并加劇了對(duì) AI 生成的視頻檢測(cè)器的需求。 盡管取得了一些進(jìn)展,但缺乏高質(zhì)量的真實(shí)數(shù)據(jù)集阻礙了可信檢測(cè)器的開(kāi)發(fā)。 在本文中,我們提出了?GenWorld,這是一個(gè)用于 AI 生成視頻檢測(cè)的大規(guī)模、高質(zhì)量和真實(shí)世界的仿真數(shù)據(jù)集。 GenWorld 具有以下特點(diǎn):

(1)?真實(shí)世界模擬:GenWorld 專注于復(fù)制真實(shí)世界場(chǎng)景的視頻,由于其真實(shí)性和潛在影響力而具有重大影響;

(2)?高質(zhì)量:GenWorld 采用多種最先進(jìn)的視頻生成模型,提供逼真和高質(zhì)量的偽造視頻;

(3)?跨提示多樣性:GenWorld 包括從各種生成器和各種提示模式(例如,文本、圖像、視頻)生成的視頻,為學(xué)習(xí)更多可推廣的法醫(yī)特征提供了潛力。

我們分析了現(xiàn)有的方法,發(fā)現(xiàn)它們無(wú)法檢測(cè)由世界模型(即 Cosmos[3]),揭示了忽略現(xiàn)實(shí)世界線索的潛在缺點(diǎn)。 為了解決這個(gè)問(wèn)題,我們提出了一個(gè)簡(jiǎn)單而有效的模型 SpannDetector,以利用多視圖一致性作為真實(shí)世界 AI 生成視頻檢測(cè)的有力標(biāo)準(zhǔn)。

實(shí)驗(yàn)表明,我們的方法取得了卓越的結(jié)果,突出了基于物理合理性的可解釋 AI 生成視頻檢測(cè)的一個(gè)有前途的方向。

我們相信 GenWorld 將推動(dòng) AI 生成視頻檢測(cè)領(lǐng)域的發(fā)展。 項(xiàng)目頁(yè)面: https://chen-wl20.github.io/GenWorld

圖 1:大多數(shù)現(xiàn)有的 AI 生成的視頻數(shù)據(jù)集都包含卡通視頻,甚至是 “真實(shí)” 數(shù)據(jù),缺乏對(duì)真實(shí)性的明確定義。

本文提出了一個(gè)高質(zhì)量的數(shù)據(jù)集,僅包括來(lái)自真實(shí)場(chǎng)景(例如,駕駛、導(dǎo)航、作)的真實(shí)視頻和生成的視頻。

GenWorld?具有三個(gè)關(guān)鍵特征:1)?真實(shí)世界模擬,2)?高質(zhì)量,以及 3)?交叉提示多樣性,可以作為具有實(shí)際意義的 AI 生成視頻檢測(cè)研究的基礎(chǔ)。

1介紹

最近,生成模型[7,33,48]憑借其生成多模態(tài)數(shù)據(jù)的強(qiáng)大能力,不斷改變世界,支持廣泛的下游應(yīng)用[5,3,47].其中,視頻生成模型[48,29,14,3,2]獲得了最多的關(guān)注,因?yàn)橐曨l是捕捉現(xiàn)實(shí)世界的最具表現(xiàn)力和信息豐富的方式,有可能成為世界模型的基礎(chǔ)[43,23,9]. 盡管提供了極大的便利,但它們引發(fā)了對(duì)真實(shí)世界信息真實(shí)性的擔(dān)憂,凸顯了對(duì)有效的 AI 生成視頻檢測(cè)器的迫切需求[6,30].

盡管取得了一些進(jìn)展,但缺乏高質(zhì)量的真實(shí)世界 AI 生成的視頻檢測(cè)數(shù)據(jù)集極大地限制了用于真實(shí)場(chǎng)景的可信檢測(cè)器的開(kāi)發(fā)。 早期作品[19,44,21]專注于策劃用于人臉偽造檢測(cè)的 Deepfake 檢測(cè)數(shù)據(jù)集,但人臉以外的研究仍然有限。 GVF 開(kāi)創(chuàng)[28],多項(xiàng)努力[4,11,31]已經(jīng)開(kāi)始專注于構(gòu)建通用的 AI 生成的視頻檢測(cè)數(shù)據(jù)集。 但是,他們優(yōu)先考慮大規(guī)模數(shù)據(jù)收集,而忽略了生成視頻的質(zhì)量和類型,這些視頻通常雜亂無(wú)章且質(zhì)量不一致。 如圖?1?右側(cè)所示,大多數(shù)現(xiàn)有數(shù)據(jù)集都由卡通視頻組成,即使對(duì)于 “真實(shí)” 數(shù)據(jù)也是如此。 這使得對(duì)它們進(jìn)行訓(xùn)練的檢測(cè)器專注于生成缺陷而不是物理合理性,而隨著視頻生成質(zhì)量的快速提高,這一點(diǎn)更為重要。

為了解決這個(gè)問(wèn)題,我們提出了?GenWorld,這是一個(gè)大規(guī)模的高質(zhì)量 AI 生成的視頻檢測(cè)數(shù)據(jù)集,專注于自動(dòng)駕駛、室內(nèi)導(dǎo)航和機(jī)器人作等真實(shí)場(chǎng)景。 如圖?1?的左側(cè)所示,GenWorld 具有以下特點(diǎn):

(1)?真實(shí)世界模擬:GenWorld 專注于構(gòu)建具有類似于真實(shí)場(chǎng)景分布的視頻數(shù)據(jù)集,因?yàn)樯傻呐c真實(shí)世界視頻緊密相關(guān)的視頻具有最深遠(yuǎn)的影響。

(2)?高質(zhì)量:通過(guò)精心設(shè)計(jì)快速構(gòu)建管道和選擇最先進(jìn)的視頻生成模型,GenWorld 包含高質(zhì)量的生成視頻數(shù)據(jù),具有重要的判別價(jià)值。

(3)?交叉提示多樣性:GenWorld 包括 10 個(gè)不同的生成器,它們將不同的輸入模式作為輸入,包括文本到視頻、圖像到視頻和視頻到視頻模型。

他們生成的視頻包含不同程度的偽造信息,有助于深入研究不同程度的偽造特征。

我們對(duì)最先進(jìn)的 AI 生成的視頻檢測(cè)器進(jìn)行全面評(píng)估[11,35,20,32]在我們的數(shù)據(jù)集上。 結(jié)果表明,現(xiàn)有方法無(wú)法區(qū)分高質(zhì)量的生成視頻與最先進(jìn)的世界模型(例如 Cosmos[3]). 這是因?yàn)樗鼈冎饕獙W⒂跈z測(cè)像素空間中的生成缺陷,但高質(zhì)量的視頻通常表現(xiàn)出高水平的偽造,使其更難檢測(cè)。 雖然視頻生成質(zhì)量正在迅速且不斷提高,但生成物理上合理的視頻(例如 3D 一致性、物理定律)仍然具有挑戰(zhàn)性。 受此啟發(fā),我們使用立體重建模型對(duì)視頻中的多視圖一致性進(jìn)行了深入分析[39],揭示了生成的視頻和真實(shí)世界的視頻之間的顯著差異。 然后,我們提議 SpannDetector 利用多視圖一致性先驗(yàn)來(lái)檢測(cè) AI 生成的視頻。 具體來(lái)說(shuō), SpannDetector 將立體重建模型與時(shí)態(tài)記憶集成在一起,以更有效地處理視頻信息。 此外,我們使用真實(shí)性評(píng)分器對(duì)立體特征進(jìn)行評(píng)分,并對(duì)其進(jìn)行全局平均,以確定視頻是否是 AI 生成的。 實(shí)驗(yàn)結(jié)果表明,SpannDetector 通過(guò)考慮 3D 一致性和簡(jiǎn)單的設(shè)計(jì),優(yōu)于現(xiàn)有方法,強(qiáng)調(diào)了將物理合理性納入 AI 生成的視頻檢測(cè)的潛力。

表 1:GenWorld 數(shù)據(jù)集中真實(shí)視頻和生成視頻的統(tǒng)計(jì)數(shù)據(jù)。

視頻源類型任務(wù)時(shí)間分辨率FPS長(zhǎng)度訓(xùn)練集測(cè)試集
動(dòng)力學(xué) 400[24]?真正-17.05224-340-5-10 秒480012006000
Nuscenes[10]?-19.03900-16001220 秒680170850
RT-1 系列[8]?-22.12256-320102-3 秒16004002000
DL3DV-10K 系列[27]?-23.12960-540303-10 秒16004002000
Opensora-T[48]?T2V24.03512×51282 秒523613096545
Opensora-I[48]?I2V (輸入2V)24.03512×51282 秒525313146567
拿鐵[29]?T2V24.03512×51282 秒788019709850
塞納河[14]?I2V (輸入2V)24.041024×57682-4 秒788019709850
ZeroScope 系列[2]?T2V23.071024×57683 秒788019709850
Model范圍[38]?T2V23.03256×25684 秒788019709850
視頻工匠[12]?T2V24.011024×57682 秒788019709850
了不起[1]?T2V23.10672×38481 秒788019709850
拉維[41]?T2V23.091280×204882 秒788019709850
宇宙[3]?V2V25.01640×102481-5 秒590714777384
總計(jì)數(shù)------8023620060100296

2相關(guān)工作

AI 生成的視頻數(shù)據(jù)集。AI 生成的視頻因其可能被濫用于電信欺詐和誹謗謠言而引起了嚴(yán)重?fù)?dān)憂[45,16,42].由 GAN 強(qiáng)大的面部生成功能驅(qū)動(dòng)[17]和 VAE[25]、以前的 AI 生成的視頻數(shù)據(jù)集,例如 DFDC[15]、FaceForensics++[34]和 DFD[18],主要關(guān)注 deepfake 檢測(cè)。 然而,隨著擴(kuò)散模型的快速發(fā)展[22],AI 生成的偽造行為不僅限于面部作[3,12,13,23,38],需要更通用的 AI 生成的視頻數(shù)據(jù)集。GenVideo 視頻[11]最初編譯了大量真實(shí)視頻和生成的視頻,但數(shù)據(jù)集缺乏連貫性,真實(shí)和虛假視頻之間存在顯著差異。GenVideoBench 系列[31]通過(guò)合并圖像到視頻模型來(lái)構(gòu)建結(jié)構(gòu)化程度更高的數(shù)據(jù)集,解決了此問(wèn)題。然而,這兩種方法都忽略了一個(gè)基本問(wèn)題:什么樣的視頻具有現(xiàn)實(shí)意義并真正需要檢測(cè)?本文重點(diǎn)介紹高質(zhì)量、有影響力的真實(shí)世界視頻,并提出了一個(gè)高質(zhì)量的 AI 生成真實(shí)世界模擬視頻數(shù)據(jù)集。

AI 生成的內(nèi)容檢測(cè)。隨著數(shù)據(jù)集開(kāi)發(fā)的進(jìn)展,以前的研究[44,21,19]由于缺乏高質(zhì)量的通用 AI 生成的視頻數(shù)據(jù)集,它主要專注于 Deepfake 視頻檢測(cè)。 斯蒂爾[20]重點(diǎn)介紹如何捕捉偽造視頻中的時(shí)空不一致,以檢測(cè)深度偽造。HCIL[21]使用對(duì)比學(xué)習(xí)來(lái)捕獲真實(shí)視頻和虛假視頻之間的局部和全局時(shí)間不一致,從而實(shí)現(xiàn)更強(qiáng)大的深度偽造檢測(cè)。高[44]將視頻剪輯轉(zhuǎn)換為預(yù)定義的布局,保留時(shí)間和空間依賴關(guān)系,從而增強(qiáng) Deepfake 檢測(cè)的泛化。 但是,它們是為涉及人臉的深度偽造視頻量身定制的,某些功能可能無(wú)法檢測(cè)一般的 AI 生成的視頻。GenVideo 視頻[11]引入了一個(gè)即插即用的 Temporal Module DeMamba 用于檢測(cè),但它主要用作適用于視頻的 Temporal Fusion 模塊。 我們對(duì)真實(shí)世界生成的高質(zhì)量視頻進(jìn)行深入分析,并將固有的多視圖不一致識(shí)別為偽造的微妙跡象。 我們引入了 SpannDetector 來(lái)利用 3D 一致性來(lái)檢測(cè)一般 AI 生成的視頻。

真實(shí)世界的視頻生成。隨著可控生成模型的進(jìn)步[46]、視頻世界模型[40,43,23,5,3]對(duì)于真實(shí)場(chǎng)景,視頻生成因其廣泛的下游應(yīng)用而受到廣泛關(guān)注。 導(dǎo)航世界模型[5]利用條件擴(kuò)散轉(zhuǎn)換器 (CDiT) 根據(jù)過(guò)去的觀測(cè)和導(dǎo)航作預(yù)測(cè)未來(lái)的導(dǎo)航觀測(cè)。 潘多拉[43]和 Owl-1[23]采用混合自回歸擴(kuò)散模型對(duì)人類活動(dòng)場(chǎng)景視頻實(shí)現(xiàn)扎實(shí)的長(zhǎng)視野推理。宇宙[3]憑借其跨多個(gè)場(chǎng)景生成視頻的令人印象深刻的能力而脫穎而出。用于生成真實(shí)場(chǎng)景視頻的視頻世界模型的出現(xiàn)進(jìn)一步引發(fā)了人們對(duì)視頻生成的擔(dān)憂,因?yàn)檫@些視頻很容易欺騙人類并傳播錯(cuò)誤信息。為此,我們的目標(biāo)是構(gòu)建一個(gè)高質(zhì)量的 AI 生成真實(shí)場(chǎng)景視頻數(shù)據(jù)集,這將促進(jìn)未來(lái)對(duì) AI 生成視頻檢測(cè)器的研究。

3GenWorld (生成世界)

3.1GenWorld 的動(dòng)機(jī)

盡管存在數(shù)據(jù)集[31,11]他們收集了大量 AI 生成的視頻用于 AI 生成的視頻檢測(cè)器研究,在實(shí)踐中存在兩個(gè)基本問(wèn)題:1) 嘈雜和不連貫的語(yǔ)義內(nèi)容:當(dāng)前的數(shù)據(jù)集包含多種和非結(jié)構(gòu)化視頻,包括動(dòng)漫、游戲片段、漫畫風(fēng)格的視頻和其他缺乏具體信息的內(nèi)容,如圖?1?所示.這引發(fā)了對(duì)數(shù)據(jù)集相關(guān)性的懷疑——這些視頻真的具有偽造檢測(cè)的價(jià)值嗎?2) 由于缺乏精心設(shè)計(jì)的提示和最先進(jìn)的模型,生成的視頻質(zhì)量通常很差,很容易被人類區(qū)分。因此,在這些數(shù)據(jù)集上訓(xùn)練的模型難以檢測(cè)實(shí)際應(yīng)用中產(chǎn)生的偽造品。

為了解決這個(gè)問(wèn)題,我們的 GenWorld 重新評(píng)估了哪些類型的生成視頻最有影響力并需要檢測(cè)的問(wèn)題。我們認(rèn)為最關(guān)鍵的檢測(cè)視頻應(yīng)具備以下特征:1) 真實(shí)世界模擬:漫畫或抽象內(nèi)容等視頻對(duì)現(xiàn)實(shí)世界的影響最小。相比之下,那些模擬現(xiàn)實(shí)世界場(chǎng)景(例如駕駛場(chǎng)景或人類活動(dòng))更有可能影響現(xiàn)實(shí)。2) 高質(zhì)量和逼真:視頻看起來(lái)越逼真,就越有可能誤導(dǎo)人類并影響現(xiàn)實(shí)世界。因此,AI 生成的視頻檢測(cè)應(yīng)優(yōu)先考慮高質(zhì)量的生成視頻,尤其是具有挑戰(zhàn)性的極端情況。

3.2GenWorld 的收集和組織

鑒于上述分析,我們的目標(biāo)是構(gòu)建一個(gè)高質(zhì)量的、真實(shí)世界的 AI 生成的視頻檢測(cè)數(shù)據(jù)集。首先,對(duì)于真實(shí)世界的數(shù)據(jù),我們分析真實(shí)世界場(chǎng)景和當(dāng)前的視頻生成世界模型[23,3],選擇了捕捉人類生活廣泛范圍的四個(gè)關(guān)鍵場(chǎng)景:駕駛、室內(nèi)和室外導(dǎo)航、隱身智能縱和人類活動(dòng),我們將這些場(chǎng)景作為數(shù)據(jù)集的核心場(chǎng)景。

圖 2:GenWorld 的視頻生成管道。

對(duì)于 AI 生成的視頻,我們?cè)O(shè)計(jì)了一個(gè)數(shù)據(jù)生成管道,旨在生成模擬真實(shí)場(chǎng)景的視頻,如圖?2?所示。具體來(lái)說(shuō),我們首先利用了一個(gè)強(qiáng)大的視頻理解模型 Video-Llava[26],對(duì)所選真實(shí)視頻的內(nèi)容進(jìn)行注釋,以便于下游生成。在生成過(guò)程中,采用了各種生成方法,包括文本到視頻[48,29,2,38,12,1,41]、圖像到視頻[48,14]和視頻到視頻[3],因?yàn)檫@些方法以不同的方式模擬真實(shí)世界的視頻,每種方法都提供不同的分析價(jià)值。特別是,text-to-video 方法偽造語(yǔ)義內(nèi)容,同時(shí)仍保留模型的外觀首選項(xiàng)。圖像到視頻方法偽造語(yǔ)義和外觀,導(dǎo)致更高級(jí)別的視頻偽造。此外,視頻到視頻模型不僅偽造語(yǔ)義和外觀,還縱物理定律,展示了最高級(jí)別的偽造能力。

表?1?顯示了我們的 GenWorld 數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)。對(duì)于真實(shí)世界的視頻,我們從 Kinetics-400 中隨機(jī)選擇 10,850 個(gè)樣品[24]、NuScenes[10]、RT-1[8]和 DL3DV-10K[27].對(duì)于 AI 生成的視頻,我們使用了 10 種不同的生成模型,包括 Cosmos 等最先進(jìn)的模型[3]和 OpenSora[48],跨越各種偽造級(jí)別,例如文本到視頻、圖像到視頻和視頻到視頻,總共生成了 89,446 個(gè)視頻。我們的數(shù)據(jù)集由 100,296 個(gè)視頻組成,其中 20% 用于測(cè)試,其余用于訓(xùn)練。由于采用了最先進(jìn)的生成模型和來(lái)自真實(shí)場(chǎng)景的提示,我們的數(shù)據(jù)集提供了三個(gè)關(guān)鍵優(yōu)勢(shì):多樣化的真實(shí)世界模擬、高質(zhì)量的視頻內(nèi)容以及交叉生成器和跨生成方法。這種豐富的成分支持各種組合,從而可以跨多個(gè)維度對(duì)檢測(cè)方法進(jìn)行全面分析。

4SpannDetector 探測(cè)器

圖 3:我們的 SpannDetector 的管道和動(dòng)機(jī)。?

SpannDetector 的設(shè)計(jì)基于對(duì)真實(shí)視頻和 AI 生成視頻中多視圖一致性的深入分析。

它將立體重建模型與時(shí)態(tài)記憶模塊集成在一起,以提高一致性檢測(cè)的效率。真實(shí)性評(píng)分員評(píng)估立體聲特征,最終視頻真實(shí)性是通過(guò)對(duì)整個(gè)視頻的分?jǐn)?shù)進(jìn)行平均來(lái)確定的。

在構(gòu)建數(shù)據(jù)集時(shí),我們測(cè)試了各種檢測(cè)方法[11,20,35,32]并發(fā)現(xiàn)它們的性能不足,尤其是與最新的高質(zhì)量型號(hào)相比[3].這促使我們探索識(shí)別 AI 生成的視頻的新視角??紤]到視頻的時(shí)間和多視圖性質(zhì),我們對(duì)多視圖一致性進(jìn)行了深入分析,并將其確定為檢測(cè) AI 生成的視頻的潛在線索(第?4.2?節(jié))?;谶@一見(jiàn)解,我們?cè)O(shè)計(jì)了 SpannDetector,這是一種基于多視圖一致性的 AI 生成視頻檢測(cè)器,它展示了有前途的功能,尤其是針對(duì)世界模型生成的視覺(jué)超逼真視頻(第?4.3?節(jié))。我們首先回顧多視圖匹配技術(shù)(第?4.1?節(jié))。

4.1多視圖匹配的初步工作

多視圖匹配[39,37]旨在識(shí)別表示同一 3D 結(jié)構(gòu)的多個(gè)視圖中的一組相應(yīng)點(diǎn)。成功的關(guān)鍵在于存在一個(gè) 3D 結(jié)構(gòu),該結(jié)構(gòu)滿足多個(gè)視圖之間的病態(tài)約束,這可以稱為多視圖一致性。最近,Dust3R[39]在大規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練,展示了快速準(zhǔn)確地執(zhí)行多視圖匹配的強(qiáng)大能力。形式上,給定相同 3D 結(jié)構(gòu)的兩個(gè)視圖,我1,我2∈?W×H×3中,Dust3R 會(huì)在相機(jī)坐標(biāo)系中估計(jì)它們的點(diǎn)貼圖我1,表示為X1,1,X2,1∈?W×H×3以及相應(yīng)的置信度圖C1,1,C2,1.這可以表述為:

哪里F?(?,?)表示 Dust3R 模型,而X1,1,X2,1可用于后續(xù)的相機(jī)參數(shù)估計(jì)。

4.2生成視頻的多視圖一致性

利用強(qiáng)大的 Dust3R,我們分析了生成視頻的多視圖一致性。具體而言,對(duì)于任意兩個(gè)幀我1和我2在視頻中,我們首先使用 Dust3R 獲取相應(yīng)的點(diǎn)圖X1,1和X2,1和相應(yīng)的 camera intrinsicK1.然后我們投影我2拖動(dòng)到我1使用 Projection 變換P2,1=K1?X2,1, 哪里P2,1表示 中點(diǎn)的 2D 投影我1的像素坐標(biāo)。這允許我們獲得投影我2,1從我2自我1.之后,我們計(jì)算殘差R=|我1?我2,1|,結(jié)果如圖?3(b) 所示。 圖?3?顯示,對(duì)于真實(shí)視頻,殘差R看起來(lái)非常規(guī)律,因?yàn)?Real Video 本身就保持了多視圖的一致性。這允許多視圖匹配輕松找到滿足視圖約束的合理 3D 結(jié)構(gòu)。但是,對(duì)于 AI 生成的視頻,R不規(guī)則且有噪聲,表明生成的視頻在不同視圖之間表現(xiàn)出不一致,導(dǎo)致模型難以找到同時(shí)滿足所有視圖約束的合理 3D 結(jié)構(gòu)。

4.3SpannDetector 的設(shè)計(jì)

基于上述分析,我們的目標(biāo)是設(shè)計(jì)一個(gè) AI 生成的視頻檢測(cè)器,該檢測(cè)器結(jié)合了多視圖一致性先驗(yàn)。靈感來(lái)自 Spann3R[37],我們將內(nèi)存模塊與 Dust3R 相結(jié)合[39]改進(jìn)對(duì)順序視頻數(shù)據(jù)的檢測(cè),如圖?3?所示。具體來(lái)說(shuō),當(dāng)t-th frame 是輸入的,我們使用 Dust3R Encoder 來(lái)處理t和t?1幀, 獲取特征fet和fet?1.然后,我們使用fet要讀取內(nèi)存信息,請(qǐng)獲取fct.然后fet和fct輸入到 Dust3R 解碼器中,從而產(chǎn)生解碼功能fdt.最后,fdt特征由真實(shí)性評(píng)分器處理以獲得st.整個(gè)過(guò)程可以表示為:

哪里Fenc和F12 月代表凍結(jié)的 Dust3R 的 Encoder 和 Decoder,Memory_read 是一個(gè) attention作。fm,kt?1和fm,vt?1是內(nèi)存參數(shù)。 同時(shí),我們使用來(lái)自tframe 更新內(nèi)存信息,如下所示:

獲得所有分?jǐn)?shù)特征后{st}t=0T,我們進(jìn)行全局平均以獲得最終的視頻分?jǐn)?shù),該分?jǐn)?shù)表示視頻是真的還是假的。

5實(shí)驗(yàn)

5.1實(shí)現(xiàn)細(xì)節(jié)

數(shù)據(jù)。為了對(duì)現(xiàn)有方法進(jìn)行全面評(píng)估,我們?cè)O(shè)計(jì)了兩個(gè)任務(wù)并相應(yīng)地對(duì)數(shù)據(jù)集進(jìn)行了分區(qū)。對(duì)于每個(gè)模型,20%的生成數(shù)據(jù)保留為測(cè)試集。在評(píng)估期間,使用一個(gè)模型中的訓(xùn)練集進(jìn)行訓(xùn)練,而使用其他模型的測(cè)試集進(jìn)行測(cè)試。 第一個(gè)任務(wù)是?Train-Test Evaluation,它模擬了一個(gè)真實(shí)場(chǎng)景,其中必須識(shí)別未知來(lái)源的圖像。這是一種常見(jiàn)情況,因?yàn)槲覀兊纳赡P蛿?shù)量有限,并且圖像可能來(lái)自以前未見(jiàn)過(guò)的模型。在本任務(wù)中,我們使用來(lái)自五個(gè)模型 (Opensora-T[48]、Opensora-I[48]、拿鐵[29]塞納河[14]和 ZeroScope[2]) 以及真實(shí)數(shù)據(jù)。然后,我們使用來(lái)自其他五個(gè)模型 (HotShot 的測(cè)試集) 測(cè)試模型[1]宇宙[3]、ModelScope[38]、Lavie[41]和 VideoCrafter[12])以及真實(shí)數(shù)據(jù)。 第二個(gè)任務(wù),交叉提示評(píng)估,測(cè)試檢測(cè)方法在不同級(jí)別的偽造中表現(xiàn)如何,而不會(huì)過(guò)度擬合特定類型的一代。在這個(gè)任務(wù)中,我們將數(shù)據(jù)拆分為 T2V、I2V 和 V2V 生成的視頻。模型在其中一個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在其他兩個(gè)數(shù)據(jù)集的測(cè)試集上進(jìn)行測(cè)試。

表 2:與現(xiàn)有 AI 生成的數(shù)據(jù)集進(jìn)行比較。虛假視頻檢測(cè)數(shù)據(jù)集概述。擬議的 GenWorld 是第一個(gè)規(guī)模為 100,000 的數(shù)據(jù)集,其中包含用于生成視頻的真實(shí)世界模擬。此外,GenWorld 的性能優(yōu)于其他數(shù)據(jù)集,因?yàn)樗诤狭丝缣崾径鄻有?#xff0c;包括文本到視頻、圖像到視頻和視頻到視頻生成。這樣就可以根據(jù)不同的提示及其各自的偽造級(jí)別對(duì)生成方法進(jìn)行全面分析。

數(shù)據(jù)規(guī)模P/圖像P/視頻語(yǔ)義標(biāo)簽跨源真實(shí)世界的模擬。
GVD[4]?11 千米×××××
GVF[28]?2,8 千米×××
GenVideo 視頻[11]?2271千米×××××
GenVidBench 系列[31]?143 千米××
GenWorld (生成世界)100 千米

圖 4:我們數(shù)據(jù)集的更多可視化結(jié)果。

圖 5:時(shí)間可視化 我們數(shù)據(jù)集的結(jié)果。

評(píng)估指標(biāo)。與之前的研究一致[11,31],我們使用準(zhǔn)確性 (Acc.) 來(lái)評(píng)估我們方法的有效性,以 AP、F1 和召回率 (R) 作為補(bǔ)充評(píng)估指標(biāo)。對(duì)于圖像級(jí)檢測(cè)方法,我們將所有幀的預(yù)測(cè)組合起來(lái),以獲得總體結(jié)果。請(qǐng)務(wù)必注意,在計(jì)算 Accuracy 時(shí),我們使用來(lái)自生成模型本身的測(cè)試數(shù)據(jù)來(lái)評(píng)估模型區(qū)分該特定模型生成的內(nèi)容的能力。對(duì)于 AP、F1 和 Recall,我們整合了真實(shí)的視頻測(cè)試集,以確保更全面、更準(zhǔn)確的評(píng)估。

基線。我們選擇了最先進(jìn)的 AI 生成內(nèi)容檢測(cè)方法,包括圖像[35,32]和視頻[20,44,36,11]檢測(cè)器,并評(píng)估其性能。所有模型都在單個(gè) A6000 GPU 上進(jìn)行訓(xùn)練。

5.2與現(xiàn)有數(shù)據(jù)集的比較

表?2?將我們的數(shù)據(jù)集與現(xiàn)有的 AI 生成的視頻檢測(cè)數(shù)據(jù)集進(jìn)行了比較。我們強(qiáng)調(diào)以下優(yōu)勢(shì):1) 真實(shí)世界模擬:我們的真實(shí)視頻是從涵蓋大多數(shù)真實(shí)世界場(chǎng)景的不同數(shù)據(jù)集中精心挑選的,并從這些真實(shí)視頻中衍生出來(lái)。 因此,它為開(kāi)發(fā)具有實(shí)際適用性的 AI 生成視頻檢測(cè)方法奠定了堅(jiān)實(shí)的基礎(chǔ)。2) 跨提示多樣性:來(lái)自不同提示的生成方法在不同程度上縱了真實(shí)視頻。文本轉(zhuǎn)視頻生成主要模仿真實(shí)視頻的語(yǔ)義和內(nèi)容,同時(shí)保留外觀上的風(fēng)格偏好。圖像到視頻生成保留了外觀和語(yǔ)義,同時(shí)生成了極具欺騙性的視頻。此外,視頻到視頻的生成復(fù)制了外觀和語(yǔ)義,并模擬了視頻的時(shí)間演變,使它們?cè)跁r(shí)間上更加真實(shí)。我們的 GenWorld 數(shù)據(jù)集是第一個(gè)包含文本到視頻、圖像到視頻和視頻到視頻生成的數(shù)據(jù)集,為全面研究這些不同方法的偽造特性鋪平了道路。圖?4?顯示了我們數(shù)據(jù)集中的示例,展示了其多樣性、豐富的內(nèi)容和高質(zhì)量。同時(shí),圖?5?顯示了視頻的時(shí)間連貫性,突出了隨時(shí)間推移的平滑運(yùn)動(dòng)和邏輯進(jìn)展。

表 3:與 AI 生成的視頻檢測(cè)準(zhǔn)確性 SOTA 的比較

方法Det.了不起[1]宇宙[3]Model范圍[38]拉維[41]視頻工匠[12]平均
F3Net[32]?圖像63.2559.6158.2230.9155.0452.22
美國(guó)國(guó)家公共廣播電臺(tái)[35]?圖像34.2129.5771.8317.0622.7942.17
斯蒂爾[20]?視頻33.1527.6229.0951.7853.7644.49
高[44]?視頻81.0044.5175.8371.3291.2276.24
視頻MAE[36]?視頻97.5630.3893.1581.0299.5985.40
德曼巴[11]?視頻83.1016.1782.2899.4999.9582.87
我們視頻96.2472.4486.0495.7999.6489.06

表 4:與訓(xùn)練測(cè)試評(píng)估中 F1 分?jǐn)?shù) (F1) 和平均精度 (AP) 的 SOTA 的比較。

呂警長(zhǎng)度量了不起[1]宇宙[3]Model范圍[38]拉維[41]視頻工匠[12]平均
F3Net[32]圖像R0.63250.59610.58220.30910.55740.3657
F1 系列0.58620.51920.55250.33700.53530.4904
美聯(lián)社0.58780.48420.53920.41760.53290.6317
美國(guó)國(guó)家公共廣播電臺(tái)[35]圖像R0.34210.29570.71830.17060.22790.3657
F1 系列0.42820.36130.72770.23910.30720.4904
美聯(lián)社0.55160.44030.81000.43630.48580.6317
斯蒂爾[20]視頻R0.33150.27600.29090.51780.53760.3657
F1 系列0.40000.32290.35980.56170.57700.4904
美聯(lián)社0.49730.39780.50620.62660.64310.6317
高[44]視頻R0.80960.44520.75790.71320.91220.7425
F1 系列0.82960.54450.79780.76860.88780.8378
美聯(lián)社0.88650.66520.87270.82880.90390.9611
視頻MAE[36]視頻R0.97560.30380.93150.81020.99540.8296
F1 系列0.97320.45240.95000.88080.98350.9037
美聯(lián)社0.99280.81160.98540.97340.99440.9925
德曼巴[11]視頻R0.83100.16170.82280.99490.99950.7935
F1 系列0.90570.27710.90080.99540.99770.8844
美聯(lián)社0.99190.73000.99440.99991.00000.9988
我們視頻R0.96240.72400.86040.95790.99640.9095
F1 系列0.89060.72810.83560.88820.90770.9322
美聯(lián)社0.94750.76060.90620.94460.97770.9560

5.3訓(xùn)練測(cè)試評(píng)估

表?3?顯示了不同模型在 Train-Test Evaluation 任務(wù)上的性能??梢赃M(jìn)行幾個(gè)關(guān)鍵的觀察:

1) 視頻級(jí) AI 生成的視頻檢測(cè)器明顯優(yōu)于基于圖像的檢測(cè)器。這主要是因?yàn)榛谝曨l的檢測(cè)器從不同的時(shí)間幀捕獲時(shí)間信息,從而實(shí)現(xiàn)更豐富的表示,從而更好地檢測(cè)偽造。

2) 在視頻電平檢測(cè)器中,DeMamba[11]和 VideoMAE[36]表現(xiàn)出明顯優(yōu)于 STIL 的性能[20]又高[44].這是因?yàn)楹髢烧咧饕糜谏疃葌卧煲曨l檢測(cè),而前者旨在捕獲更通用的視頻特征。這促使我們認(rèn)識(shí)到,對(duì)深度偽造檢測(cè)有效的方法不一定適用于一般的 AI 生成的視頻。因此,需要更深入的研究來(lái)為通用 AI 生成的視頻開(kāi)發(fā)更有效的檢測(cè)器。

3) 區(qū)分不同模型生成的視頻的難度各不相同。如圖所示,大多數(shù)經(jīng)過(guò)訓(xùn)練的模型在 Lavie 上的性能更好[41]和 VideoCrafter[12]測(cè)試集,但在 HotShot 上表現(xiàn)更差[1]、ModelScope[38]和 Cosmos[3].這表明后者生成的視頻更難檢測(cè)。此外,值得注意的是,與其他模型相比,Cosmos 生成的視頻顯示出明顯更高的檢測(cè)難度。這表明基于世界模型的 Cosmos 生成的視頻更接近真實(shí)世界的鏡頭。

4) 我們的模型總體上優(yōu)于其他模型,在檢測(cè) Cosmos 生成的視頻方面性能顯著提高。這是因?yàn)?#xff0c;除了考慮時(shí)間動(dòng)態(tài)之外,我們的模型還集成了多視圖一致性,這使它能夠識(shí)別看似真實(shí)但巧妙地違反物理定律的視頻。這凸顯了使用物理先驗(yàn)作為檢測(cè) AI 生成視頻的有前途的方法的潛力。

表?4?提供了召回率 (R)、F1 分?jǐn)?shù)和平均精度 (AP),以便進(jìn)行更詳細(xì)的比較。從表中可以觀察到,我們的模型在召回率 (R) 方面明顯優(yōu)于其他模型,同時(shí)保持較高的 AP,從而獲得最高的 F1 分?jǐn)?shù)。其他模型(例如 DeMamba)表現(xiàn)出相對(duì)較低的召回率 (R),尤其是在 Cosmos 生成的視頻上進(jìn)行測(cè)試時(shí)。這進(jìn)一步強(qiáng)調(diào)了檢測(cè) Cosmos 的挑戰(zhàn),因?yàn)樗鼤?huì)產(chǎn)生高度逼真的真實(shí)世界模擬,很難與真實(shí)視頻區(qū)分開(kāi)來(lái)。

5.4交叉提示評(píng)估

表 5:我們的交叉提示評(píng)估結(jié)果。

方法M 世代T2VI2V (輸入2V)V2V平均
德曼巴[11]T2V98.419.350.6175.90
I2V (輸入2V)30.331000.2746.95
V2V53.544.9310047.27
我們T2V99.0551.6652.3786.09
I2V (輸入2V)52.4798.6050.3464.38
V2V59.8928.7196.3560.21

我們還選擇了代表性模型 DeMamba 進(jìn)行交叉提示評(píng)估,結(jié)果如表?5?所示。從表中可以看出,DeMamba 往往會(huì)過(guò)度擬合訓(xùn)練數(shù)據(jù),并且無(wú)法區(qū)分生成的數(shù)據(jù)與其他兩個(gè)提示。這表明不同的生成提示會(huì)產(chǎn)生不同的偽影模式,導(dǎo)致模型只學(xué)習(xí)那些特定的特征,而不是可推廣的特征。此外,DeMamba 在所有三個(gè)交叉提示數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)表現(xiàn)出過(guò)擬合,這表明該模型不太適合學(xué)習(xí)一般的偽造檢測(cè)特征。相比之下,我們的模型在對(duì)一個(gè)提示生成的數(shù)據(jù)進(jìn)行訓(xùn)練后,對(duì)其他提示生成的數(shù)據(jù)表現(xiàn)出一定程度的區(qū)分能力。這表明我們的模型可能已經(jīng)捕獲了更多可泛化的特征,例如多視圖不一致。

5.5用戶研究

為了直觀地比較不同數(shù)據(jù)集的質(zhì)量和重要性,我們還進(jìn)行了一項(xiàng)用戶研究,以評(píng)估現(xiàn)有數(shù)據(jù)集和我們自己的數(shù)據(jù)集。評(píng)估指標(biāo)包括視頻質(zhì)量 (VQ)、真實(shí)世界模擬 (RS)、運(yùn)動(dòng)相干性 (MC) 和物理合理性 (PP)。我們選擇了來(lái)自不同年齡組的 120 名參與者,并從每個(gè)數(shù)據(jù)集中隨機(jī)選擇了 100 個(gè)視頻供他們使用 7 點(diǎn)李克特量表進(jìn)行評(píng)估。此外,每個(gè)參與者都被要求猜測(cè)每個(gè)視頻是真實(shí)視頻還是 AI 生成的視頻。實(shí)驗(yàn)結(jié)果如表?6?所示。實(shí)驗(yàn)結(jié)果表明,我們的數(shù)據(jù)集在所有質(zhì)量指標(biāo)上都優(yōu)于其他兩個(gè)數(shù)據(jù)集。此外,在我們的數(shù)據(jù)集中,用戶確定視頻是真實(shí)的還是 AI 生成的準(zhǔn)確率最低,這凸顯了生成的視頻最具欺騙性。 這使得我們的數(shù)據(jù)集對(duì)于 AI 生成的視頻檢測(cè)研究特別有價(jià)值。

表 6:用戶對(duì)數(shù)據(jù)集質(zhì)量的研究。

數(shù)據(jù)GenVideo 視頻[11]GenVidBench 系列[31]我們
VQ 預(yù)約5.45.96.3
RS 系列3.24.46.4
司儀5.25.86.2
聚丙烯5.15.36.4
Acc.100%98.6%89.4%

6結(jié)論

在本文中,我們介紹了 GenWorld,這是一個(gè)高質(zhì)量的數(shù)據(jù)集,用于檢測(cè)模擬真實(shí)場(chǎng)景的 AI 生成的視頻。GenWorld 的特點(diǎn)是三個(gè)關(guān)鍵方面:

1)?真實(shí)世界模擬:它專注于與真實(shí)世界活動(dòng)密切相關(guān)的視頻,可能對(duì)社會(huì)事件產(chǎn)生更大的影響。

2)?高質(zhì)量:通過(guò)利用多種最先進(jìn)的生成方法,GenWorld 包含大量高質(zhì)量的 AI 生成視頻。

3)?跨提示多樣性:它包括從各種提示(文本、圖像和視頻)生成的視頻,這些視頻捕捉了不同程度的偽造特征。我們使用 GenWorld 對(duì)現(xiàn)有的高級(jí) AI 生成的視頻檢測(cè)器進(jìn)行了深入評(píng)估,發(fā)現(xiàn)它們難以檢測(cè)由世界模型(例如 Cosmos[3]). 這種限制可能源于他們未能捕捉到現(xiàn)實(shí)世界的物理一致性。為了解決這個(gè)問(wèn)題,我們提出了 SpannDetector,這是一種簡(jiǎn)單而有效的方法,建立在對(duì)真實(shí)視頻和生成視頻之間的 3D 一致性的深入分析之上。SpannDetector 將立體重建模型與時(shí)態(tài)記憶模塊集成在一起,顯著提高了檢測(cè)性能,尤其是在世界模型生成的視頻上,這凸顯了利用物理一致性進(jìn)行 AI 生成視頻檢測(cè)的潛力。

http://www.risenshineclean.com/news/56908.html

相關(guān)文章:

  • 專業(yè)網(wǎng)站制作技術(shù)程序員培訓(xùn)機(jī)構(gòu)哪家好
  • 海安建設(shè)局網(wǎng)站刷評(píng)論網(wǎng)站推廣
  • 寧波趨勢(shì)信息科技有限公司網(wǎng)站seo排名優(yōu)化工具在線
  • 微信小程序萬(wàn)能開(kāi)掛器seo營(yíng)銷推廣服務(wù)公司
  • wordpress不跳轉(zhuǎn)網(wǎng)站快速排名優(yōu)化價(jià)格
  • 水利部精神文明建設(shè)指導(dǎo)委員會(huì)網(wǎng)站免費(fèi)關(guān)鍵詞挖掘網(wǎng)站
  • 如何用kali做網(wǎng)站滲透廣州網(wǎng)站優(yōu)化外包
  • 網(wǎng)站引導(dǎo)頁(yè)在線做開(kāi)網(wǎng)站怎么開(kāi)
  • 網(wǎng)站成立時(shí)間查詢抖音關(guān)鍵詞搜索指數(shù)
  • 北京國(guó)稅局網(wǎng)站做票種核定時(shí)seo國(guó)外推廣軟件
  • 政府網(wǎng)站建設(shè)應(yīng)該注意百一度一下你就知道
  • 網(wǎng)站空間是指什么寧波seo公司排名
  • 網(wǎng)站群管理平臺(tái)建設(shè)谷歌google官網(wǎng)下載
  • 奇藝廣州網(wǎng)站建設(shè) 熊掌號(hào)汕尾網(wǎng)站seo
  • thinkphp做網(wǎng)站快刷網(wǎng)站
  • 國(guó)外有什么優(yōu)秀的網(wǎng)站推薦免費(fèi)seo視頻教學(xué)
  • 寶雞網(wǎng)站制作公司百度關(guān)鍵詞競(jìng)價(jià)價(jià)格
  • 專業(yè)的標(biāo)志設(shè)計(jì)公司龍巖seo
  • 網(wǎng)站文案編輯怎么做浙江網(wǎng)站推廣公司
  • 福田專業(yè)網(wǎng)站建設(shè)公司最新病毒感染什么癥狀
  • 沂水縣的旅游景區(qū)的網(wǎng)站建設(shè)seo的基本步驟是什么
  • python做網(wǎng)站用什么軟件百度競(jìng)價(jià)關(guān)鍵詞價(jià)格查詢
  • 網(wǎng)站框架怎么做旺道seo推廣
  • 網(wǎng)站建設(shè)報(bào)價(jià)流程市場(chǎng)營(yíng)銷經(jīng)典案例
  • 建設(shè)網(wǎng)站怎么賺錢在哪里推廣比較好
  • 贛州有沒(méi)有做網(wǎng)站的技術(shù)培訓(xùn)機(jī)構(gòu)
  • 把做的網(wǎng)站發(fā)布打萬(wàn)維網(wǎng)上天津seo
  • 物理組簡(jiǎn)介 網(wǎng)站建設(shè)seo排名工具給您好的建議
  • 做啤酒行業(yè)的網(wǎng)站百度推廣在線客服
  • 網(wǎng)站建設(shè)三要素友情鏈接作用