當(dāng)前位置：首頁(yè) > news >正文

htnl5 做的視頻網(wǎng)站萬(wàn)網(wǎng)域名續(xù)費(fèi)

news 2025/7/15 9:16:31

htnl5 做的視頻網(wǎng)站,萬(wàn)網(wǎng)域名續(xù)費(fèi),公司內(nèi)部網(wǎng)站怎么制作,網(wǎng)站如何做實(shí)名驗(yàn)證碼人工智能咨詢培訓(xùn)老師葉梓轉(zhuǎn)載標(biāo)明出處現(xiàn)實(shí)世界的視頻捕獲雖然因其真實(shí)性而寶貴，但常常受限于長(zhǎng)尾分布的問(wèn)題，即常見(jiàn)場(chǎng)景過(guò)度呈現(xiàn)，而關(guān)鍵的罕見(jiàn)場(chǎng)景卻鮮有記錄。這導(dǎo)致了所謂的"分布外問(wèn)題"，在模擬復(fù)雜環(huán)境光線、幾何…

?人工智能咨詢培訓(xùn)老師葉梓轉(zhuǎn)載標(biāo)明出處

現(xiàn)實(shí)世界的視頻捕獲雖然因其真實(shí)性而寶貴，但常常受限于長(zhǎng)尾分布的問(wèn)題，即常見(jiàn)場(chǎng)景過(guò)度呈現(xiàn)，而關(guān)鍵的罕見(jiàn)場(chǎng)景卻鮮有記錄。這導(dǎo)致了所謂的"分布外問(wèn)題"，在模擬復(fù)雜環(huán)境光線、幾何形狀或達(dá)到高度逼真效果方面存在局限。傳統(tǒng)的視頻收集和編輯方法在解決這些限制時(shí)常常是不切實(shí)際或成本過(guò)高。來(lái)自小鵬汽車(chē)公司的研究團(tuán)隊(duì)提出了"Anything in Any Scene"框架，它能夠?qū)⑷魏螌?duì)象無(wú)縫插入現(xiàn)有動(dòng)態(tài)視頻中，同時(shí)強(qiáng)調(diào)物理真實(shí)性。

模擬視頻幀中的錯(cuò)誤估計(jì)光照環(huán)境、錯(cuò)誤的對(duì)象放置位置和不真實(shí)的紋理風(fēng)格的例子

框架

Figure 2?框架是為了實(shí)現(xiàn)逼真的視頻對(duì)象插入而設(shè)計(jì)的。這個(gè)框架包含幾個(gè)關(guān)鍵組件，它們協(xié)同工作以確保插入的對(duì)象在目標(biāo)視頻中既真實(shí)又和諧。

資產(chǎn)庫(kù)構(gòu)建：首先，需要構(gòu)建場(chǎng)景視頻和對(duì)象網(wǎng)格的資產(chǎn)庫(kù)。這包括使用視覺(jué)數(shù)據(jù)查詢引擎來(lái)檢索相關(guān)的視頻片段，以及利用Houdini Engine和NeRF技術(shù)生成對(duì)象的3D網(wǎng)格模型。

對(duì)象放置與穩(wěn)定化：框架中的一個(gè)核心部分是確定對(duì)象在視頻中的正確位置，并確保它在連續(xù)幀中穩(wěn)定存在。這涉及到考慮場(chǎng)景中其他對(duì)象的遮擋，并使用光流跟蹤來(lái)優(yōu)化對(duì)象在視頻中的運(yùn)動(dòng)軌跡。

光照估計(jì)與陰影生成：為了增強(qiáng)現(xiàn)實(shí)感，框架需要準(zhǔn)確估計(jì)場(chǎng)景中的光照條件，并為插入的對(duì)象生成逼真的陰影。這包括使用HDR全景圖像重建技術(shù)和3D圖形應(yīng)用程序來(lái)渲染陰影。

風(fēng)格遷移網(wǎng)絡(luò)：為了最大化視頻輸出的逼真度，框架采用了風(fēng)格遷移網(wǎng)絡(luò)來(lái)細(xì)化視頻輸出。這個(gè)網(wǎng)絡(luò)可以調(diào)整插入對(duì)象的風(fēng)格，使其與背景視頻的風(fēng)格一致，從而提高整體的視覺(jué)效果。

結(jié)果驗(yàn)證：通過(guò)人類評(píng)分和FID評(píng)分對(duì)生成的視頻進(jìn)行評(píng)估，確保視頻的逼真度和質(zhì)量。

資產(chǎn)庫(kù)構(gòu)建

創(chuàng)建和管理一個(gè)包含豐富場(chǎng)景視頻和對(duì)象網(wǎng)格的資產(chǎn)庫(kù)是實(shí)現(xiàn)高質(zhì)量視頻合成的前提。資產(chǎn)庫(kù)的構(gòu)建涉及兩個(gè)核心技術(shù)：視覺(jué)數(shù)據(jù)查詢引擎的開(kāi)發(fā)以及對(duì)象網(wǎng)格的生成。視覺(jué)數(shù)據(jù)查詢引擎利用視覺(jué)詞匯袋方法，通過(guò)語(yǔ)義分割和特征提取，快速檢索與特定視覺(jué)描述符相匹配的視頻片段。而對(duì)象網(wǎng)格的生成則通過(guò)Houdini Engine和基于Neural Radiance Fields (NeRF)的重建技術(shù)，生成具有高度逼真物理特性和復(fù)雜幾何結(jié)構(gòu)的對(duì)象模型。這些技術(shù)的結(jié)合，為視頻中的對(duì)象插入提供了必要的資源和工具，確保了合成視頻的幾何真實(shí)性、光照真實(shí)性和照片級(jí)真實(shí)性。

對(duì)象放置與穩(wěn)定化

在構(gòu)建逼真視頻對(duì)象插入框架中，對(duì)象放置和穩(wěn)定化是確保對(duì)象與背景視頻無(wú)縫融合的關(guān)鍵步驟。首先，對(duì)象放置需要確定視頻中每一幀的插入位置，這涉及到對(duì)場(chǎng)景的深入理解，包括場(chǎng)景中已有對(duì)象的位置和潛在的遮擋關(guān)系。通過(guò)使用語(yǔ)義分割技術(shù)，系統(tǒng)能夠識(shí)別出場(chǎng)景中哪些區(qū)域適合放置新對(duì)象，從而避免不自然的遮擋現(xiàn)象。

為了實(shí)現(xiàn)對(duì)象的穩(wěn)定化，系統(tǒng)采用了光流跟蹤技術(shù)來(lái)分析連續(xù)幀之間的像素級(jí)運(yùn)動(dòng)。通過(guò)這種方式，系統(tǒng)能夠預(yù)測(cè)對(duì)象在后續(xù)幀中的位置，確保對(duì)象在視頻播放過(guò)程中的運(yùn)動(dòng)看起來(lái)自然流暢。此外，還需要對(duì)攝像機(jī)的旋轉(zhuǎn)和平移進(jìn)行優(yōu)化，以減少由于視角變化導(dǎo)致的投影誤差。

在實(shí)際操作中，系統(tǒng)首先在參考幀中確定對(duì)象的初始位置，通常是將對(duì)象放置在世界坐標(biāo)系的原點(diǎn)，即攝像機(jī)的位置。然后，利用攝像機(jī)的內(nèi)參矩陣和每幀的攝像機(jī)姿態(tài)，將這個(gè)位置投影到像素坐標(biāo)系中。接下來(lái)系統(tǒng)會(huì)評(píng)估場(chǎng)景的語(yǔ)義分割掩模，以確保選擇的放置點(diǎn)不會(huì)與場(chǎng)景中其他對(duì)象發(fā)生遮擋。

最后通過(guò)優(yōu)化算法調(diào)整攝像機(jī)姿態(tài)，確保在連續(xù)幀中對(duì)象的放置點(diǎn)能夠與光流跟蹤結(jié)果相匹配，從而實(shí)現(xiàn)對(duì)象在視頻中的穩(wěn)定顯示。這個(gè)過(guò)程需要綜合考慮多個(gè)因素，包括場(chǎng)景的3D結(jié)構(gòu)、攝像機(jī)的運(yùn)動(dòng)以及對(duì)象與場(chǎng)景元素之間的相對(duì)位置，以確保最終的視頻效果既逼真又連貫。

駕駛場(chǎng)景視頻的對(duì)象放置示例。第一幀視頻、估計(jì)的分割掩模以及3D場(chǎng)景中的對(duì)象放置位置

光照估計(jì)與陰影生成

在視頻對(duì)象插入過(guò)程中，光照估計(jì)和陰影生成對(duì)于實(shí)現(xiàn)逼真渲染至關(guān)重要。為了確保插入的對(duì)象在視覺(jué)上與場(chǎng)景融為一體，系統(tǒng)必須準(zhǔn)確模擬場(chǎng)景中的光照條件。這包括對(duì)天空和環(huán)境光照的高動(dòng)態(tài)范圍（HDR）圖像進(jìn)行重建，以便捕捉場(chǎng)景中光照的細(xì)微差別。

系統(tǒng)使用圖像修復(fù)網(wǎng)絡(luò)來(lái)推斷全景天空?qǐng)D像，填補(bǔ)由于相機(jī)視野限制而缺失的部分。通過(guò)天空HDR重建網(wǎng)絡(luò)，將全景天空?qǐng)D像轉(zhuǎn)換成HDR格式，從而更準(zhǔn)確地表示太陽(yáng)和天空的亮度分布。此外，系統(tǒng)還采用LDR到HDR的轉(zhuǎn)換網(wǎng)絡(luò)，從場(chǎng)景的低動(dòng)態(tài)范圍（LDR）側(cè)視圖圖像中恢復(fù)HDR環(huán)境圖像，這些圖像隨后被無(wú)縫拼接成一個(gè)完整的HDR全景環(huán)境圖像。

原始天空?qǐng)D像、重建的HDR圖像及其相關(guān)的太陽(yáng)光照分布圖

通過(guò)結(jié)合HDR天空?qǐng)D像和環(huán)境圖像，系統(tǒng)能夠?yàn)椴迦氲膶?duì)象生成一致且逼真的光照效果。此外，系統(tǒng)還利用估計(jì)出的HDR天空?qǐng)D像來(lái)渲染對(duì)象的陰影，使用3D圖形應(yīng)用程序Vulkan來(lái)實(shí)現(xiàn)高效的計(jì)算和逼真的渲染效果。陰影的準(zhǔn)確渲染對(duì)于增強(qiáng)對(duì)象的三維感和場(chǎng)景的一致性至關(guān)重要。

在這個(gè)過(guò)程中，系統(tǒng)需要考慮光源的位置、強(qiáng)度和顏色，以及它們?nèi)绾闻c場(chǎng)景和插入的對(duì)象相互作用。通過(guò)這種方式，無(wú)論場(chǎng)景是戶外的自然光照環(huán)境還是室內(nèi)的人工光照條件，系統(tǒng)都能夠生成具有高度真實(shí)感的光照和陰影效果，使插入的對(duì)象在視覺(jué)上與背景視頻無(wú)縫融合。

風(fēng)格遷移網(wǎng)絡(luò)

在對(duì)象放置和光照陰影生成之后，為了進(jìn)一步提升視頻的逼真度，"Anything in Any Scene" 框架采用了一種風(fēng)格遷移網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)照片級(jí)真實(shí)感的視頻輸出。風(fēng)格遷移技術(shù)的目標(biāo)是調(diào)整插入對(duì)象的外觀，使其與背景視頻的風(fēng)格和視覺(jué)特性相匹配，從而減少視覺(jué)上的不一致性。

風(fēng)格遷移網(wǎng)絡(luò)采用了由粗到細(xì)的機(jī)制，這涉及到兩個(gè)網(wǎng)絡(luò)：一個(gè)粗網(wǎng)絡(luò)和一個(gè)細(xì)化網(wǎng)絡(luò)。粗網(wǎng)絡(luò)首先對(duì)前景對(duì)象進(jìn)行初步的風(fēng)格調(diào)整，生成一個(gè)大致的預(yù)測(cè)圖像。這個(gè)預(yù)測(cè)提供了一個(gè)基礎(chǔ)，但可能在細(xì)節(jié)上還不夠精細(xì)。隨后，細(xì)化網(wǎng)絡(luò)在這個(gè)基礎(chǔ)上進(jìn)一步工作，利用擴(kuò)張卷積層來(lái)增強(qiáng)圖像的細(xì)節(jié)，生成最終的精細(xì)化結(jié)果。

在訓(xùn)練這些網(wǎng)絡(luò)時(shí)，采用了Wasserstein生成對(duì)抗網(wǎng)絡(luò)（WGAN）的損失函數(shù)，這有助于生成更加逼真和一致的圖像。此外，為了提高訓(xùn)練的穩(wěn)定性和效果，還引入了梯度懲罰項(xiàng)，這有助于網(wǎng)絡(luò)更好地學(xué)習(xí)生成與真實(shí)圖像分布一致的輸出。

風(fēng)格遷移網(wǎng)絡(luò)的輸入包括前景對(duì)象的圖像、背景圖像以及前景區(qū)域的分割掩模。通過(guò)這種方式，網(wǎng)絡(luò)能夠?qū)Ｗ⒂谇熬皩?duì)象，并有效地將其風(fēng)格與背景融合。輸出的是一個(gè)經(jīng)過(guò)風(fēng)格遷移處理后的圖像，其中插入的對(duì)象在色彩、紋理和光照上與周?chē)h(huán)境和諧統(tǒng)一，從而在視覺(jué)上實(shí)現(xiàn)了高度的真實(shí)感。

通過(guò)風(fēng)格遷移，"Anything in Any Scene" 框架能夠有效地解決模擬視頻中可能出現(xiàn)的不真實(shí)感問(wèn)題，如光照不一致、顏色偏差等，確保最終的視頻輸出在視覺(jué)上與真實(shí)捕獲的視頻難以區(qū)分。這種技術(shù)的應(yīng)用不僅提升了視頻數(shù)據(jù)增強(qiáng)的質(zhì)量，也為虛擬現(xiàn)實(shí)、視頻編輯和其他視頻中心應(yīng)用提供了強(qiáng)大的支持。

實(shí)驗(yàn)

作者采用了兩種評(píng)估指標(biāo)來(lái)量化生成模擬視頻的質(zhì)量：

Human Score：通過(guò)人類A/B測(cè)試來(lái)衡量，即測(cè)試參與者在比較兩種方法結(jié)果時(shí)，更傾向于哪一種的比例。這提供了一個(gè)主觀但直接的逼真度評(píng)估。

Frechet Inception Distance (FID)：這是一種客觀的度量，通過(guò)比較生成圖像與真實(shí)圖像分布之間的差異來(lái)評(píng)估生成圖像的逼真度和多樣性。FID得分越低，表示生成圖像與真實(shí)圖像越相似。

為了驗(yàn)證方法的有效性，作者使用了包括室內(nèi)外場(chǎng)景視頻數(shù)據(jù)集進(jìn)行評(píng)估：

Outdoor Scene Video：使用了PandaSet數(shù)據(jù)集，這是一個(gè)多模態(tài)自動(dòng)駕駛場(chǎng)景數(shù)據(jù)集，包含了不同時(shí)間和天氣條件下的場(chǎng)景。

Indoor Scene Video：使用了ScanNet++數(shù)據(jù)集，這是一個(gè)大規(guī)模的室內(nèi)場(chǎng)景數(shù)據(jù)集，由3D掃描真實(shí)環(huán)境創(chuàng)建。

作者對(duì)比了不同的風(fēng)格遷移網(wǎng)絡(luò)在他們的框架中的效果，包括基于CNN的DoveNet、基于transformer的StyTR2和基于擴(kuò)散模型的PHDiffusion，以及他們自己提出的方法。實(shí)驗(yàn)結(jié)果顯示，他們提出的風(fēng)格遷移網(wǎng)絡(luò)在FID得分上最低，人類評(píng)分最高，超越了其他替代方法。

使用PandaSet數(shù)據(jù)集的不同風(fēng)格遷移網(wǎng)絡(luò)對(duì)模擬視頻幀的定性比較

在PandaSet數(shù)據(jù)集下，不同渲染條件下模擬視頻幀的定性比較

不同風(fēng)格遷移網(wǎng)絡(luò)在“Anything in Any Scene”框架中的實(shí)驗(yàn)結(jié)果

為了評(píng)估框架中每個(gè)模塊的有效性，作者進(jìn)行了消融研究，逐個(gè)移除框架中的模塊（如對(duì)象放置、HDR圖像重建、陰影生成和風(fēng)格遷移），然后評(píng)估性能變化。結(jié)果表明，移除任何一個(gè)模塊都會(huì)降低視頻的逼真度，尤其是在人類評(píng)分中更為明顯。

“Anything in Any Scene”框架中模塊消融分析的實(shí)驗(yàn)結(jié)果

作者還探討了使用他們的框架生成的合成圖像用于數(shù)據(jù)增強(qiáng)，以改善長(zhǎng)尾分布問(wèn)題。他們?cè)贑ODA數(shù)據(jù)集上進(jìn)行了評(píng)估，這是一個(gè)包含1500個(gè)真實(shí)世界駕駛場(chǎng)景和30多個(gè)對(duì)象類別的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明，使用增強(qiáng)數(shù)據(jù)集訓(xùn)練的模型在所有類別上的平均精度（mAP）有所提高。

使用原始CODA數(shù)據(jù)集圖像與使用我們的“Anything in Any Scene”框架增強(qiáng)的圖像訓(xùn)練的YOLOX模型的性能

通過(guò)這些詳細(xì)的實(shí)驗(yàn)評(píng)估，證明了"Anything in Any Scene"框架不僅能夠生成高質(zhì)量的逼真視頻，還能夠通過(guò)數(shù)據(jù)增強(qiáng)提高下游任務(wù)（如目標(biāo)檢測(cè)）的性能。這些實(shí)驗(yàn)結(jié)果為該框架的有效性和應(yīng)用潛力提供了有力的證據(jù)。

論文鏈接：https://arxiv.org/abs/2401.17509

查看全文

http://www.risenshineclean.com/news/56530.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网