htnl5 做的視頻網(wǎng)站萬(wàn)網(wǎng)域名續(xù)費(fèi)
?人工智能咨詢培訓(xùn)老師葉梓 轉(zhuǎn)載標(biāo)明出處
現(xiàn)實(shí)世界的視頻捕獲雖然因其真實(shí)性而寶貴,但常常受限于長(zhǎng)尾分布的問(wèn)題,即常見(jiàn)場(chǎng)景過(guò)度呈現(xiàn),而關(guān)鍵的罕見(jiàn)場(chǎng)景卻鮮有記錄。這導(dǎo)致了所謂的"分布外問(wèn)題",在模擬復(fù)雜環(huán)境光線、幾何形狀或達(dá)到高度逼真效果方面存在局限。傳統(tǒng)的視頻收集和編輯方法在解決這些限制時(shí)常常是不切實(shí)際或成本過(guò)高。來(lái)自小鵬汽車(chē)公司的研究團(tuán)隊(duì)提出了"Anything in Any Scene"框架,它能夠?qū)⑷魏螌?duì)象無(wú)縫插入現(xiàn)有動(dòng)態(tài)視頻中,同時(shí)強(qiáng)調(diào)物理真實(shí)性。

框架

Figure 2?框架是為了實(shí)現(xiàn)逼真的視頻對(duì)象插入而設(shè)計(jì)的。這個(gè)框架包含幾個(gè)關(guān)鍵組件,它們協(xié)同工作以確保插入的對(duì)象在目標(biāo)視頻中既真實(shí)又和諧。
資產(chǎn)庫(kù)構(gòu)建:首先,需要構(gòu)建場(chǎng)景視頻和對(duì)象網(wǎng)格的資產(chǎn)庫(kù)。這包括使用視覺(jué)數(shù)據(jù)查詢引擎來(lái)檢索相關(guān)的視頻片段,以及利用Houdini Engine和NeRF技術(shù)生成對(duì)象的3D網(wǎng)格模型。
對(duì)象放置與穩(wěn)定化:框架中的一個(gè)核心部分是確定對(duì)象在視頻中的正確位置,并確保它在連續(xù)幀中穩(wěn)定存在。這涉及到考慮場(chǎng)景中其他對(duì)象的遮擋,并使用光流跟蹤來(lái)優(yōu)化對(duì)象在視頻中的運(yùn)動(dòng)軌跡。
光照估計(jì)與陰影生成:為了增強(qiáng)現(xiàn)實(shí)感,框架需要準(zhǔn)確估計(jì)場(chǎng)景中的光照條件,并為插入的對(duì)象生成逼真的陰影。這包括使用HDR全景圖像重建技術(shù)和3D圖形應(yīng)用程序來(lái)渲染陰影。
風(fēng)格遷移網(wǎng)絡(luò):為了最大化視頻輸出的逼真度,框架采用了風(fēng)格遷移網(wǎng)絡(luò)來(lái)細(xì)化視頻輸出。這個(gè)網(wǎng)絡(luò)可以調(diào)整插入對(duì)象的風(fēng)格,使其與背景視頻的風(fēng)格一致,從而提高整體的視覺(jué)效果。
結(jié)果驗(yàn)證:通過(guò)人類評(píng)分和FID評(píng)分對(duì)生成的視頻進(jìn)行評(píng)估,確保視頻的逼真度和質(zhì)量。
資產(chǎn)庫(kù)構(gòu)建
創(chuàng)建和管理一個(gè)包含豐富場(chǎng)景視頻和對(duì)象網(wǎng)格的資產(chǎn)庫(kù)是實(shí)現(xiàn)高質(zhì)量視頻合成的前提。資產(chǎn)庫(kù)的構(gòu)建涉及兩個(gè)核心技術(shù):視覺(jué)數(shù)據(jù)查詢引擎的開(kāi)發(fā)以及對(duì)象網(wǎng)格的生成。視覺(jué)數(shù)據(jù)查詢引擎利用視覺(jué)詞匯袋方法,通過(guò)語(yǔ)義分割和特征提取,快速檢索與特定視覺(jué)描述符相匹配的視頻片段。而對(duì)象網(wǎng)格的生成則通過(guò)Houdini Engine和基于Neural Radiance Fields (NeRF)的重建技術(shù),生成具有高度逼真物理特性和復(fù)雜幾何結(jié)構(gòu)的對(duì)象模型。這些技術(shù)的結(jié)合,為視頻中的對(duì)象插入提供了必要的資源和工具,確保了合成視頻的幾何真實(shí)性、光照真實(shí)性和照片級(jí)真實(shí)性。
對(duì)象放置與穩(wěn)定化
在構(gòu)建逼真視頻對(duì)象插入框架中,對(duì)象放置和穩(wěn)定化是確保對(duì)象與背景視頻無(wú)縫融合的關(guān)鍵步驟。首先,對(duì)象放置需要確定視頻中每一幀的插入位置,這涉及到對(duì)場(chǎng)景的深入理解,包括場(chǎng)景中已有對(duì)象的位置和潛在的遮擋關(guān)系。通過(guò)使用語(yǔ)義分割技術(shù),系統(tǒng)能夠識(shí)別出場(chǎng)景中哪些區(qū)域適合放置新對(duì)象,從而避免不自然的遮擋現(xiàn)象。
為了實(shí)現(xiàn)對(duì)象的穩(wěn)定化,系統(tǒng)采用了光流跟蹤技術(shù)來(lái)分析連續(xù)幀之間的像素級(jí)運(yùn)動(dòng)。通過(guò)這種方式,系統(tǒng)能夠預(yù)測(cè)對(duì)象在后續(xù)幀中的位置,確保對(duì)象在視頻播放過(guò)程中的運(yùn)動(dòng)看起來(lái)自然流暢。此外,還需要對(duì)攝像機(jī)的旋轉(zhuǎn)和平移進(jìn)行優(yōu)化,以減少由于視角變化導(dǎo)致的投影誤差。
在實(shí)際操作中,系統(tǒng)首先在參考幀中確定對(duì)象的初始位置,通常是將對(duì)象放置在世界坐標(biāo)系的原點(diǎn),即攝像機(jī)的位置。然后,利用攝像機(jī)的內(nèi)參矩陣和每幀的攝像機(jī)姿態(tài),將這個(gè)位置投影到像素坐標(biāo)系中。接下來(lái)系統(tǒng)會(huì)評(píng)估場(chǎng)景的語(yǔ)義分割掩模,以確保選擇的放置點(diǎn)不會(huì)與場(chǎng)景中其他對(duì)象發(fā)生遮擋。
最后通過(guò)優(yōu)化算法調(diào)整攝像機(jī)姿態(tài),確保在連續(xù)幀中對(duì)象的放置點(diǎn)能夠與光流跟蹤結(jié)果相匹配,從而實(shí)現(xiàn)對(duì)象在視頻中的穩(wěn)定顯示。這個(gè)過(guò)程需要綜合考慮多個(gè)因素,包括場(chǎng)景的3D結(jié)構(gòu)、攝像機(jī)的運(yùn)動(dòng)以及對(duì)象與場(chǎng)景元素之間的相對(duì)位置,以確保最終的視頻效果既逼真又連貫。

光照估計(jì)與陰影生成
在視頻對(duì)象插入過(guò)程中,光照估計(jì)和陰影生成對(duì)于實(shí)現(xiàn)逼真渲染至關(guān)重要。為了確保插入的對(duì)象在視覺(jué)上與場(chǎng)景融為一體,系統(tǒng)必須準(zhǔn)確模擬場(chǎng)景中的光照條件。這包括對(duì)天空和環(huán)境光照的高動(dòng)態(tài)范圍(HDR)圖像進(jìn)行重建,以便捕捉場(chǎng)景中光照的細(xì)微差別。
系統(tǒng)使用圖像修復(fù)網(wǎng)絡(luò)來(lái)推斷全景天空?qǐng)D像,填補(bǔ)由于相機(jī)視野限制而缺失的部分。通過(guò)天空HDR重建網(wǎng)絡(luò),將全景天空?qǐng)D像轉(zhuǎn)換成HDR格式,從而更準(zhǔn)確地表示太陽(yáng)和天空的亮度分布。此外,系統(tǒng)還采用LDR到HDR的轉(zhuǎn)換網(wǎng)絡(luò),從場(chǎng)景的低動(dòng)態(tài)范圍(LDR)側(cè)視圖圖像中恢復(fù)HDR環(huán)境圖像,這些圖像隨后被無(wú)縫拼接成一個(gè)完整的HDR全景環(huán)境圖像。

通過(guò)結(jié)合HDR天空?qǐng)D像和環(huán)境圖像,系統(tǒng)能夠?yàn)椴迦氲膶?duì)象生成一致且逼真的光照效果。此外,系統(tǒng)還利用估計(jì)出的HDR天空?qǐng)D像來(lái)渲染對(duì)象的陰影,使用3D圖形應(yīng)用程序Vulkan來(lái)實(shí)現(xiàn)高效的計(jì)算和逼真的渲染效果。陰影的準(zhǔn)確渲染對(duì)于增強(qiáng)對(duì)象的三維感和場(chǎng)景的一致性至關(guān)重要。

在這個(gè)過(guò)程中,系統(tǒng)需要考慮光源的位置、強(qiáng)度和顏色,以及它們?nèi)绾闻c場(chǎng)景和插入的對(duì)象相互作用。通過(guò)這種方式,無(wú)論場(chǎng)景是戶外的自然光照環(huán)境還是室內(nèi)的人工光照條件,系統(tǒng)都能夠生成具有高度真實(shí)感的光照和陰影效果,使插入的對(duì)象在視覺(jué)上與背景視頻無(wú)縫融合。
風(fēng)格遷移網(wǎng)絡(luò)
在對(duì)象放置和光照陰影生成之后,為了進(jìn)一步提升視頻的逼真度,"Anything in Any Scene" 框架采用了一種風(fēng)格遷移網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)照片級(jí)真實(shí)感的視頻輸出。風(fēng)格遷移技術(shù)的目標(biāo)是調(diào)整插入對(duì)象的外觀,使其與背景視頻的風(fēng)格和視覺(jué)特性相匹配,從而減少視覺(jué)上的不一致性。
風(fēng)格遷移網(wǎng)絡(luò)采用了由粗到細(xì)的機(jī)制,這涉及到兩個(gè)網(wǎng)絡(luò):一個(gè)粗網(wǎng)絡(luò)和一個(gè)細(xì)化網(wǎng)絡(luò)。粗網(wǎng)絡(luò)首先對(duì)前景對(duì)象進(jìn)行初步的風(fēng)格調(diào)整,生成一個(gè)大致的預(yù)測(cè)圖像。這個(gè)預(yù)測(cè)提供了一個(gè)基礎(chǔ),但可能在細(xì)節(jié)上還不夠精細(xì)。隨后,細(xì)化網(wǎng)絡(luò)在這個(gè)基礎(chǔ)上進(jìn)一步工作,利用擴(kuò)張卷積層來(lái)增強(qiáng)圖像的細(xì)節(jié),生成最終的精細(xì)化結(jié)果。
在訓(xùn)練這些網(wǎng)絡(luò)時(shí),采用了Wasserstein生成對(duì)抗網(wǎng)絡(luò)(WGAN)的損失函數(shù),這有助于生成更加逼真和一致的圖像。此外,為了提高訓(xùn)練的穩(wěn)定性和效果,還引入了梯度懲罰項(xiàng),這有助于網(wǎng)絡(luò)更好地學(xué)習(xí)生成與真實(shí)圖像分布一致的輸出。
風(fēng)格遷移網(wǎng)絡(luò)的輸入包括前景對(duì)象的圖像、背景圖像以及前景區(qū)域的分割掩模。通過(guò)這種方式,網(wǎng)絡(luò)能夠?qū)W⒂谇熬皩?duì)象,并有效地將其風(fēng)格與背景融合。輸出的是一個(gè)經(jīng)過(guò)風(fēng)格遷移處理后的圖像,其中插入的對(duì)象在色彩、紋理和光照上與周?chē)h(huán)境和諧統(tǒng)一,從而在視覺(jué)上實(shí)現(xiàn)了高度的真實(shí)感。
通過(guò)風(fēng)格遷移,"Anything in Any Scene" 框架能夠有效地解決模擬視頻中可能出現(xiàn)的不真實(shí)感問(wèn)題,如光照不一致、顏色偏差等,確保最終的視頻輸出在視覺(jué)上與真實(shí)捕獲的視頻難以區(qū)分。這種技術(shù)的應(yīng)用不僅提升了視頻數(shù)據(jù)增強(qiáng)的質(zhì)量,也為虛擬現(xiàn)實(shí)、視頻編輯和其他視頻中心應(yīng)用提供了強(qiáng)大的支持。
實(shí)驗(yàn)
作者采用了兩種評(píng)估指標(biāo)來(lái)量化生成模擬視頻的質(zhì)量:
Human Score:通過(guò)人類A/B測(cè)試來(lái)衡量,即測(cè)試參與者在比較兩種方法結(jié)果時(shí),更傾向于哪一種的比例。這提供了一個(gè)主觀但直接的逼真度評(píng)估。
Frechet Inception Distance (FID):這是一種客觀的度量,通過(guò)比較生成圖像與真實(shí)圖像分布之間的差異來(lái)評(píng)估生成圖像的逼真度和多樣性。FID得分越低,表示生成圖像與真實(shí)圖像越相似。
為了驗(yàn)證方法的有效性,作者使用了包括室內(nèi)外場(chǎng)景視頻數(shù)據(jù)集進(jìn)行評(píng)估:
Outdoor Scene Video:使用了PandaSet數(shù)據(jù)集,這是一個(gè)多模態(tài)自動(dòng)駕駛場(chǎng)景數(shù)據(jù)集,包含了不同時(shí)間和天氣條件下的場(chǎng)景。
Indoor Scene Video:使用了ScanNet++數(shù)據(jù)集,這是一個(gè)大規(guī)模的室內(nèi)場(chǎng)景數(shù)據(jù)集,由3D掃描真實(shí)環(huán)境創(chuàng)建。
作者對(duì)比了不同的風(fēng)格遷移網(wǎng)絡(luò)在他們的框架中的效果,包括基于CNN的DoveNet、基于transformer的StyTR2和基于擴(kuò)散模型的PHDiffusion,以及他們自己提出的方法。實(shí)驗(yàn)結(jié)果顯示,他們提出的風(fēng)格遷移網(wǎng)絡(luò)在FID得分上最低,人類評(píng)分最高,超越了其他替代方法。



為了評(píng)估框架中每個(gè)模塊的有效性,作者進(jìn)行了消融研究,逐個(gè)移除框架中的模塊(如對(duì)象放置、HDR圖像重建、陰影生成和風(fēng)格遷移),然后評(píng)估性能變化。結(jié)果表明,移除任何一個(gè)模塊都會(huì)降低視頻的逼真度,尤其是在人類評(píng)分中更為明顯。

作者還探討了使用他們的框架生成的合成圖像用于數(shù)據(jù)增強(qiáng),以改善長(zhǎng)尾分布問(wèn)題。他們?cè)贑ODA數(shù)據(jù)集上進(jìn)行了評(píng)估,這是一個(gè)包含1500個(gè)真實(shí)世界駕駛場(chǎng)景和30多個(gè)對(duì)象類別的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,使用增強(qiáng)數(shù)據(jù)集訓(xùn)練的模型在所有類別上的平均精度(mAP)有所提高。

通過(guò)這些詳細(xì)的實(shí)驗(yàn)評(píng)估,證明了"Anything in Any Scene"框架不僅能夠生成高質(zhì)量的逼真視頻,還能夠通過(guò)數(shù)據(jù)增強(qiáng)提高下游任務(wù)(如目標(biāo)檢測(cè))的性能。這些實(shí)驗(yàn)結(jié)果為該框架的有效性和應(yīng)用潛力提供了有力的證據(jù)。
論文鏈接:https://arxiv.org/abs/2401.17509