禹城做網(wǎng)站的公司世界大學(xué)排名
1 、AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description
中文標(biāo)題:T2V-CompBench:組合文本到視頻生成的綜合基準(zhǔn)AutoAD-Zero:零樣本音頻描述的免訓(xùn)練框架
簡(jiǎn)介:我們的目標(biāo)是以無需訓(xùn)練的方式為電影和電視劇生成音頻描述(AD)。我們利用現(xiàn)成的視覺-語言模型(VLM)和大型語言模型(LLM)的能力,并為此任務(wù)開發(fā)了視覺和文本提示策略。
我們的主要貢獻(xiàn)包括:
我們證明了VLM可以成功地命名和指稱角色,只需直接通過視覺提示提供角色信息,而無需進(jìn)行任何微調(diào)。
我們開發(fā)了一個(gè)兩階段的過程來生成AD。第一階段要求VLM全面描述視頻,第二階段利用LLM將密集的文本信息總結(jié)成一個(gè)簡(jiǎn)潔的AD句子。
我們制定了一個(gè)新的電視音頻描述數(shù)據(jù)集。
我們提出的方法名為AutoAD-Zero,在電影和電視劇的AD生成中表現(xiàn)出色,甚至可與一些基于真實(shí)AD進(jìn)行微調(diào)的模型相競(jìng)爭(zhēng),實(shí)現(xiàn)了最先進(jìn)的CRITIC分?jǐn)?shù)。
2、BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes
中文標(biāo)題:BoostMVSNeRFs:將基于 MVS 的 NeRFs 提升到大規(guī)模場(chǎng)景中的可泛化視圖合成
簡(jiǎn)介:雖然神經(jīng)輻射場(chǎng)(NeRF)展示了出色的質(zhì)量,但其漫長(zhǎng)的訓(xùn)練時(shí)間仍然是一個(gè)限制因素。雖然可減少訓(xùn)練時(shí)間的通用和基于多視角重建的NeRF可以緩解這一問題,但往往會(huì)在質(zhì)量上產(chǎn)生權(quán)衡。
本文提出了一種名為BoostMVSNeRFs的新方法,以提高大規(guī)模場(chǎng)景中基于多視角重建的NeRF的渲染質(zhì)量。首先,我們確定了基于多視角重建的NeRF方法的局限性,例如受限的視口覆蓋范圍和由于有限輸入視圖而產(chǎn)生的偽影。
為了解決這些限制,我們提出了一種新方法,在體積渲染期間選擇和組合多個(gè)代價(jià)體。我們的方法不需要訓(xùn)練,可以以前饋方式適應(yīng)任何基于多視角重建的NeRF方法以提高渲染質(zhì)量。此外,我們的方法也可以進(jìn)行端到端的訓(xùn)練,允許在特定場(chǎng)景中進(jìn)行微調(diào)。
我們通過對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)來展示我們方法的有效性,在大規(guī)模場(chǎng)景和無限制的戶外場(chǎng)景中顯示出顯著的渲染質(zhì)量改進(jìn)。我們?cè)趆ttps://su-terry.github.io/BoostMVSNeRFs/發(fā)布了BoostMVSNeRFs的源代碼。
3、Reconstructing Training Data From Real World Models Trained with Transfer Learning
中文標(biāo)題:從經(jīng)過遷移學(xué)習(xí)訓(xùn)練的真實(shí)世界模型重建訓(xùn)練數(shù)據(jù)
簡(jiǎn)介:本文提出了一種新方法,使得在高分辨率圖像上訓(xùn)練的模型能夠在現(xiàn)實(shí)場(chǎng)景中進(jìn)行數(shù)據(jù)重建。與之前的方法相比,我們的方法具有以下優(yōu)點(diǎn):
適應(yīng)性強(qiáng):我們將先前的重建方案(arXiv:2206.07758)遷移到現(xiàn)實(shí)場(chǎng)景中,特別針對(duì)使用大型預(yù)訓(xùn)練模型(如DINO-ViT和CLIP)進(jìn)行遷移學(xué)習(xí)訓(xùn)練的模型。
適用性廣泛:我們的方法在嵌入空間而不是圖像空間中進(jìn)行數(shù)據(jù)重建,展示了它在視覺數(shù)據(jù)之外的適用性。
識(shí)別改進(jìn):我們引入了一種新的基于聚類的方法,從成千上萬個(gè)候選項(xiàng)中識(shí)別出好的重建結(jié)果,顯著改進(jìn)了以往依賴于訓(xùn)練集知識(shí)的方法。
隱私風(fēng)險(xiǎn)揭示:我們的研究結(jié)果揭示了使用遷移學(xué)習(xí)訓(xùn)練的模型可能存在數(shù)據(jù)泄露的潛在隱私風(fēng)險(xiǎn)。
與此前方法相比,我們的方法在現(xiàn)實(shí)場(chǎng)景中展現(xiàn)出了更強(qiáng)的適應(yīng)性和廣泛性,并提出了更優(yōu)秀的結(jié)果識(shí)別機(jī)制,為該領(lǐng)域的進(jìn)一步發(fā)展提供了有價(jià)值的研究洞見。