當前位置：首頁 > news >正文

asp綠色網(wǎng)站源碼什么是網(wǎng)站推廣

news 2025/7/6 2:37:25

asp綠色網(wǎng)站源碼,什么是網(wǎng)站推廣,3g網(wǎng)站開發(fā),余姚網(wǎng)站設計平臺我自己的原文哦~ https://blog.51cto.com/whaosoft/12663170 #InternVL 本文設計了一個大規(guī)模的視覺-語言基礎模型（InternVL），將視覺基礎模型的參數(shù)擴展到60億，并逐步與LLM對齊，利用來自不同來源的網(wǎng)絡規(guī)模的圖像-文…

我自己的原文哦~??https://blog.51cto.com/whaosoft/12663170

#InternVL

本文設計了一個大規(guī)模的視覺-語言基礎模型（InternVL），將視覺基礎模型的參數(shù)擴展到60億，并逐步與LLM對齊，利用來自不同來源的網(wǎng)絡規(guī)模的圖像-文本數(shù)據(jù)。該模型可廣泛應用于32個通用視覺-語言基準，包括圖像級別或像素級別的識別等視覺感知任務，以及零樣本圖像/視頻分類等視覺-語言任務，并與LLM相結(jié)合以創(chuàng)建多模式對話系統(tǒng)。ViT-22B被取代了？上海AI Lab等提出InternVL：60億視覺參數(shù)刷爆多模態(tài)榜單

論文鏈接：https://arxiv.org/abs/2312.14238

開源代碼：https://github.com/OpenGVLab/InternVL

大型語言模型（LLMs）在開放世界語言任務中展現(xiàn)出令人印象深刻的能力，極大地推動了人工通用智能（AGI）系統(tǒng)的發(fā)展。它們的模型規(guī)模和性能仍在快速增長。利用LLMs的視覺大型語言模型（VLLMs）也取得了重大突破，實現(xiàn)了復雜的視覺-語言對話和互動。然而，與LLMs的快速增長相比，視覺和視覺-語言基礎模型的進展滯后。

為了將視覺模型與語言模型（LLMs）進行聯(lián)系，現(xiàn)有的視覺語言聯(lián)合模型（VLLMs）常常采用輕量級的“粘合”層，例如QFormer或線性投影，來對齊視覺和語言模型的特征。然而，這種對齊存在以下幾個局限性：（1）參數(shù)規(guī)模的不一致。LLMs的參數(shù)規(guī)模已經(jīng)達到1000億，而廣泛使用的VLLMs的視覺編碼器仍在10億左右。這種差距可能導致LLMs的能力被低估。（2）表示的不一致。在純視覺數(shù)據(jù)上訓練的視覺模型或與BERT系列對齊的模型往往與LLMs存在表示上的不一致。（3）連接效率低下。粘合層通常是輕量級的和隨機初始化的，可能無法捕捉到多模態(tài)理解和生成所需的豐富的跨模態(tài)交互和依賴關系。

簡介

在本研究中，我們設計了一個大規(guī)模的視覺-語言基礎模型（InternVL），將視覺基礎模型的參數(shù)擴展到60億，并逐步與LLM對齊，利用來自不同來源的網(wǎng)絡規(guī)模的圖像-文本數(shù)據(jù)。該模型可廣泛應用于32個通用視覺-語言基準，包括圖像級別或像素級別的識別等視覺感知任務，以及零樣本圖像/視頻分類、零樣本圖像/視頻-文本檢索等視覺-語言任務，并與LLM相結(jié)合以創(chuàng)建多模式對話系統(tǒng)。它具有強大的視覺能力，可以成為ViT-22B的良好替代品。

方法與模型

如圖所示，與傳統(tǒng)的僅使用視覺的backbone方法和雙編碼器模型不同，本文提出的InternVL采用了一個視覺編碼器InternViT-6B和一個語言中間件QLLaMA。具體地，InternViT-6B是一個具有60億參數(shù)的視覺Transformer，通過自定義，實現(xiàn)了性能和效率之間的良好平衡。QLLaMA是一個具有80億參數(shù)的語言中間件，初始化使用多語增強的LLaMA。它可以為圖像-文本對比學習提供穩(wěn)健的多語言表示，或者作為連接視覺編碼器和現(xiàn)成的LLM解碼器的橋梁。

為了使這兩個具有模態(tài)和結(jié)構差異的大型組件對齊，我們引入了一種漸進對齊訓練策略。該訓練策略逐步進行，從大規(guī)模嘈雜數(shù)據(jù)上的對比學習開始，逐漸過渡到精致和高質(zhì)量數(shù)據(jù)上的生成學習。通過這種方式，我們確保有效組織和充分利用來自各種來源的規(guī)模龐大的圖像-文本數(shù)據(jù)。然后，配備對齊的視覺編碼器和語言中間件。

1 模型設計

大規(guī)模視覺編碼器:InternViT-6B

我們使用普通的視覺變換器（ViT）實現(xiàn)了InternVL的視覺編碼器。為了與LLM的規(guī)模相匹配，我們將視覺編碼器擴展到了60億個參數(shù)，從而得到了InternViT-6B模型。為了在準確性、速度和穩(wěn)定性之間取得良好的平衡，我們對InternViT-6B進行了超參數(shù)搜索。我們在{32，48，64，80}的模型深度、{64，128}的頭部維度和{4，8}的MLP比率范圍內(nèi)進行變化。模型的寬度和頭部數(shù)量是根據(jù)給定的模型規(guī)模和其他超參數(shù)計算得出的。我們在LAION-en數(shù)據(jù)集的一個1億子集上使用對比學習來衡量具有不同配置的InternViT-6B變體的準確性、速度和穩(wěn)定性。我們報告了以下發(fā)現(xiàn)：(1)速度。對于不同的模型設置，在計算未達到飽和狀態(tài)時，深度較小的模型每張圖像的速度更快。然而，當GPU計算得到充分利用時，速度差異變得可以忽略；(2) 準確性。在相同數(shù)量的參數(shù)下，深度、頭部維度和MLP比率對性能的影響很小。根據(jù)這些發(fā)現(xiàn)，我們確定了我們最終模型的最穩(wěn)定配置，如表1所示。語言中間件:QLLaMA。語言中間件QLLaMA旨在對齊視覺和語言特征。QLLaMA是基于預訓練多語言LLaMA開發(fā)的，并添加了96個可學習的查詢和交叉注意力層（10億個參數(shù)），其隨機初始化。通過這種方式，QLLaMA可以將視覺元素平滑地整合到語言模型中，從而增強了合并特征的一致性和有效性。

“瑞士軍刀”模型:InternVL

通過靈活組合視覺編碼器和語言中間件，InternVL可以支持各種視覺或視覺語言任務。（1）對于視覺感知任務，InternVL的視覺編碼器，即InternViT-6B，可以作為視覺任務的主干。給定輸入圖像I ∈RH×W×3，我們的模型可以為密集預測任務生成特征圖F ∈RH/14×W/14×D，或者通過全局平均池化和線性投影進行圖像分類。（2）對于對比任務，如圖4（a）（b）所示，我們引入了兩種推理模式：InternVL-C和InternVL-G，分別使用視覺編碼器或InternViT和QLLaMA的組合來編碼視覺特征。具體而言，我們對InternViT的視覺特征或QLLaMA的查詢特征應用注意力匯聚，計算全局視覺特征If。此外，我們通過提取QLLaMA的[EOS]標記的特征來對文本進行編碼，得到Tf。通過計算If和Tf之間的相似度得分，我們支持包括圖文檢索在內(nèi)的各種對比任務。（3）對于生成任務，與QLLAma相比，QLLaMA具有更強大的圖像字幕能力，這得益于其參數(shù)的擴大。QLLaMA的查詢對InternViT-6B的視覺表示進行重新組織，并作為QLLaMA的前綴文本。隨后的文本標記將逐個序列地生成。（4）對于多模態(tài)對話，我們引入了InternVL-Chat，將InternVL作為視覺組件連接到LLMs。為此，我們有兩個不同的配置。

2 Alignment Strategy

InternVL的訓練分為三個漸進階段，包括視覺-語言對比訓練、視覺-語言生成訓練和監(jiān)督微調(diào)。這些階段有效利用來自不同來源的公共數(shù)據(jù)，包括來自網(wǎng)絡的噪聲圖像-文本對到高質(zhì)量的標題、視覺問答和多模態(tài)對話數(shù)據(jù)集。

視覺-語言對比訓練

在第一階段，我們通過對比學習在網(wǎng)絡規(guī)模上將InternViT-6B 與多語言的 LLaMA7B對齊，使用包括LAION-en、LAION-multi、LAION-COCO、COYO和Wukong等多語言內(nèi)容的公開數(shù)據(jù)集進行訓練。我們使用這些數(shù)據(jù)集的組合，并過濾掉一些極低質(zhì)量的數(shù)據(jù)來訓練我們的模型。原始數(shù)據(jù)集包含60.3億個圖像-文本對，經(jīng)過清理后剩下49.8億個。

在訓練過程中，我們采用LLaMA-7B編碼文本為Tf，并使用InternViT-6B 提取視覺特征If。遵循CLIP 的目標函數(shù)，我們在一批次的圖像-文本對的相似度得分上最小化對稱的交叉熵損失。這一階段使得InternVL在零樣本圖像分類和圖像-文本檢索等對比任務中表現(xiàn)出色，而該階段的視覺編碼器也能在語義分割等視覺感知任務上表現(xiàn)良好。

視覺-語言生成訓練

在訓練的第二階段，我們將InternViT-6B 與 QLLaMA 相連接，并采用生成性訓練策略。具體來說，QLLaMA 在第一階段繼承了LLaMA-7B 的權重。我們保持 InternViT-6B 和 QLLaMA 的權重不變，只訓練添加的可學習查詢和交叉注意力層，并使用經(jīng)過篩選的高質(zhì)量數(shù)據(jù)?？梢钥吹?#xff0c;我們進一步過濾了低質(zhì)量標題的數(shù)據(jù)，將其從第一階段的49.8億減少到10.3 億。

根據(jù)BLIP-2的損失函數(shù)，這一階段的損失由圖像-文本對比（ITC）損失、圖像-文本匹配（ITM）損失和圖像引導文本生成（ITG）損失組成。這使得查詢能夠提取強大的視覺表示，并通過有效的訓練目標和大規(guī)模的以LLM為初始化的QLLaMA進一步對齊特征空間。

監(jiān)督微調(diào)

為了展示InternVL在創(chuàng)建多模態(tài)對話系統(tǒng)方面的優(yōu)點，我們將其與現(xiàn)成的LLM解碼器（例如，Vicuna或InternLM）通過一個MLP層連接，并進行監(jiān)督微調(diào)（SFT）。我們收集了一系列高質(zhì)量的指令數(shù)據(jù)，總共約為 400萬個樣本。對于非對話數(shù)據(jù)集，我們使用中描述的方法進行轉(zhuǎn)換。由于QLLaMA和LLM解碼器具有相似的特征空間，即使凍結(jié)LLM解碼器，選擇僅訓練MLP層或同時訓練MLP層和QLLaMA，我們?nèi)匀豢梢詫崿F(xiàn)強大的性能。這種方法不僅加快了SFT過程，還保持了LLM的原始語言能力。

實驗與結(jié)果

首先，我們驗證了InternVL的最核心組件InternViT-6B的視覺感知能力。

我們使用ImageNet-1K數(shù)據(jù)集評估InternViT-6B生成的視覺表示的質(zhì)量。遵循常見做法，我們采用線性探測評估方法，即在保持骨干網(wǎng)絡凍結(jié)的同時訓練線性分類器。除了在ImageNet-1K驗證集上的性能指標外，我們還報告了在幾個ImageNet變體上的性能指標，以評估其領域泛化能力。

為了研究InternViT-6B的像素級感知能力，我們在ADE20K數(shù)據(jù)集上進行了廣泛的語義分割實驗。

除此之外，我們還評估了InternVL在各種視覺語言任務中的固有能力。比如零樣本圖像分類，零樣本視頻分類，零樣本圖像-文本檢索，零樣本圖像字幕生成等。

零樣本圖像-文本檢索結(jié)果對比

零樣本圖像分類結(jié)果

零樣本視頻分類結(jié)果

12個基準方法的對比結(jié)果

零樣本圖像描述結(jié)果

#SegRefiner

這里分享 NeruIPS 2023 論文??SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process??，通過Diffusion實現(xiàn)高精度圖像分割。

為了實現(xiàn)高精度的圖像分割，來自北京交大、南洋理工、字節(jié)跳動等的研究者們引入了一種基于擴散模型Diffusion去逐步提高mask質(zhì)量的方法。

論文地址：https://arxiv.org/abs/2312.12425
開源代碼：https://github.com/MengyuWang826/SegRefiner

背景介紹

盡管圖像分割在過去得到了廣泛研究和快速發(fā)展，但獲得細節(jié)上非常準確的分割 mask 始終十分具有挑戰(zhàn)性。因為達成高精度的分割既需要高級語義信息，也需要細粒度的紋理信息，這將導致較大的計算復雜性和內(nèi)存使用。

而對于分辨率達到2K甚至更高的圖像，這一挑戰(zhàn)尤為突出。由于直接預測高質(zhì)量分割 mask 具有挑戰(zhàn)性，因此一些研究開始集中于 refine 已有分割模型輸出的粗糙 mask。

現(xiàn)有方法

Model-Specific

一類常見的 Refinement 方法是 Model-Specific 的，其通過在已有分割模型中引入一些新模塊，從而為預測 Mask 補充了更多額外信息，從而增強了已有模型對于細節(jié)的感知能力。這一類方法中代表性的工作有 PointRend，RefineMask，MaskTransfiner等。然而，這些方法是基于特定模型的改進，因此不能直接用于 refine 其他分割模型輸出的粗糙 mask。

Model-Agnostic

另一類 Refinement 方法是 Model-Agnostic 的，其只使用原始圖像和粗糙mask作為輸入信息，如 BPR，SegFix，CascadePSP，CRM 等。由于這類方法在 Refinement 過程中未使用已有模型的中間特征，因此不依賴于特定分割模型，可以用于不同分割模型的 Refinement。然而，盡管這類方法能夠有效地提升分割準確度，但由于粗糙 mask 中存在多種多樣的錯誤預測（如下圖所示），導致模型無法穩(wěn)定地修正粗糙 mask 中的全部預測錯誤。

實現(xiàn)目標

相比于 Model-Specific 的方法，Model-Agnostic 的方法能夠直接應用于不同分割模型的 Refinement，從而有著更高的實用價值。更進一步地，由于不同分割任務（語意分割，實例分割等）的結(jié)果都可以被表示為一系列 binary mask，具有相同的表征形式，在同一個模型中統(tǒng)一實現(xiàn)不同分割任務的 Refinement 同樣是可能的。因此，我們希望實現(xiàn)能夠應用于不同分割模型和分割任務的通用 Refinement 模型。

如前所述，已有分割模型產(chǎn)生的錯誤預測是多種多樣的，而想要通過一個通用模型一次性地更正這些多樣性的錯誤十分困難。面對這一問題，在圖像生成任務中取得巨大成功的擴散概率模型給予了我們啟發(fā)：擴散概率模型的迭代策略使得模型可以在每一個時間步中僅僅消除一部分噪聲，并通過多步迭代來不斷接近真實圖像的分布。這大大降低了一次性擬合出目標數(shù)據(jù)分布的難度，從而賦予了擴散模型生成高質(zhì)量圖像的能力。直觀地，如果將擴散概率模型的策略遷移到 Refinement 任務中，可以使得模型在進行 Refinement 時每一步僅關注一些“最明顯的錯誤”，這將降低一次性修正所有錯誤預測的難度，并可以通過不斷迭代來逐漸接近精細分割結(jié)果，從而使得模型能夠應對更具挑戰(zhàn)性的實例并持續(xù)糾正錯誤，產(chǎn)生精確分割結(jié)果。

在這一想法下，我們提出了一個新的視角：將粗糙 mask 視作 ground truth 的帶噪版本，并通過一個去噪擴散過程來實現(xiàn)粗糙 mask 的 Refinement，從而將 Refinement 任務表示為一個以圖像為條件，目標為精細 mask 的數(shù)據(jù)生成過程。

算法方案

擴散概率模型是一種由前向和反向過程表示的生成模型，其中前向過程通過不斷加入高斯噪聲得到不同程度的帶噪圖像，并訓練模型預測噪聲；而反向過程則從純高斯噪聲開始逐步迭代去噪，最終采樣出圖像。而將擴散概率模型遷移到 Refinement 任務中，數(shù)據(jù)形式的不同帶來了以下兩個問題：

由于自然圖像往往被視作高維高斯變量，將圖像生成的過程建模為一系列高斯過程是十分自然的，因此已有的擴散概率模型大多基于高斯假設建立；而我們的目標數(shù)據(jù)是 binary mask，通過高斯過程擬合這樣一個離散變量的分布并不合理。
作為一種分割 Refinement 方法，我們的核心思想是將粗糙 mask 視為帶有噪聲的 ground truth，并通過消除這種噪聲來恢復高質(zhì)量的分割結(jié)果。這意味著我們擴散過程的結(jié)尾應當收斂到確定性的粗糙 mask（而非純噪聲），這也與已有的擴散概率模型不同。

針對上述問題，我們建立了如下圖所示的基于“隨機狀態(tài)轉(zhuǎn)移”的離散擴散過程。其中，前向過程將 ground truth 轉(zhuǎn)換為“不同粗糙程度”的 mask，并用于訓練；而反向過程用于模型推理，SegRefiner 從給出的粗糙 mask 開始，通過逐步迭代修正粗糙 mask 中的錯誤預測區(qū)域。以下將詳細介紹前向和反向過程。

前向過程

反向過程

模型結(jié)構

算法評估

由于 Refinement 任務的核心是獲取細節(jié)精確的分割結(jié)果，在實驗中我們選取了三個代表性的高質(zhì)量分割數(shù)據(jù)集，分別對應Semantic Segmentation，Instance Segmentation 和 Dichotomous Image Segmentation。

Semantic Segmentation

如表1所示，我們在 BIG 數(shù)據(jù)集上將提出的 SegRefiner 與四種已有方法：SegFix，CascadePSP，CRM 以及 MGMatting 進行了對比。其中前三個為語義分割的 Refinement 方法，而 MGMatting 使用圖像和 mask 進行 Matting 任務，也可以用于 Refinement 任務。結(jié)果表明，我們提出的 SegRefiner 在 refine 四個不同語義分割模型的粗糙 mask 時，都在 IoU 和 mBA 兩項指標上獲得了明顯提升，且超越了之前的方法。

Instance Segmentation

實例分割中，我們選擇了之前的工作廣泛使用的 COCO 數(shù)據(jù)集進行測試，并使用了 LVIS 數(shù)據(jù)集的標注。與原始 COCO 標注相比，LVIS 標注提供了更高質(zhì)量和更詳細的結(jié)構，這使得 LVIS 標注更適合評估改進模型的性能。? ?

首先，在表2中，我們將提出的SegRefiner與兩種 Model-Agnostic 的實例分割 Refinement 方法 BPR 和 SegFix 進行了比較。結(jié)果表明我們的 SegRefiner 在性能上明顯優(yōu)于這兩種方法。

然后在表3中，我們將 SegRefiner 應用于其他7種實例分割模型。我們的方法在不同準確度水平的模型上都取得了顯著的增強效果。值得注意的是，當應用于三種 Model-Specific 的實例分割 Refinement 模型（包括PointRend、RefineMask 和 Mask TransFiner）時，SegRefiner 依然能穩(wěn)定提升它們的性能，這說明 SegRefiner 具有更強大的細節(jié)感知能力。

Dichotomous Image Segmentation

Dichotomous Image Segmentation 是一個較新提出的任務，如下圖所示，其數(shù)據(jù)集包含大量具有復雜細節(jié)結(jié)構的對象，因此十分適合評估我們 SegRefiner 對細節(jié)的感知能力。

在本實驗中，我們將 SegRefiner 應用于6種分割模型，結(jié)果如表4所示?？梢钥吹?#xff0c;我們的SegRefiner在 IoU 和 mBA 兩項指標上都明顯提升了每個分割模型的準確度。

可視化展示

#codebook 技術史（從 VAE 到 VQ/RQ-VAE 到 FSQ）

本文詳細介紹了變分自編碼器（VAE）及其衍生模型VQ-VAE和RQ-VAE，探討了它們在圖像生成和壓縮中的原理和應用。文章還討論了VAE的ELBO目標、KL散度、以及如何通過量化技術和殘差量化提高模型性能和穩(wěn)定性。?

VAE：

VAE (variational autoencoder, 變分自編碼器) 是一種強大的生成模型, Encoder 把數(shù)據(jù)編碼到隱空間?, 其學習條件概率, Decoder把數(shù)據(jù)從隱空間中重建回來??，其學習另一個條件概率??。VAE 額外有一個限制條件是讓??滿足 Gaussian分布。這樣做的好處就是訓練結(jié)束后可以扔掉 Encoder, 直接從這個先驗分布?上隨便采樣?, 然后通過 Decoder 就能生成一個??。

VAE 最主要的是這個 ELBO ：

ELBO，即evidence low bound，evidence指的就是??，而 ELBO 表示 evidence 的最小期望。我們要讓這個 lower bound 盡可能變大，得到的模型就會更可能產(chǎn)生我們期望看到的??。

為解釋 ELBO 是怎么來的，我們一步一步來看。

K-L散度：

我們首先講解 KL 散度，為衡量模型生成的分布與原始分布的相似度，常用的便是 K–L（ Kullback–Leibler ）散度。定義如下，對于兩個具有概率密度函數(shù)??和??的分布：

K–L 散度具有兩個重要性質(zhì)：

不對稱性：顯然，K–L 散度對于??和?來說是不對稱的。
Gibbs 不等式：它總是【非負】的，并且當且僅當??和??在每一處都相同時才為 0。

為了理解這一點，我們可以將 KL 散度分解為兩部分：

第二項帶有負號，其對應的是??的信息熵；第一項也帶有負號，代表??和??之間的交叉熵。第一項始終不大于每個給定符號下的第二項，這便是?Gibbs 不等式；而 Gibbs 不等式的證明可以使用?Jensen 不等式：

若??是凸函數(shù)，則有：

設??由于??所以其為凸函數(shù)，以及

那么：

由

VAE 理論框架（聯(lián)合概率建模角度）：

VAE 框架可以從多個角度建立，例如概率分布視角、貝葉斯視角以及聯(lián)合概率視角，這里我選用聯(lián)合概率這一簡單的方法來闡述：

假設原始數(shù)據(jù)樣本為??，分布為??，我們希望借助隱變量??（標準正態(tài)分布）來建模??，因此我們設立??來逼近??:

?是標準正態(tài)分布，??是我們的生成式模型；此外還需明確的是??是??的原始分布，??是encoder生成的??，訓練時要讓其逼近正態(tài)分布。

我們直接采用聯(lián)合建模的角度，原來我們的目的是讓??來逼近??，我們轉(zhuǎn)變下思路變?yōu)樽??與?越相近越好，注意除了，中也有參數(shù)：

KL 散度便是我們的終極目標，我們將從這個 KL 散度推導出最終的 ELBO：

這里被我們拆開為兩項，第一項：

無論??是什么，它一定是確定的，故第一項是常數(shù)

第二項：

因此我們很快便得到了最終的 ELBO，注意多了個負號。

ELBO：

ELBO 有兩項，分別為：?以及 -??，這兩部分可以理解為【重構誤差項】?以及【KL散度項】：

重構誤差項：這部分度量了模型生成數(shù)據(jù)的質(zhì)量，即解碼器??使用從編碼器??采樣的??來重構輸入??的準確性，這是負對數(shù)似然，表明給定潛在變量??后，重構原來的??的概率有多大。目標是最大化這部分期望值，即希望模型能生成與輸入??盡可能接近的數(shù)據(jù)。

KL散度項：-?是后驗分布??和先驗分布??之間的負K–L 散度，以此衡量編碼器的輸出分布與標準正態(tài)分布的差異。目標是最小化KL散度，確保潛在變量 z 盡可能接近正態(tài)分布。

至此我們推導出了VAE的損失函數(shù)，了解了ELBO的原理。?

VQ-VAE：

paper：[Neural Discrete Representation Learning]

??https://arxiv.org/abs/1711.00937??

paper：Neural Discrete Representation Learning

背景：

VAE中的隱變量 z 的每一維都是一個連續(xù)值，而VQ-VAE 中??的每一維都是離散的整數(shù)，這些整數(shù)便可 index 到已訓練好的 codebook（碼本，本質(zhì)上就是一批 embedding）。這樣做符合自然界模態(tài)的特點，例如語言本質(zhì)上就是由很多字符組成，每個字符都可以是用數(shù)字索引到字符庫里的某個字符，NLP中可以理解為token_id索引到vocab里的某個token，所以VQ-VAE可以理解為【圖像tokenization】的過程，事實上這種思想可以借鑒引用到很多領域，例如廣告推薦里將廣告用一串索引表示。

文章還指出，VAE 存在后驗坍塌（Posterior Collapse）?的問題，這一般是由散度消失（KL-Vanishinig）導致的，因此該問題也稱為KL-vanishing。簡單來說就是解碼器太強，模型的?潛在空間（latent space）無效化，即編碼器??退化為與先驗??相同的分布，ELBO里的KL散度項為0，而忽略了輸入數(shù)據(jù)的信息。

方法：

將隱變量??離散化的關鍵操作是VQ, 即 vector quatization。

圖1. VQ-VAE 流程圖

圖像??輸入至 encoder 中得到
codebook 是一個K*D 的 table（紫色方塊）：
將中每一維都映射為 codebook 中K個embedding之一
全部替換后圖中綠色的變?yōu)樽仙?#xff0c;然后進行重構

從到的變化可以理解為聚類，如圖中右子圖所示，由于變化后的embedding位于codebook內(nèi)，當然就可以只用整數(shù)來表示。

訓練：

ELBO 損失項：

我們先看原有的 ELBO ，這里p和q互換以與圖示對應，q代表encoder，p代表decoder；

這里后驗分布??里都是one-hot向量，如下所示：

而非之前VAE里的正態(tài)分布，由此??預估的每一維都是codebook里每個embedding的概率；我們假設采樣的先驗分布??是均勻分布，則每一維對于某個embedding選取概率有??，則有：

第一項表示one-hot中為1對應的那一維對KL散度的貢獻，第二項代表其他維的貢獻。

因此 ELBO 中第二項可以忽略，只有重構損失項。

那我們再看第一項損失，可以簡單寫為：

然而??包含了argmin，這個操作是沒有梯度的，無法更新 encoder；VQ-VAE 使用了一個很精巧也很直接的方法，稱為?Straight-Through Estimator，稱為“直通估計(https://papers.cool/arxiv/1308.3432)”。其思想是在前向傳播的時候可以任意變量（可以不可導），而反向傳播的時候，直接?跳過?這個不可導的操作。對應圖1中紅色箭頭，表明跳過??的操作。

根據(jù)這個思想，我們設計的目標函數(shù)是

sg 代表阻止梯度回傳

codebook 損失項：

為使得??與??盡量接近，設置損失：?；

這里我們理解下：是編碼器得到的，是離得最近的embedding，兩者都有可訓練的參數(shù)；因此在實際訓練時，codebook相對自由寬松，沒什么限制條件，而編碼器生成的要保證重建效果，我們更希望主要靠近，并且因為??的梯度等于以及梯度之和，故可拆解為：

第一項可以理解為不變，主要靠近，第二項相反，由此我們可以給第二項設置一個相對較小的權重，來達到更希望主要靠近的效果。

整體損失項：

文中指出，實驗發(fā)現(xiàn)??設置[0,1]均具有魯棒性，故使用??，還可以使用滑動平均的方式更新，下面闡述。

滑動平均方法：

具體來說使用指數(shù)移動平均（EMA）來更新 codebook ：

設??為編碼器輸出中最接近詞典項??的一組??個元素，那么可以將損失寫為：

理論上可以求得??的最優(yōu)值，可以通過封閉形式的解求得，即該集合中所有元素的平均值：

這種更新方法通常用于 K-Means 等算法。然而，當處理小批量（minibatches）時，無法直接使用上述更新方式。因此，我們可以采用指數(shù)移動平均，作為該更新的在線版本：

其中，??的取值范圍在 0 到 1 之間，論文發(fā)現(xiàn) 0.99 是一個不錯的選擇。

應用：

按照之前 VAE 的邏輯，使用時去掉encoder，在正態(tài)分布里采樣即可生成圖片；那么VQ-VAE呢？其假設先驗分布為均勻分布，然而并沒有直接在均勻分布里采樣，而是使用?PixelCNN?來學習編碼的分布（這里非常奇怪，在issue一節(jié)討論），即學習??。

簡單介紹下，PixelCNN 是一種采用自回歸方式逐像素從左上角生成的圖像生成模型，其中使用了mask conv操作，可以類比 GPT，使用 mask self-attention 操作。

所以最后我們通過 PixelCNN 來隨機生成?，然后再用VQ-VAE的 Decoder 來生成最后的圖片。

Issue：

VQ-VAE 到底是不是 VAE ？

VAE 的核心是encoder學習一個先驗分布，最后只需要從這個先驗分布里采樣就可以用來生成，然而VQ-VAE事實上并不行，其假設先驗分布為均勻分布，但并不能從均勻分布里采樣解碼得到真實圖像，這就說明這就不過只是一個AE 類模型。

那么問題出在哪了？回顧 VQ-VAE 的設計，發(fā)現(xiàn)并沒有類似 VAE 里的 KL散度loss 來迫使先驗分布逼近均勻分布。你可能會問假設分布是均勻分布，KL散度是一個常數(shù)呀，上面不是還推導了？那么我們再回顧一下：

KL散度是常數(shù)，那么這一項就不會優(yōu)化，也就不存在要讓??更逼近??的說法，也就是??不會被更新，其生成的分布根本不可控。

那么繼續(xù)深究，這一項為何會是常數(shù)？原因就在于??始終是一個one-hot分布，無論怎么優(yōu)化都是如此，而one-hot分布和均勻分布的 KL散度始終是 logK，因此 ELBO里的這一項毫無意義。

其實本質(zhì)上VQ-VAE 做的是【圖像 tokenization】的工作，生成模型部分交給自回歸模型 PixelCNN 去負責了。

此外：蘇神在博客評論里還指出 VQ-VAE里邊從均勻分布采樣離散的code直接傳入decoder，生成結(jié)果也不至于差得完全不可看，還是勉強能看的，比純AE要好點，但要保證質(zhì)量，還是得 pixelcnn。

VQ-VAE 的核心貢獻？

核心貢獻不在于其提出了一種新的 VAE 架構，而在于提供了一個序列壓縮技術。正如上所說，其本質(zhì)是一個利用codebook 做圖像 tokenization 的工作，然而這種 codebook 的思想不僅可以應用于圖像，音頻、視頻甚至短視頻、廣告都是可以的，所以我們才看到VQ-VAE的思想應用于各個領域，這才是VQ-VAE的魅力所在。

VQ-VAE-2：

論文：??https://arxiv.org/pdf/1906.00446??

主要變化就是把 VQ-VAE 的 encoder 和 decoder 都進行了分層, bottom層對local feature進行建模，top層采取全局自注意力機制。

RQ-VAE：

paper：??https://arxiv.org/pdf/2203.01941??

背景：

VQ-VAE 的序列長度較長，需要大量的codebook，這勢必會導致_codebook collapse（碼本攤縮）_問題，使得VQ-VAE的訓練很不穩(wěn)定；而 RQ-VAE 則采取一種 _residual quantization（殘差量化）_的新方法，通過D輪迭代，將feature map表示為D個堆疊的離散編碼，可以進一步減小feature map（可以理解為經(jīng)過encoder后的表示）的spatial resolution，例如從原始圖像的256256變?yōu)?8。這樣?進一步增加下采樣因子?減少分辨率，使得 AR 模型能夠減少計算成本、提高圖像生成速度，并更好地學習codebook中各向量之間的長依賴關系。

方法：

RQ v.s. VQ：

VQ：

假設codebook表示為??，對于向量??，其映射為近鄰向量的操作表示為：

給定圖片輸入為??，提取的 feature map 為：，通過映射后得到的code map為：?，其中??是feature map中(h,w)位置上的向量。

假設 codebook 大小為 K，那么整個feature map為??個 bit，根據(jù)_rate-distortion theory（率失真理論）_，H和W每縮小一半，K都要增加到??，因此說VQ-VAE需要大量的codebook。

RQ：

在RQ里，定義新的映射為近鄰向量的操作：

可以看到并非之前單一的數(shù)字，而是一個元組，那么每一位的k如何選擇？首先初始化殘差 \mathbf{r}_0=\mathbf{z} ，然后按照如下方法計算：

可以這么理解，我要模擬?，但是我模擬的??肯定和??有差距，我用??表示出來這兩者的差，然后我繼續(xù)模擬??，但是我模擬的??肯定又和有差距，我用表示出來...... 因此每個??逐步相加，理論上和要模擬的??越來越逼近。

可以看出VQ將空間分為K個簇，而RQ將空間分為??個簇，來實現(xiàn)更精確的量化。

共享codebook機制：

雖然我們可以為每一層深度 d 分別構建一個碼本，但在每個量化深度上使用的是單個共享碼本。共享碼本在構建 RQ 近似向量 z 時有兩個優(yōu)勢：

使用單獨的碼本需要廣泛的超參數(shù)搜索，以確定每一層的碼本大小，而共享碼本只需確定總碼本大小 K。
共享碼本使得所有的 embedding 在每一層量化時都可用。因此，每一層都可以使用相同的 embedding，以最大化其效用。

RQ-Transformer：

可以看出編碼得到的 feature map 輸入給 Transformer 來作為自回歸任務的輸入，整個 RQ-Transformer 分為Spatial Transformer和 Depth Transformer 兩部分。

輸入處理：

RQ-VAE 提取的代碼映射??會按照柵格掃描順序（raster-scan order）重新排列為二維數(shù)組??，其中??。每一行??包含 D 個代碼：

自回歸建模總公式為：

建模動機：

直接將 \mathbf{S} 展開為長度 TD 的序列并輸入傳統(tǒng) Transformer 的方法存在不足，無法利用導 RQ-VAE 降低后的長度 T的優(yōu)勢。此外，這種直接展開會增加計算成本。由此設計為 Spatial Transformer和 Depth Transformer 兩部分。

空間 Transformer（Spatial Transformer）：

首先空間 Transformer的輸入為每個位置上的 feature（各個殘差項之和），并加上位置編碼（PE），如下：

整個 Spatial Transformer 表示為：

深度 Transformer (Depth Transformer)：

深度 Transformer 的任務是在給定位置 t 自回歸地預測 D 個殘差項code，即

在深度 d 和位置 t 時，Transformer 的輸入??被定義為之前深度的嵌入之和：

每個深度的預測基于之前所有深度的估計，使得每一層的估計更加精細。

?是深度 d 的位置嵌入，且在所有位置 t 上共享。

整個 Depth Transformer 表示為：

訓練：

RQ-VAE 的訓練損失函數(shù)??包含兩部分：

重構損失（Reconstruction Loss）：

這個損失度量的是輸入??和重構結(jié)果??之間的歐氏距離，用于確保重構后的樣本盡可能接近原始輸入。這里同樣會采用 Straight-Through Estimator。

承諾損失（Commitment Loss）：

（sg[·] 是 stop-gradient 操作符，用于在反向傳播時阻止梯度的傳遞），該損失的作用是最小化每個維度 d 上的量化誤差，從而鼓勵編碼器的輸出??更接近量化后的值??。

論文內(nèi)提及codebook會采用聚類特征的指數(shù)滑動平均來更新，從而提升模型的訓練效果和穩(wěn)定性。

RQ-VAE 同時還采用了對抗訓練（Adversarial Training ）以提高重構圖像的感知質(zhì)量。采用了基于 patch 的對抗損失和感知損失。

負對數(shù)似然損失 (Negative Log-Likelihood, NLL)?：

用于訓練 RQ-Transformer：

Trick：

曝光偏差 (Exposure Bias)：

曝光偏差是自回歸（AR）模型中的常見問題。在訓練和推斷階段，由于預測錯誤的累積，模型性能會下降。尤其是在 RQ-Transformer 中，隨著深度 D 的增加，量化特征向量的估計變得更加困難，誤差也會累積。

論文采用了軟標簽 (Soft Labeling) 和隨機采樣 (Stochastic Sampling)策略：

軟標簽（Soft Labeling）：

基于 RQ-VAE 中代碼嵌入之間的幾何關系，定義了一個溫度參數(shù)??控制的類別分布：

當??時，分布??會收縮為一個 one-hot 分布：

軟標簽的作用：

利用嵌入之間的幾何距離，為目標代碼的監(jiān)督引入了軟標簽分布; 在位置??和深度??上，假設特征向量為??，并令殘差向量為??。負對數(shù)似然（NLL）損失使用了該軟分布作為監(jiān)督。

區(qū)別于 one-hot 標簽，該監(jiān)督機制使用了軟化后的分布??。

隨機采樣（Stochastic Sampling）：

在原始的 RQ-VAE 中，代碼選擇是確定性的。然而，這里通過從軟分布??中進行采樣來選擇代碼?。當??時，隨機采樣等價于原始確定性代碼選擇。

優(yōu)勢：隨機采樣為特征映射提供了不同的代碼組合，從而緩解了訓練和推斷中的不一致性。?

FSQ：

paper：Finite Scalar Quantization: VQ-VAE Made Simple

??https://arxiv.org/abs/2309.15505??

方法：

論文提出使用 FSQ（Finite Scalar Quantization）來替代 VQ-VAE中的“VQ”，其離散化思路非常簡單，就是“四舍五入”。如上圖所示，假設最后要把x映射為d維（圖中d=3），我們把z的每一維用L個value表示（圖中L=3），然后將z的每一維的L個value四舍五入（圖中則變化為正方體的邊線所在頂點處），由此便離散化了。

還有個區(qū)別圖式中便是VQ里量化后的??會用一個單獨的數(shù)字代替，表示codebook里的索引；而FSQ里會用L個數(shù)字組成的元組（例如(-1,0,1)）來替代，也表示索引，整體codebook數(shù)量為L^d，圖里為9。

方案對比如下：

具體來說給定一個 d -維表示??，我們的目標是將??量化為有限的碼字集。為此，我們首先應用一個邊界函數(shù)??，然后將結(jié)果四舍五入為整數(shù)。我們選擇??使得??取得??個唯一值之一（例如，??），上圖的右子圖可視化了這個轉(zhuǎn)化，由于tanh取值范圍為(-1，1)，由此z的范圍是 () ，故四舍五入后便是L個取值，圖中L=5，則有-2,-1,0,1,2這5個取值。

由此，我們得到??，其中??便是碼本，且??。

為了在整個四舍五入操作中傳播梯度，使用了前述 STE（直通估計）技巧，通過以下方式輕松實現(xiàn)“停止梯度（sg）”操作：

實驗：

從圖中可以看到，編碼表大小2^10是一個分界點，在2^10左右時，FSQ與VQ的效果接近；超過2^10時，FSQ占優(yōu)，反之小于2^10時，VQ占優(yōu)。文中建議??，并且d是個位數(shù)，相比之下VQ-VAE中d是三位數(shù)。?

引用：

Elijha：VQ-VAE解讀(https://zhuanlan.zhihu.com/p/91434658)

Variational Autoencoders(https://amaires.github.io/VAE/)

變分自編碼器（二）：從貝葉斯觀點出發(fā) - 科學空間|Scientific Spaces(https://spaces.ac.cn/archives/5343)

VQ-VAE的簡明介紹：量子化自編碼器 - 科學空間|Scientific Spaces(https://spaces.ac.cn/archives/6760)

簡單得令人尷尬的FSQ：“四舍五入”超越了VQ-VAE - 科學空間|Scientific Spaces(https://www.spaces.ac.cn/archives/9826)

#ADPN-MM

視頻片段定位 TSG：一句話精準視頻片段定位

只需一句話描述，就能在一大段視頻中定位到對應片段！

比如描述“一個人一邊下樓梯一邊喝水”，通過視頻畫面和腳步聲的匹配，新方法一下子就能揪出對應起止時間戳：

就連“大笑”這種語義難理解型的，也能準確定位：

方法名為自適應雙分支促進網(wǎng)絡（ADPN），由清華大學研究團隊提出。

具體來說，ADPN是用來完成一個叫做視頻片段定位（Temporal Sentence Grounding，TSG）的視覺-語言跨模態(tài)任務，也就是根據(jù)查詢文本從視頻中定位到相關片段。

ADPN的特點在于能夠高效利用視頻中視覺和音頻模態(tài)的一致性與互補性來增強視頻片段定位性能。

相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模態(tài)獲取了更顯著地性能提升，多項測試拿下新SOTA。

目前該工作已經(jīng)被ACM Multimedia 2023接收，且已完全開源。

一起來看看ADPN究竟是個啥～

一句話定位視頻片段

視頻片段定位（Temporal Sentence Grounding，TSG）是一項重要的視覺-語言跨模態(tài)任務。

它的目的是根據(jù)自然語言查詢，在一個未剪輯的視頻中找到與之語義匹配的片段的起止時間戳，它要求方法具備較強的時序跨模態(tài)推理能力。

然而，大多數(shù)現(xiàn)有的TSG方法只考慮了視頻中的視覺信息，如RGB、光流（optical flows）、深度（depth）等，而忽略了視頻中天然伴隨的音頻信息。

音頻信息往往包含豐富的語義，并且與視覺信息存在一致性和互補性，如下圖所示，這些性質(zhì)會有助于TSG任務。

(a)一致性：視頻畫面和腳步聲一致地匹配了查詢中的“走下樓梯”的語義；(b)互補性：視頻畫面難以識別出特定行為來定位查詢中的“笑”的語義，但是笑聲的出現(xiàn)提供了強有力的互補定位線索。

因此研究人員深入研究了音頻增強的視頻片段定位任務（Audio-enhanced Temporal Sentence Grounding，ATSG），旨在更優(yōu)地從視覺與音頻兩種模態(tài)中捕獲定位線索，然而音頻模態(tài)的引入也帶來了如下挑戰(zhàn)：

音頻和視覺模態(tài)的一致性和互補性是與查詢文本相關聯(lián)的，因此捕獲視聽一致性與互補性需要建模文本-視覺-音頻三模態(tài)的交互。
音頻和視覺間存在顯著的模態(tài)差異，兩者的信息密度和噪聲強度不同，這會影響視聽學習的性能。

為了解決上述挑戰(zhàn)，研究人員提出了一種新穎的ATSG方法“自適應雙分支促進網(wǎng)絡”（Adaptive Dual-branch Prompted Network，ADPN）。

通過一種雙分支的模型結(jié)構設計，該方法能夠自適應地建模音頻和視覺之間的一致性和互補性，并利用一種基于課程學習的去噪優(yōu)化策略進一步消除音頻模態(tài)噪聲的干擾，揭示了音頻信號對于視頻檢索的重要性。

ADPN的總體結(jié)構如下圖所示：

圖2：自適應雙分支促進網(wǎng)絡（ADPN）總體示意圖

它主要包含三個設計：

1、雙分支網(wǎng)絡結(jié)構設計

考慮到音頻的噪聲更加明顯，且對于TSG任務而言，音頻通常存在更多冗余信息，因此音頻和視覺模態(tài)的學習過程需要賦予不同的重要性，因此本文涉及了一個雙分支的網(wǎng)絡結(jié)構，在利用音頻和視覺進行多模態(tài)學習的同時，對視覺信息進行強化。

具體地，參見圖2(a)，ADPN同時訓練一個只使用視覺信息的分支（視覺分支）和一個同時使用視覺信息和音頻信息的分支（聯(lián)合分支）。

兩個分支擁有相似的結(jié)構，其中聯(lián)合分支增加了一個文本引導的線索挖掘單元（TGCM）建模文本-視覺-音頻模態(tài)交互。訓練過程兩個分支同時更新參數(shù)，推理階段使用聯(lián)合分支的結(jié)果作為模型預測結(jié)果。

2、文本引導的線索挖掘單元（Text-Guided Clues Miner，TGCM）

考慮到音頻與視覺模態(tài)的一致性與互補性是以給定的文本查詢作為條件的，因此研究人員設計了TGCM單元建模文本-視覺-音頻三模態(tài)間的交互。

參考圖2(b)，TGCM分為”提取“和”傳播“兩個步驟。

首先以文本作為查詢條件，從視覺和音頻兩種模態(tài)中提取關聯(lián)的信息并集成；然后再以視覺與音頻各自模態(tài)作為查詢條件，將集成的信息通過注意力傳播到視覺與音頻各自的模態(tài)，最終再通過FFN進行特征融合。

3、課程學習優(yōu)化策略

研究人員觀察到音頻中含有噪聲，這會影響多模態(tài)學習的效果，于是他們將噪聲的強度作為樣本難度的參考，引入課程學習（Curriculum Learning，CL）對優(yōu)化過程進行去噪，參考圖2(c)。

他們根據(jù)兩個分支的預測輸出差異來評估樣本的難度，認為過于難的樣本大概率表示其音頻含有過多的噪聲而不適于TSG任務，于是根據(jù)樣本難度的評估分數(shù)對訓練過程的損失函數(shù)項進行重加權，旨在丟棄音頻的噪聲引起的不良梯度。

（其余的模型結(jié)構與訓練細節(jié)請參考原文。）

多項測試新SOTA

研究人員在TSG任務的benchmark數(shù)據(jù)集Charades-STA和ActivityNet Captions上進行實驗評估，與baseline方法的比較如表1所示。

ADPN方法能夠取得SOTA性能；特別地，相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模態(tài)獲取了更顯著地性能提升，說明了ADPN方法利用音頻模態(tài)促進TSG的優(yōu)越性。

表1：Charades-STA與ActivityNet Captions上實驗結(jié)果

研究人員進一步通過消融實驗展示了ADPN中不同的設計單元的有效性，如表2所示。

表2：Charades-STA上消融實驗

研究人員選取了一些樣本的預測結(jié)果進行了可視化，并且繪制了TGCM中”提取“步驟中的”文本 to 視覺“（T→V）和”文本 to 音頻“（T→A）注意力權重分布，如圖3所示。

可以觀察到音頻模態(tài)的引入改善了預測結(jié)果。從“Person laughs at it”的案例中，可以看到T→A的注意力權重分布更接近Ground Truth，糾正了T→V的權重分布對模型預測的錯誤引導。

圖3：案例展示

總的來說，本文研究人員提出了一種新穎的自適應雙分支促進網(wǎng)絡（ADPN）來解決音頻增強的視頻片段定位（ATSG）問題。

他們設計了一個雙分支的模型結(jié)構，聯(lián)合訓練視覺分支和視聽聯(lián)合分支，以解決音頻和視覺模態(tài)之間的信息差異。

他們還提出了一種文本引導的線索挖掘單元（TGCM），用文本語義作為指導來建模文本-音頻-視覺交互。

最后，研究人員設計了一種基于課程學習的優(yōu)化策略來進一步消除音頻噪音，以自感知的方式評估樣本難度作為噪音強度的度量，并自適應地調(diào)整優(yōu)化過程。

他們首先在ATSG中深入研究了音頻的特性，更好地提升了音頻模態(tài)對性能的提升作用。

未來，他們希望為ATSG構建更合適的評估基準，以鼓勵在這一領域進行更深入的研究。

論文鏈接：https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
倉庫鏈接：https://github.com/hlchen23/ADPN-MM

#RTMO~

RTMO 是基于 MMPose 的單階段實時人體姿態(tài)估計模型，它結(jié)合了坐標回歸與 YOLOX 檢測框架，在多人場景下實現(xiàn)了領先的速度與精度。RTMO 在 CrowdPose 數(shù)據(jù)集上首次達到了 80+ 的 AP，是多人擁擠場景當前效果最好的實時模型。

實時多人在圖像中的姿態(tài)估計面臨著在速度和精度之間實現(xiàn)平衡的重大挑戰(zhàn)。盡管兩階段的上下文方法在圖像中人數(shù)增加時會減慢速度，但現(xiàn)有的單階段方法往往無法同時實現(xiàn)高精度和實時性能。

這是一個單階段姿態(tài)估計框架，通過在YOLO架構中使用雙一維 Heatmap 來表示關鍵點，實現(xiàn)與自上而下方法相當?shù)臏蚀_度，同時保持高速度。作者提出了一種動態(tài)坐標分類器和一種定制的損失函數(shù)，用于 Heatmap 學習，專門針對坐標分類和密集預測模型之間的不兼容性。RTMO在單階段姿態(tài)估計器中超過了最先進的方法，在COCO上實現(xiàn)了1.1%更高的AP，同時使用相同的基礎架構約9倍的速度。作者的最大模型RTMO-l在COCO val2017上達到了74.8%的AP，并在單個V100 GPU上實現(xiàn)了141 FPS，證明了其效率和準確性。

實時高精度的單階段人體姿態(tài)估計算法 RTMO 正式開源！RTMO 結(jié)合了坐標回歸策略與 YOLOX 檢測框架，克服了現(xiàn)有的單階段人體姿態(tài)估計模型精度與速度難以兼得的難題。RTMO 具有兩個突出的優(yōu)勢：

在密集的多人場景中，速度和精度均領先。相比傳統(tǒng)的二階段模型如 RTMPose，RTMO 的速度受畫面中的人數(shù)的影響可以忽略不計。同時它在多個多人密集場景的數(shù)據(jù)集上獲得了最高精度，如在 CrowdPose 數(shù)據(jù)集上取得83.8 AP，較以往最佳模型提升 5.3 AP。
模型簡單易部署。作為端到端的單階段模型，RTMO 可以一條命令完成推理和部署，無需額外的人體檢測器網(wǎng)絡，大大簡化了使用流程。

項目主頁：https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo

論文鏈接：https://arxiv.org/abs/2312.07526

效果展示

讓我們一起先看看 RTMO 在多人場景中的檢測效果（latency 為 NVIDIA 3090 TensorRT-FP16 測試結(jié)果）

圖1 推理效果圖1

圖2 推理效果圖2

實時姿態(tài)估計模型的性能對比

現(xiàn)有的實時姿態(tài)估計模型主要包括二階段 top-down 架構的輕量級模型（例如 RTMPose）以及基于 YOLO 架構的單階段模型（例如 YOLO-Pose, YOLOv8-Pose）。我們在 CPU 和 GPU 上分別比較了它們的速度和精度。

圖3 CPU 上實時姿態(tài)估計模型的速度-精度對比圖

圖4 GPU 上實時姿態(tài)估計模型的速度-精度對比圖

相較其他實時單階段模型，RTMO 在性能上全面領先，達到了和二階段模型 RTMPose 差不多的精度。而相比二階段模型，RTMO 在畫面中人數(shù)較多時有速度優(yōu)勢。在相同精度要求下，當畫面中人數(shù)超過 4(cpu)/2(gpu) 時，RTMO 的推理速度就已經(jīng)超越了 RTMPose。

多人場景下的領先性能

多人加擁擠場景一直是姿態(tài)估計領域的難題。RTMO 在訓練過程中使用了 MixUp 數(shù)據(jù)增強，模擬了擁擠的場景；在正負樣本分配的過程中考慮了姿態(tài)估計的準確度，減少了關鍵點錯位造成的誤差；再加上 MMPose 多數(shù)據(jù)集訓練的加持。因此，RTMO 在多人擁擠場景下依舊有很高的精度。在針對這類場景的 CrowdPose 和 OCHuman 兩個數(shù)據(jù)集上，RTMO 都取得了當前最高的精度。

圖5 CrowdPose 測試集 SOTA 模型精度

在 CrowdPose 上，RTMO-l 取得了 83.8 的 AP，相比之前的最佳模型有 5.3 AP 的提升。誰能想到這是一個能跑 100+ FPS 的輕量級模型呢？

圖6 OCHuman 數(shù)據(jù)集 SOTA 模型精度

在 OCHuman 上，RTMO 同樣取得了當前最高的精度（不使用標注檢測框的情況下）。

便捷的推理接口

得益于 MMPose 框架便捷的推理接口，只需要一行代碼，我們就可以調(diào)用 RTMO 模型進行推理。

圖7 一行代碼用 RTMO 完成多人姿態(tài)估計

在 OpenXLab 應用平臺上，RTMPose 應用也已集成 RTMO。無需本地安裝，在瀏覽器中就能在線使用 RTMO 處理圖像、視頻。

RTMPose 應用鏈接：https://openxlab.org.cn/apps/detail/mmpose/RTMPose

圖8 在線試用 RTMO

多平臺部署支持

對于需要在業(yè)務側(cè)部署模型的小伙伴，RTMO 也帶來了福音。

不同于二階段姿態(tài)估計模型，RTMO 無需使用人體檢測器預先獲取人體檢測框，因此它的部署相比 RTMPose 要更加簡單。RTMO 項目主頁介紹了如何使用 MMDeploy 部署 RTMO 模型，無論是用 ONNX 還是 TensorRT 后端都可以一鍵搞定。? ?

圖9 RTMO 部署教程

此外，我們還提供了開箱即用的輕量推理庫 rtmlib （https://github.com/Tau-J/rtmlib）

無需安裝 mmcv，mmengine，mmpose 等一系列訓練庫，有 opencv 就能推理
超級友好簡潔的推理和可視化接口
自動下載和緩存 onnx 模型
支持 RTMPose 全系列官方及衍生模型：RTMPose，DWPose，RTMO，RTMW etc.

代碼樣例：

import cv2from rtmlib import Body, draw_skeletondevice = 'cpu'  # cpu, cuda
backend = 'onnxruntime'  # opencv, onnxruntime, openvino
img = cv2.imread('./demo.jpg')openpose_skeleton = False  # True for openpose-style, False for mmpose-stylebody = Body(pose='rtmo',to_openpose=openpose_skeleton,mode='balanced',  # balanced, performance, lightweightbackend=backend,device=device)keypoints, scores = body(img)# visualize# if you want to use black background instead of original image,
# img_show = np.zeros(img_show.shape, dtype=np.uint8)img_show = draw_skeleton(img_show, keypoints, scores, kpt_thr=0.5)cv2.imshow('img', img_show)
cv2.waitKey()

One More Thing

RTMPose 家族的全身姿態(tài)估計模型 RTMW 也進行了全面更新，基于 DWPose 蒸餾方案（同樣已集成在 MMPose 中）進行了加強，相較于 alpha 版本中 RTMW-x 取得 70.2 mAP 精度，蒸餾得到的 RTMW-l 用 60% 的計算量取得了 70.1 mAP。

圖10 DWPose (上) 與 RTMW (下) 效果對比動圖

圖11? DWPose (上) 與 RTMW (下) 效果對比靜圖

總結(jié)

RTMO 是基于 MMPose 的單階段實時人體姿態(tài)估計模型，它結(jié)合了坐標回歸與 YOLOX 檢測框架，在多人場景下實現(xiàn)了領先的速度與精度。RTMO 在 CrowdPose 數(shù)據(jù)集上首次達到了 80+ 的 AP，是多人擁擠場景當前效果最好的實時模型。作為單階段模型，RTMO 推理部署簡單方便。我們還提供了 Python 推理接口、多平臺部署方案，開發(fā)者可以快速上手使用。誠摯歡迎對人體姿態(tài)估計感興趣的小伙伴來試用 RTMO，提出寶貴意見！

項目主頁：https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo

1 Introduction

多人姿態(tài)估計（MPPE）在計算機視覺領域中至關重要，應用范圍涵蓋增強現(xiàn)實到體育分析等領域。實時處理對于需要即時反饋的應用尤其關鍵，例如為運動員定位提供指導。盡管已經(jīng)出現(xiàn)了許多實時姿態(tài)估計技術，但實現(xiàn)速度與精度之間的平衡仍然具有挑戰(zhàn)性。

當前實時姿態(tài)估計方法可分為兩類：自上而下方法（Top-down）和一階段方法（One-stage）。自上而下方法利用預訓練的檢測器為目標創(chuàng)建邊界框，然后對每個個體進行姿態(tài)估計。關鍵限制在于，它們的推理時間與圖像中的人數(shù)成正比（參見圖1）。另一方面，單階段方法直接預測圖像中所有個體的關鍵點位置。然而，當前實時單階段方法在精度方面與自上而下方法相比仍存在差距（參見圖1）。這些方法依賴于YOLO架構，直接回歸關鍵點的坐標，這會阻礙性能，因為這種技術類似于使用每個關鍵點的狄拉克δ分布，忽略了關鍵點固有的歧義和不確定性。

另一種方法是，坐標分類方法使用雙一維 Heatmap 來增加空間分辨率，通過將關鍵點位置的概率分布在跨越整個圖像的兩組bin上。這可以提供更準確的目標檢測，同時計算成本最小。然而，將坐標分類直接應用于密集預測場景，如單階段姿態(tài)估計，會導致由于圖像和每個人占據(jù)的區(qū)域不同，bin利用率低下。此外，傳統(tǒng)的Kullback-Leibler散度（KLD）損失將所有樣本視為同等，這在單階段姿態(tài)估計中是不最優(yōu)的，因為在不同網(wǎng)格中，實例的難度顯著不同。

在這項工作中，作者克服了上述挑戰(zhàn)，并將坐標分類方法集成到基于YOLO的框架中，從而導致了實時多人單階段姿態(tài)估計模型的開發(fā)。RTMO引入了一個動態(tài)坐標分類器（DCC），該分類器包括動態(tài)bin分配定位到邊界框和可學習bin表示。此外，作者提出了一種基于最大似然估計（MLE）的新穎損失函數(shù)，以有效地訓練坐標 Heatmap 。這種新的損失函數(shù)允許學習每個樣本的不確定性，自動調(diào)整任務難度并平衡硬樣本和易樣本之間的優(yōu)化，從而實現(xiàn)更有效和協(xié)調(diào)的訓練。

因此，RTMO實現(xiàn)了與實時自上而下方法相當?shù)臏蚀_性，并超過了其他輕量級單階段方法，如圖1所示。此外，RTMO在處理圖像中的多個實例時表現(xiàn)出優(yōu)越的速度，超過了具有相似準確度的自上而下方法。值得注意的是，RTMO-1模型在COCO val2017數(shù)據(jù)集上達到了74.8%的平均精度（AP），并在NVIDIA V100 GPU上以每秒141幀的速度運行。在CrowdPose基準測試中，RTMO-1實現(xiàn)了73.2%的AP，為單階段方法創(chuàng)造了新的最先進水平。本工作的關鍵貢獻包括：

針對密集預測場景的一種創(chuàng)新坐標分類技術，利用坐標bin進行精確的關鍵點定位，同時解決實例大小和復雜性帶來的挑戰(zhàn)。
提出一種新的實時單階段多人姿態(tài)估計方法，無縫集成坐標分類與YOLO架構，實現(xiàn)了現(xiàn)有自上而下和單階段多人姿態(tài)估計方法中性能與速度的最佳平衡。

2 Related Works

One-Stage Pose Estimator

受到單階段目標檢測算法進步的啟發(fā)，一系列單階段姿態(tài)估計方法出現(xiàn)了。這些方法在單次前向傳播中執(zhí)行MPPE，并直接從預定的根位置回歸實例特定關鍵點。替代方法，如PETR和ED-Pose，將姿態(tài)估計視為一組預測問題，建立了端到端的全流程框架進行關鍵點回歸。除了回歸解決方案外，技術如FCPose, InsPose和CID利用動態(tài)卷積或注意力機制生成實例特定 Heatmap 以進行關鍵點定位。

與兩階段姿態(tài)估計方法相比，單階段方法消除了預處理（例如，對于自上而下方法的人體檢測）和后處理（例如，對于自下而上方法的關鍵點分組）的需要。這導致了兩項好處：

一致的推理時間，與圖像中的實例數(shù)量無關；
簡化了一條 Pipeline ，便于部署和實際應用。

盡管具有這些優(yōu)勢，但現(xiàn)有的單階段方法在平衡高精度和實時推理方面仍然存在困難。高精度模型[42, 46]通常依賴于資源密集的 Backbone 網(wǎng)絡（例如，HRNet或Swin），這使得實時估計變得具有挑戰(zhàn)性。相反，實時模型[30, 33]在性能上妥協(xié)。作者的模型解決了這一權衡，既提供了高精度，又提供了快速的實時推理。

Coordinate Classification

SimCC和RTMPose都采用了坐標分類進行姿態(tài)估計。這些方法根據(jù)水平軸和垂直軸上的子像素bin對關鍵點進行分類，實現(xiàn)空間區(qū)分而無需依賴高分辨率特征圖。這有效地平衡了準確度和速度。然而，對于密集預測方法，將bin跨越整個圖像是不切實際的，因為需要大量bin以減小量化誤差，這會導致許多bin對于單個實例是多余的，從而降低效率。DFL在預定義的 Anchor 點周圍設置bin，這可能不包括大型實例的關鍵點，并且對于小型實例可能會導致顯著的量化誤差。作者的方法根據(jù)每個實例的大小分配bin，將它們放置在局部區(qū)域內(nèi)，優(yōu)化bin利用率，確保覆蓋關鍵點，并最小化量化誤差。

Transformer-Enhanced Pose Estimation

基于Transformer的結(jié)構在姿態(tài)估計中變得無處不在，利用最先進的Transformer Backbone 網(wǎng)絡以提高準確性，如ViTPose，或結(jié)合Transformer編碼器與CNN以捕獲空間關系。TokenPose和Poseur證明了基于 Token 的關鍵點嵌入在 Heatmap 和回歸方法中都是有效的，利用視覺線索和解剖學約束。

PETR和ED-Pose將Transformer引入端到端多人在圖像中的姿態(tài)估計，RTMPose將自注意力與基于SimCC的框架相結(jié)合，進行關鍵點依賴分析，這種方法也被RTMO所采用。雖然位置編碼是注意力的標準，作者創(chuàng)新性地將其用于為每個空間bin形成表示向量，以計算bin-keypoint相似性，這有助于提高準確的局部化預測。

3 Methodology

動態(tài)坐標分類器通過生成一維 Heatmap 預測的詳細過程可以在第3.1節(jié)中找到, 而基于MLE的 Heatmap 損失則可以在第 3.2 節(jié)中找到。完整的訓練和推理過程可以在第 3.3 節(jié)中找到。

Dynamic Coordinate Classifier

每個網(wǎng)格單元與對應的姿態(tài)特征包含了關鍵點相對于網(wǎng)格的位移。以前的工作直接回歸這些位移，因此性能較差。作者的研究探討了將坐標分類與單階段姿態(tài)估計框架集成以提高關鍵點定位準確性的方法?，F(xiàn)有坐標分類方法的一個顯著局限性在于它們的靜態(tài)bin分配策略。為了解決這個問題，作者引入了Dynamic Coordinate Classifier (DCC)，該方法在兩個一維 Heatmap 中動態(tài)分配范圍并為bin形成表示，從而有效地解決了密集預測環(huán)境中坐標分類的兼容性問題。

動態(tài)bin分配

在自上而下的姿態(tài)估計器中使用的坐標分類技術將bin分配到整個輸入圖像。這種方法導致了單階段方法中的bin浪費，因為每個主體只占據(jù)了圖像的一小部分。DFL在預定義的 Anchor 點附近設置bin，這可能會遺漏大型實例的關鍵點，并在小型實例中導致嚴重的量化誤差。DCC通過動態(tài)地為每個實例的邊界框分配bin來解決這個問題，確保局部覆蓋。邊界框最初使用點卷積層進行回歸，然后通過一個1.25的因子擴展以覆蓋所有關鍵點，即使在不準確的預測情況下也是如此。這些擴展的邊界框沿著水平和垂直軸均勻地劃分成bin。每個水平bin的x坐標使用以下公式計算：

MLE for Coordinate Classification

與KLD不同, 作者的MLE損失允許可學習的方差, 表示不確定性。這種不確定性學習框架會自動調(diào)整各種樣本的難度。對于困難的樣本, 模型預測較大的方差以促進優(yōu)化。對于簡單的樣本, 它預測較小的方差, 有助于提高準確性。采用可學習的方差在KLD中是有問題的 - 模型傾向于預測較大的方差以壓縮目標分布, 因為這將簡化學習。

Training and Inference

4 Experiments

Settings

數(shù)據(jù)集

實驗主要在COCO2017 Keypoint Detection基準測試上進行，包括約25萬個包含17個關鍵點的實例。在val2017和測試-dev集上與最先進的方法進行了性能比較。為了探索模型性能的極限，訓練還擴展到了其他數(shù)據(jù)集：CrowdPose，AIC，MPII，JHMDB，Halpe，和PoseTrack18。這些標注被轉(zhuǎn)換為COCO格式。RTMO還在CrowdPose基準測試上進行了評估，該測試由于場景復雜（擁擠且受阻礙）而聞名，包括20萬張圖像和大約8萬個包含14個關鍵點的實例。OKS-based平均精度（AP）作為兩個數(shù)據(jù)集的評估指標。

實現(xiàn)細節(jié)

RTMO Pose被用于比較

RTMDetno，一個高度高效的目標檢測模型，作為自上而下模型的目標檢測器。由于自上而下模型在圖像中人數(shù)增加時會變慢，作者將COCO val2017集按人數(shù)劃分并相應地評估自上而下模型的速度。如圖3所示，RTMO系列在性能和速度上都優(yōu)于可比輕量級單階段方法。與自上而下模型相比，RMO-m和RMO-l的準確性與RTMPose-m和RTMPose-l相當，且在圖像中人數(shù)更多時更快。使用ONNXRuntime，RMO與RTMPose在速度上相當，大約有四個人時。使用TensorRT FP16，RMO在有兩或更多人時更快。這證明了RMO在多行人場景中的優(yōu)勢。

重要的是，盡管圖像中處理標記的數(shù)量隨人數(shù)變化，推理延遲的差異微乎其微。例如，RMO-l在GPU子集上的延遲比在只有一個人的子集上高約0.1 ms，占總延遲的約0.5%。

在COCO test-dev上，作者對RTMO與領先的單階段姿態(tài)估計器進行了評估，結(jié)果如表1所示。RTMO在速度和精度方面取得了顯著的進步。具體來說，RTMO-s使用ResNet-50 Backbone 網(wǎng)絡，比PETR快十倍，同時保持相似的準確性。

與輕量級模型KAPAO和YOLO-Pose相比，RTMO在不同的模型大小上始終優(yōu)于其他模型。當在COCO train2017上進行訓練時，RTMO-l在所有測試模型中表現(xiàn)第二好。性能最好的模型是ED-Pose，使用Swin-L Backbone 網(wǎng)絡，但非常沉重，不適合部署。使用相同的ResNet-50 Backbone 網(wǎng)絡，RTMO-l比ED-Pose提高了1.1%的AP，并且更快。此外，將ED-Pose轉(zhuǎn)移到ONNX格式導致其延遲比PyTorch模型慢約1.5秒/幀。

相比之下，RTMO-l的ONNX模型僅需19.1ms處理一張圖像。通過進一步在額外的多人姿態(tài)數(shù)據(jù)集上進行訓練，RTMO-l在單階段姿態(tài)估計器中準確度方面最佳。

為了評估RTMO在具有挑戰(zhàn)性的場景下的性能，作者在CrowdPose基準測試上對其進行了測試，該基準測試的特征是密集人群、重要的人重疊和遮擋。結(jié)果如表2所示。在自下而上和單階段方法中，RTMO-s的準確度與DEKR相當，但僅使用15%的參數(shù)。當在CrowdPose數(shù)據(jù)集上進行訓練時，RTMO-l超過了使用Swin-L Backbone 網(wǎng)絡的ED-Pose，盡管具有較小的模型大小。

值得注意的是，RTMO-l在中等和困難樣本上的性能超過了ED-Pose，表明該模型在具有挑戰(zhàn)性的情況下非常有效。此外，通過使用額外的訓練數(shù)據(jù)，RTMO-l達到了最先進的81.7% AP，突顯了該模型的能力。

Quantitative Results

RTMO采用坐標分類方法，并在具有挑戰(zhàn)性的多行人場景中表現(xiàn)出強大的性能，其中個體相對較小且經(jīng)常發(fā)生遮擋。

圖4揭示了在如此困難的情況下，RTMO能夠生成空間準確的heatmap，從而為每個關鍵點提供穩(wěn)健和上下文敏感的預測。

Ablation Study

分類與回歸

為了評估坐標分類與回歸的有效性，作者將模型的1D heatmap生成替換為全連接層進行回歸，并使用OKS損失進行監(jiān)督。表3比較了性能。使用DCC模塊和MLE損失，坐標分類在COCO上的回歸性能比回歸提高了2.1%的AP。

坐標分類的損失

與其他具有坐標分類的姿勢估計方法相比，作者的研究認為KLD不適合RTMO。表3中的證據(jù)表明，與作者的MLE損失相比，使用KLD的準確度較低。作者將這種改進歸因于MLE損失函數(shù)中包含可學習的方差，這有助于在硬樣本和易樣本之間平衡學習。具體來說，在一階段姿勢估計器框架中，每個網(wǎng)格的難度水平不同，并受到多個因素的影響，包括分配給網(wǎng)格的實例姿勢和大小，以及網(wǎng)格和實例之間的相對位置。KLD無法考慮這種可變性，因此在這個上下文中效率較低。

坐標分類的動態(tài)策略

作者首先采用了一種類似于DFL的靜態(tài)坐標分類策略，其中每個網(wǎng)格周圍的bin在固定范圍內(nèi)分布。這種方法在COCO數(shù)據(jù)集上優(yōu)于回歸方法，但在CrowdPose上表現(xiàn)不佳。將Dynamic Bin Allocation (DBA)策略引入到這種 Baseline 中，導致兩個數(shù)據(jù)集上的性能均下降。這是合理的，因為每個樣本的bin語義在不同樣本上不同，且沒有相應的表示調(diào)整。這個問題通過引入Dynamic Bin Encoding (DBE)得到了解決。

使用DBE，作者的DCC方法在兩個數(shù)據(jù)集上都超過了靜態(tài)策略的有效性。此外，如果沒有動態(tài)bin編碼（DBE），相鄰空間位置的概率可以顯著變化，這與相鄰空間位置應該具有相似概率的預期相反。相反，結(jié)合DBE可以導致更平滑的輸出heatmap，表明通過啟用能夠更好地捕捉相鄰位置相似性的表示向量，解碼器訓練得到了改善。

特征圖選擇。特征金字塔利用多尺度特征檢測不同大小實例；較深的特征通常檢測較大物體。作者的初始模型受到Y(jié)OLOX的啟發(fā)，使用了P3、P4、P5特征，步長分別為8、16和32像素。然而，P3在模型頭中貢獻了78.5%的FLOPs，而僅占10.7%的正確檢測率。為了提高效率，作者關注P4和P5。如表4所示，省略P3導致了速度顯著提高，但準確性損失很小，表明僅P4和P5對于多行人姿態(tài)估計是有效的。這表明P3在檢測較小實例中的作用可以通過剩余特征得到充分補償。

5 Conclusion

總之，作者的RTMO模型顯著提高了單階段多行人姿態(tài)估計中的速度與精度權衡。通過將坐標分類集成到Y(jié)OLO基于的框架中，作者實現(xiàn)了實時處理和高精度。作者的方法具有動態(tài)坐標分類器和基于最大似然估計的損失函數(shù)，有效地提高了密集預測模型中的位置精度。這一突破不僅增強了姿態(tài)估計，而且為未來在密集預測視覺檢測任務方面的進一步發(fā)展奠定了堅實的基礎。

#ViTs~

這里提出了一種比較分析各種自監(jiān)督視覺Transformer（ViTs），重點關注它們的局部代表性。受大型語言模型的啟發(fā)，作者研究了ViTs在幾乎不需要微調(diào)的情況下執(zhí)行各種計算機視覺任務的能力。作者設計了一個評估框架，用于分析在稀疏語義分割、實例識別、目標檢索和跟蹤等背景下，局部表示的質(zhì)量。

在本文中提出了一種比較分析各種自監(jiān)督視覺 Transformer （ViTs），重點關注它們的局部代表性。受大型語言模型的啟發(fā)，作者研究了ViTs在幾乎不需要微調(diào)的情況下執(zhí)行各種計算機視覺任務的能力。作者設計了一個評估框架，用于分析在稀疏語義分割、實例識別、目標檢索和跟蹤等背景下，局部（即塊級）表示的質(zhì)量。作者發(fā)現(xiàn)，對比學習方法如DINO生成的通用塊表示可以立即應用于下游任務，而無需參數(shù)調(diào)優(yōu)，相比之下，Mask圖像建模方法。后者方法，例如在Mask自動編碼器中學習的嵌入，具有高方差特征，這些特征會損害基于距離的算法，如k-NN，并且對大多數(shù)下游任務不包含有用信息。

此外，作者證明了通過移除這些高方差特征可以提高k-NN，并對本文中的基準和Scale-MAE，這是Mask自動編碼器的最新擴展，進行了分析。最后，作者發(fā)現(xiàn)一個目標實例檢索設置，在這個設置中，預訓練在兩個數(shù)量級更多的數(shù)據(jù)上的DINOv2模型，其性能不如計算量較小的DINO模型。

1 Introduction

自然語言處理領域的最新進展催生出了通用模型，這些模型在經(jīng)過大規(guī)模預訓練后，可以在沒有針對特定任務的微調(diào)的情況下執(zhí)行各種與語言相關的任務?；谧员O(jiān)督 Transformer 的語言模型在提示或通過在上下文中學習的方式（只需幾個例子）上，實現(xiàn)了在翻譯、問答和常識推理等任務上的競爭性能。

自監(jiān)督 Transformer 在計算機視覺領域也變得越來越受歡迎。兩種截然不同的自監(jiān)督學習范式已經(jīng)證明在視覺 Transformer （ViTs）上具有良好的性能：基于對比學習的（例如MOCO或DINO）和基于Mask圖像建模的（例如MAE或SimMIM）。這些模型是否具有計算機視覺任務的通用能力，類似于自然語言處理模型中觀察到的能力，仍然是一個未回答的問題。

由于ViTs沒有文本輸入，因此評估它們在下游任務上的零樣本能力具有挑戰(zhàn)性。大多數(shù)ViTs為整個圖像（通常為[CLS]Token）生成一個嵌入向量，并為每個局部塊生成一個嵌入向量。在本論文中關注的是需要局部意識的視覺任務，如圖像分割和目標跟蹤。作者提出了利用塊表示的少量樣本評估方法。

為了最小化特定任務的參數(shù)調(diào)優(yōu)，作者采用了兩種方法：無需調(diào)整參數(shù)的k最近鄰（k-NN）和具有單層可訓練參數(shù)的線性檢測。預訓練ViTs對于圖像 Level 的任務（如圖像分類）的全圖像表示在文獻中得到了相對較好的探索。

除了相對較大的任務特定"head"之外，對整個backbone進行微調(diào)仍然可以獲得優(yōu)越的分割和跟蹤性能。對這些模型的分析超出了本文的范圍，因為它們的出色性能不僅來自自監(jiān)督預訓練，而且還受到head架構和用于fine-tuning的數(shù)據(jù)的影響。本文的重點在于通過使用僅有的幾個Token樣本暴露出自監(jiān)督ViTs的固有能力。

作者發(fā)現(xiàn)，盡管Mask圖像建模產(chǎn)生的backbone具有較好的fine-tuning性能，但預訓練的塊嵌入?yún)s遠不如對比學習方法學習的近鄰方法的好。作者深入研究了這一現(xiàn)象，并確定了大約200個與作者的下游任務相關的無關數(shù)據(jù)集特征。這些特征與直覺相反，不包含作者考慮的下游任務所需的有用信息，但在所有特征中具有最高的方差。移除這些特征可以提高大多數(shù)任務上的k-NN性能。

作者進一步探索了塊嵌入在多個圖像中識別同一目標實例的有用性。在一個衛(wèi)星圖像數(shù)據(jù)集上進行了實驗，并在幾種圖像變換下測量塊嵌入的質(zhì)量。作者發(fā)現(xiàn)，DINO意外地超過了其新兄弟DINOv2。此外，在區(qū)分細粒度目標類別方面測量了塊嵌入的質(zhì)量。最后，在多目標跟蹤數(shù)據(jù)集上進行了目標關聯(lián)實驗。作者發(fā)現(xiàn)，DINO和DINOv2顯著優(yōu)于Mask圖像模型和監(jiān)督ViTs，使其成為視頻中最適合的目標檢索。

主要貢獻如下：

設計了一個評估框架和少樣本數(shù)據(jù)集，來分析預訓練視覺 Transformer 在局部意識任務中的內(nèi)在能力。作者在作者的框架上，使用五個代表性的ViTs在三個任務：塊分類、實例和細粒度檢索以及視頻幀中的目標關聯(lián)上進行分析比較。
作者發(fā)現(xiàn)，與Mask圖像建模相比，對比預訓練可以產(chǎn)生顯著更多的通用塊嵌入，這些嵌入可以在不需要微調(diào)的情況下直接應用于下游任務。作者識別出基于k-NN的方法中MAE類似模型性能不佳的原因。在移除高方差特征（在作者的實驗中為200個）后，MAE類似模型在k-NN上的性能顯著提高。
作者證明，移除這些特征不僅對作者所提出的基準有益，還對其他研究中提出的基準有益。例如，Scale-MAE [25]，它評估了一個在航空圖像上訓練的類似MAE的網(wǎng)絡，在不同的分辨率和使用k-NN在計算出的表示（無論是所有塊的平均值，還是[CLS]Token）上，與其他最先進的算法進行比較。作者觀察到同樣的高方差特征問題，并在移除200個這樣的特征后，展示了優(yōu)越的性能。
作者發(fā)現(xiàn)，在20倍未標注數(shù)據(jù)的訓練下，DINOv2在大多數(shù)場景中超過了所有其他ViTs，包括在圖像腐敗的塊分類的魯棒性方面。令人驚訝的是，它在識別變換圖像中覆蓋相同目標實例的塊時，表現(xiàn)不如大多數(shù)ViTs，這表明盲目增加更多的數(shù)據(jù)可能并不能普遍提高所有結(jié)果。

2 Related work

視覺 Transformer （ViT）的出現(xiàn)及其在許多下游任務中的應用，為計算機視覺開辟了新的方向，包括圖像分割、圖像分類和目標檢測。與語言模型不同，ViT的大小沒有達到175B參數(shù)，因此擴展ViTs并不容易。兩項工作DINOv2和ViT-22B聲稱，他們的核心技術貢獻在于穩(wěn)定訓練大規(guī)模ViTs在數(shù)百萬張圖像上的訓練。

Park和Kim 分析了多頭自注意力（MSA）和ViTs的幾個屬性。他們發(fā)現(xiàn)MSAs將損失函數(shù)平坦化，從而減輕了其非凸性問題的影響。他們還觀察到MSAs和卷積層互補，表明MSAs可以作為低通濾波器，而卷積層則可以作為高通濾波器。Park等人[21]分析了基于對比學習（CL）和Mask圖像建模（MIM）的ViT方法之間的差異，并比較了它們在下游任務上的性能。他們證明CL方法比MIM方法更有效地捕獲長程全局模式，例如物體形狀。其次，他們證明基于CL的方法更傾向于形狀，而基于MIM的方法更傾向于紋理。Raghu等人[24]對ViTs和CNNs在幾個圖像分類基準上的內(nèi)部表示結(jié)構進行了分析。他們證明ViTs的網(wǎng)絡層具有比CNN更均勻的表示，這主要是由于自注意力的作用，它可以使信息在早期聚合，以及ViT的殘差連接，它們也可以將特征從較低 Level 傳播到較高 Level 。

其他工作專注于分析ViTs的魯棒性。Bhojanapalli等人[2]研究了ViT模型對輸入和模型擾動的魯棒性，用于圖像分類。Bhojanapalli等人[2]表明， Transformer 對幾乎任何單個層的刪除都具有魯棒性，并且當預訓練在足夠大的數(shù)據(jù)集上時，ViTs在各種擾動下表現(xiàn)出不遜于ResNet對應物的好結(jié)果。Paul和Chen[22]分析了ViTs對幾種常見的破壞、擾動、分布轉(zhuǎn)移和自然對抗樣本的魯棒性。他們還分析和演示了ViTs在各種方面的優(yōu)越魯棒性，例如遮蔽、能量/損失函數(shù)分析和在魯棒分類數(shù)據(jù)集上的對高頻偽跡的敏感性。[17]研究了Transformers在分類任務中對嚴重遮擋、擾動和域轉(zhuǎn)移的魯棒性。他們的發(fā)現(xiàn)表明，ViTs與CNNs相比，對局部紋理的偏見顯著較小。

另一種有助于模型普遍性的研究，并使零樣本圖像分類（可能還有其他視覺任務）成為可能，涉及視覺語言模型，包括對比模型如CLIP和自回歸模型如CM3Leon。對這些模型的分析超出了本文的范圍。

雖然不是完全相同的現(xiàn)象，但[8]中也分析了一種類似的現(xiàn)象，即在特征圖中出現(xiàn)偽跡。該研究表明，在監(jiān)督和自監(jiān)督的視覺 Transformer （ViTs）中，推理過程中會在圖像的低信息背景區(qū)域出現(xiàn)一些偽跡。值得注意的是，作者對MAE的觀察是特征方差較大的特征的存在，而[8]觀察到某些Token出現(xiàn)了偽跡。

作者的工作分析了并比較了不同ViTs，關于它們在局部表示圖像的能力。作者探索并比較了從使用不同自監(jiān)督或監(jiān)督策略訓練的ViTs中獲得的局部塊表示。為此，作者在少量樣本設置下探究了塊級特征的質(zhì)量，用于密集塊分類、細粒度檢索和跟蹤。

3 Can Transformers Recognize Semantics of Patches?

在本文中，作者使用了五個ViT模型。MAE和SimMIM被用作Mask圖像建模的代表模型。對比模型由DINO 和其對應模型DINOv2表示，與本工作中使用的所有其他ViTs不同，DINOv2是在比ImageNet更大的數(shù)據(jù)集上進行預訓練的。作者使用監(jiān)督ViT作為 Baseline ，并在一個設置中使用iBOT，它像DINO一樣在ImageNet上進行訓練，但使用類似于DINOv2的損失項。這些模型在附錄A.1中詳細描述。

為了分析ViT模型的局部表示，作者首先研究了它們在塊級分類方面的能力。為此，在Cityscapes數(shù)據(jù)集上設置了一個少樣本塊級分類實驗。

城市景觀（Cityscapes）[6]的訓練集包括18個城市中的2975張圖像。除非另有說明，作者使用每個城市4張圖像的訓練數(shù)據(jù)集（總共72張圖像）。后來作者還探索了通過增加或減少這個數(shù)量的訓練樣本對性能的影響。城市景觀數(shù)據(jù)集的原驗證集包含500張圖像，這些圖像來自3個不同的城市。對于作者進行分析，作者選擇了每個城市的10張圖像，總共30張圖像。作者將城市景觀數(shù)據(jù)集的像素密集分割標簽轉(zhuǎn)換為塊級類別，通過在每個塊中選擇最常見類別。作者通過測量像素準確率和分割mIoU來評估表示的質(zhì)量。

由于作者在分析中使用的ViT模型作為輸入圖像大小為224x224，作者將大小為1024x2048的圖像分割成256x256的塊，并將每個塊視為單獨的圖像。這些塊被重新縮放到224x224，并傳遞給預訓練的 Transformer 。作者提取并存儲所有圖像（訓練和驗證）以及所有ViTs的對應塊的表示。

作者使用兩個簡單的分類器來分析潛在的表示：k-NN（k=1）和擬合線性softmax分類器。這兩種方法都在少量訓練集的塊表示上進行訓練。選擇這兩個基本方法的動機是了解給定物體類別的塊是否在表示空間中與其他物體類別線性可分或聚類。在MAE的情況下，作者遵循[15]（它反過來引用了[10]）的建議，在線性層之前對提取的特征進行批歸一化。作者注意到，使用批歸一化進行線性檢測可以獲得幾乎2.5倍更好的結(jié)果。作者沒有在SimMIM中使用批歸一化，因為添加它會使性能變差。

對于線性模型，訓練集的大小很重要，而對于k-NN，它的重要性較小。在圖1中展示了不同訓練集大小時，k-NN和線性分類器的性能。作者首先發(fā)現(xiàn)，線性模型通常比k-NN獲得更好的結(jié)果，尤其是在有更多的訓練數(shù)據(jù)時。然而，對于DINO版本和監(jiān)督ViT，k-NN和線性分類器之間的性能相當。相反，MAE表示獲得的k-NN性能令人驚訝地差。雖然它的線性結(jié)果只略低于其DINO對應物，但k-NN分類器導致大約4倍更差的表現(xiàn)。

接下來對圖2中網(wǎng)絡不同層上提取的表示進行詳細分析，以了解k-NN塊分類性能。在有監(jiān)督ViT和DINO之間，表現(xiàn)非常相似。從第一層到第八層，性能逐漸提高，然后趨于飽和。最后兩層性能稍微下降，這在有監(jiān)督ViT中更為明顯。

DINOv2的行為相當不同。在第一層，它的性能比DINO差。對于最容易的五種目標類別（_road_, vegetation, sky, car, _building_），其性能在最后層趕上。對于其他更難的目標類別，DINOv2在第十層與DINO和有監(jiān)督ViT持平，然后在第十一層和第十二層顯著超過它們。特別是，_bus_類別的IoU從第九層的0.059跳到第十二層的0.729。因此，DINOv2的優(yōu)勢主要來自更難的類別。

再次，作者觀察到在MAE的情況下，k-NN性能較差。SimMIM，另一個用于重構圖像的ViT，在中間層表現(xiàn)比MAE好，但只在中間層。對于更容易的目標類別，這個差異更加顯著。最后三層的質(zhì)量與MAE相似。

根據(jù)[19]，DINOv2在與其他預訓練視覺 Transformer （ViTs）的比較中，通過在ImageNet的域轉(zhuǎn)移版本上的性能，被認為是非常魯棒的。在本小節(jié)中，作者將這種分析擴展到圖像塊表示層面。

有人可以聲稱，對各種退化的魯棒性可能歸因于訓練過程中使用的增強。具體來說，使用顏色增強增強的模型被假設表現(xiàn)出更高的對那些退化的抵抗力（模糊、高斯噪聲等）。然而，根據(jù)[15]，基于顏色抖動的增強會降低其性能。這表明性能和對退化的魯棒性之間可能存在權衡。由于計算限制，進一步研究這個假設留給了未來的工作。

圖3表明，與DINO和監(jiān)督ViT相比，DINOv2在最小模糊半徑下相對更具魯棒性。對于更強的模糊版本，這三個模型降級幾乎相同。MAE降級相對較快。kNN的結(jié)果與線性檢測的結(jié)果相似，除了MAE，對于MAE，即使是最小的降級也會導致預測崩潰：kNN預測所有塊（通常為_vegetation_或_sky_）的同一類別。

根據(jù)[21]，基于Mask的方法（如MAE）更依賴于高頻特征，而基于對比訓練的方法（包括DINO）更依賴于低頻特征。這意味著DINO表示相對于高頻噪聲應該更魯棒，而MAE表示在低頻噪聲下應該表現(xiàn)更好。在作者的實驗中，MAE在所有噪聲頻率下表現(xiàn)都更差。相反，監(jiān)督ViT對高頻噪聲具有100%的魯棒性。這可以解釋為其目標學習整個圖像的目標類別，使其最后層忘記無關的高頻信息。類似的現(xiàn)象在[16]中也有報道。

作者在ADE20K上得到了類似的結(jié)果。作者創(chuàng)建了一個類似的小樣本ADE20K訓練數(shù)據(jù)子集，它由訓練集（每個類別4張圖像，總共600張）和驗證集（300張）中的600張圖像組成，大小為672x448。對于k-NN和線性檢測，作者在作者測試的ViTs（見附錄A.3中的表2）之間得到了相似的相對性能。

4 Enhancing k-NN Accuracy in Masked Image Modeling

在這個部分，作者解決了一個與基于MIM的k-NN任務相關的挑戰(zhàn)。問題在于，與其它特征相比，某些特征具有顯著更高的方差。作者提出了一種解決方案，然后更深入地研究了這些特征所包含的信息。

Why MIM-based models have poor k-NN performance.

在作者的實驗中，作者發(fā)現(xiàn)MAE的塊嵌入在線性檢測上表現(xiàn)得相當好，但在k-NN上卻失敗了。作者假設MAE的塊嵌入在某些維度上可能具有很高的方差，這可能會極大地增加同一類別塊之間的距離，從而損害k-NN，而不會影響（可能是小邊緣）線性模型的性能。

MAE和SimMIM的特征方差非常多樣化。?作者計算了所有模型的每個特征的方差。在圖4(a)中，作者按降序排列所有768個特征的方差。作者觀察到，監(jiān)督ViT（和DINO）的所有特征的方差相對均勻。然而，對于MAE和SimMIM，有多個特征具有非常高的方差，并且存在接近零方差特征的長尾巴。

Simple Remedy

作者刪除了具有最高方差的前m個特征，并使用縮短的嵌入進行了k-NN和線性檢測的少量樣本分割性能測量。如圖4(b)所示，僅刪除m=10個特征，MAE的k-NN性能從0.058躍升到0.170，而線性檢測的性能并未受到影響。當m=200時，k-NN性能進一步增加到0.295。之后，k-NN和線性檢測的得分開始下降。這一發(fā)現(xiàn)表明，對于線性模型和k-NN，大約四分之一MAE嵌入特征對于塊級圖像分割是不利的。另一方面，這些特征構成了嵌入特征的近似所有方差。

作者選擇了一個最近基于MIM的算法，它采用k-NN進行性能比較，與最先進的算法進行比較。作者通過刪除其m=200個高方差特征進行了實驗。

Scale-MAE的訓練方式是具有一個有意義的[CLS]Token，可以與塊Token的平均值一起用作圖像表示。作者使用[CLS]Token表示進行圖像分類，使用k-NN并顯示它超過了MAE。作者復制了結(jié)果并確認塊向量的平均值確實比[CLS]差。然而，在從[CLS]中刪除200個高方差特征后，在UCMerced和RESISC數(shù)據(jù)集的幾乎所有地面采樣距離（GSD）值下，平均塊表示超過了利用[CLS]表示的方法。結(jié)果如圖4所示。作者觀察到，從[CLS]中刪除200個高方差特征并不顯著改變結(jié)果；然而，一旦作者使用圖像塊的平均向量，并在塊表示中刪除200個高方差特征，它們就超過了利用[CLS]表示的方法。

What information do these features hold?

一個假設是, 這些特征對于在同一類別中識別特定實例的物體或區(qū)分細粒度的物體類別是必要的。在第五節(jié)中, 作者提供了對此假設的否定證據(jù)：刪除高方差特征可以大大改善檢索性能,以至于失去一些實例特定信息的負面影響, 如果這是真的, 是無法檢測到的。

作者對所有其他ViTs進行了類似的分析，并將其結(jié)果可視化在圖4(c)上。當刪除高方差特征時，提高k-NN性能的現(xiàn)象僅存在于使用像素級重建目標的模型中。對于其他ViTs，刪除高方差特征不會提高k-NN性能，但也不會損害它。線性檢測性能在這些刪除中也保持穩(wěn)健。

對于MAE，特征歸一化具有類似的效果，但對于SimMIM卻不是這樣。作者通過將線性模型的預訓練批歸一化層應用到MAE嵌入中，并在將其傳遞給k-NN分類器之前，創(chuàng)建了另一個版本的MAE嵌入。它通過刪除m=200個特征的方式，幾乎同樣地提高了k-NN性能。它還提高了SimMIM的k-NN性能，但線性檢測卻嚴重惡化。作者得出的結(jié)論是，特征歸一化是減少高方差特征負面影響的一種替代策略，但不是完全相同的方法。

作者確定了從Cityscapes、ADE20K和FAIR1M數(shù)據(jù)集中提取的塊表示的200個高方差特征。其中196個特征在Cityscapes和ADE20K之間共享，而在Cityscapes和FAIR1M之間共享192個特征。

總之，高方差特征不包含語義或全局信息，它們存儲了一些有用的像素級細節(jié)，這些細節(jié)在圖像重構中是有益的，并且在所有基于MIM的方法和數(shù)據(jù)集中都被一致檢測到。

5 At Which Granularity Transformers Detect Objects?

在第3節(jié)中分析了ViTs在目標 Level 的少樣本語義分割任務上的性能。這涉及將預定義的目標（如飛機和汽車）分配給每個包含這些目標的塊。這導致了下一個問題，即ViTs是否可以學習區(qū)分同一類別但不同類型的目標（如汽車類型或飛機類型）或者當有其他實例可用時，ViTs是否可以很好地區(qū)分同一確切的目標。

方法論。?作者使用FAIR1M，這是一個設計用于細粒度目標檢測的大型衛(wèi)星圖像數(shù)據(jù)集。請注意，作者測試的ViTs中沒有一個是在衛(wèi)星圖像上預訓練的（甚至DINOv2，據(jù)作者所知，它也沒有在衛(wèi)星圖像上預訓練）。FAIR1M中的物體根據(jù)5個超級類別進行標注：飛機、船、車輛、法院和公路，以及37個細粒度類別（飛機類型、船舶類型等）。標注形式為旋轉(zhuǎn)邊界框（不具有像素精度）。然而，據(jù)作者所知，所有物體實例都出現(xiàn)在同一張圖像上。對于這些實驗，包括最近的一個MAE的擴展，即Scale-MAE，它專門針對衛(wèi)星圖像進行了訓練。為了測試作者的假設，即高方差特征會影響基于距離的指標，作者還將使用MAE-200和Scale-MAE-200。這些變體從表示向量中刪除了200個高方差特征。

這些圖像的大小各不相同，通常比1000x1000像素大。作者將所有圖像都裁剪到224x224像素的塊，并保留每個細粒度類別中的每個塊的8個實例。這確保了作者的數(shù)據(jù)集包含每個類別中的至少8個實例，但實際上它包含更多常見物體的實例。附錄中的表3列出了數(shù)據(jù)集統(tǒng)計信息。作者有196個圖像，每個ViT-B/16模型有196個塊，而DINOv2有256個塊。

接下來，作者創(chuàng)建了所有圖像的變換版本。對于第一組實驗，作者應用了水平位移1，2，3和4像素。對于第二組實驗，作者將圖像逆時針旋轉(zhuǎn)5，10，15和20度。對于第三組實驗，作者按0.8，0.9，1.1和1.2的比例縮放圖像。對于第四和第五組實驗，作者應用了模糊和高斯噪聲降質(zhì)。作者計算了所有這些圖像的塊表示。這創(chuàng)建了許多具有相同物體實例的圖像。

對于每個覆蓋有標注目標的變換圖像的塊，作者從原始圖像塊的完整集合中檢索最近的塊。理想情況下，最近的塊應該是未經(jīng)過模糊、噪聲或位移的原始塊。否則，最佳選擇應該是同一細粒度類別的另一個實例，第三好的選擇是同一超級類別的物體塊。最壞的情況是，最近的塊屬于另一個類別或背景塊。對于每個模型和圖像變換 Level ，作者計算了哪些塊的最近塊屬于所提到的類別。

圖像降級會導致所有指標降低。?結(jié)果如6所示。當目標塊變換較小（例如具有10像素標準差的高斯噪聲）時，對于所有模型，最接近的塊幾乎總是原始塊。對于MAE，在約40-50%的塊中，最接近的塊是正確的，但對于剩下的塊，最接近的塊是背景塊。隨著變換的增強，所有模型的正確塊比例降低，剩余塊中有超過一半是與同一細粒度目標類別的塊（再次，除了MAE）。

對于涉及圖像平移、旋轉(zhuǎn)和縮放等實驗，第一級評估，稱為'相同塊'，并不簡單，因為立即不清楚哪個塊對應原始塊。作者定義相應的塊為包含旋轉(zhuǎn)塊中心點的塊。作者還注意到，幾個靠近旋轉(zhuǎn)塊角落的塊可能沒有對應的塊，這限制了相同塊檢索的準確度。

結(jié)果和上限一起顯示在圖6中。作者觀察到，對于旋轉(zhuǎn)和縮放，所有模型在5度旋轉(zhuǎn)和少量縮放下表現(xiàn)出顯著的較低魯棒性，與嘗試的最高模糊半徑或噪聲水平相比。模型性能的順序與其他圖像變換一致：DINO表現(xiàn)最好，其次是MAE（以及去除了200個高方差特征的Scale-MAE），然后是DINOv2和監(jiān)督ViT，其中MAE作為遠離突出物。值得注意的是，Scale-MAE顯著優(yōu)于MAE；然而，刪除其200個高方差特征也顯著提高了其性能。

DINO是最魯棒的一個。?在測試的所有ViTs中，DINO在所有變換下都是最魯棒的。令人驚訝的是，DINOv2在所有指標下都不如DINO魯棒，且與監(jiān)督ViT類似。為了驗證DINOv2的這種劣勢是否來自塊級損失項或者模型和數(shù)據(jù)集的規(guī)模，對iBOT嵌入進行了相同的分析。iBOT比DINO執(zhí)行得更好（附錄中的圖11），這意味著塊級損失不能成為借口。

作者注意到，大多數(shù)檢索到的塊來自同一圖像塊。一個可能的解釋是，塊嵌入包含圖像級信息。作者重復這個實驗，將原始圖像的塊從可用塊的集合中刪除。在這種設置下，最近的塊可以是同一細粒度類別、同一超類別、錯誤的超類別，也可以是背景塊。在這里，DINOv2處于領先地位，監(jiān)督ViT和DINO稍遜一籌，而MAE表現(xiàn)不佳（圖7）。

改進MAE的性能。作者重復了這個實驗，使用了縮短的MAE和Scale-MAE（去掉了200個最高方差特征）。這個版本的MAE和Scale-MAE的性能顯著優(yōu)于原始的（MAE和Scale-MAE）版本，并超過了DINOv2和監(jiān)督ViT，僅次于DINO。這個結(jié)果表明，刪除MAE嵌入的高方差特征不僅有助于語義分割，而且有助于在變換圖像中識別特定目標實例。另一方面，這也增加了高方差特征不能提供識別實例所需任何獨特信息的證據(jù)，因為幾乎在所有小變形塊上（圖6）都表現(xiàn)出了理想性能。

6 How Well ViTs Track Objects?

目標跟蹤需要在一個視頻中識別同一目標實例在不同幀之間。在本節(jié)中分析了塊嵌入的魯棒性, 因為目標會經(jīng)歷外觀變化。

作者在MOT17數(shù)據(jù)集上重復實驗, 并看到類似的行為。對比學習方法在基于Mask圖像建模的 ViTs上明顯優(yōu)于ViTs。結(jié)果見附錄A.3。

7 Conclusion and Limitations

作者對自監(jiān)督ViT模型提取的局部塊嵌入的質(zhì)量及其屬性進行了全面的分析和比較。作者觀察到，對比學習基礎的DINO系列在監(jiān)督和Mask圖像建模方法上都優(yōu)于其他方法。此外，作者識別并研究了MAE的低kNN分類性能，限制了其在沒有微調(diào)的情況下的使用。作者發(fā)現(xiàn)，具有相對較高方差的特征對塊分類或檢索任務不具有信息量，而它們的刪除可以提高kNN性能，同時不影響線性檢測。

局限性。?由于計算成本高，作者無法重新訓練網(wǎng)絡，從而無法分析在討論的視覺 Transformer （ViTs）中的架構選擇或損失組成部分。因此，作者的比較僅限于現(xiàn)有的預訓練網(wǎng)絡。

The Choice of Self-supervised Vision Transformers

作者使用了以下預訓練視覺 Transformer 進行作者的分析。

DINO是一個自監(jiān)督的視覺 Transformer ，它利用一個自蒸餾（學生-老師）框架。相同圖像的不同增強版本通過老師網(wǎng)絡和學生網(wǎng)絡，學生網(wǎng)絡被優(yōu)化為產(chǎn)生與老師相同的[CLS]向量。然后，老師權重從學生的權重中使用指數(shù)移動平均進行更新。

Mask自動編碼器（MAE）是一種用于重建原始圖像的模型，它利用部分觀測進行訓練。在訓練過程中，輸入圖像的大隨機部分被遮擋。只有可見的塊被編碼器應用。一個相對輕量級的解碼器將編碼器的輸出作為輸入，并將[MASK]Token作為被遮擋的塊的輸入，并嘗試重建原始圖像。作者使用預訓練的編碼器作為塊的特征提取器。

SimMIM是另一個使用Mask圖像建模的視覺 Transformer 框架。與MAE的主要區(qū)別在于，SimMIM在編碼器輸出之上使用了一個簡單的線性解碼器。

在一個實驗中，作者分析了iBOT，這是另一個老師-學生框架，它還針對學生網(wǎng)絡遮擋了一些塊。除了DINO的目標之外，它還有一個損失項，強迫學生網(wǎng)絡在未遮擋圖像上生成與老師相似的被遮擋塊的塊表示。

DINOv2是iBOT的一個較新的擴展，它在一個更大的數(shù)據(jù)集上進行訓練。該數(shù)據(jù)集包括來自ImageNet-2，Mapillary SLS和Google Landmarks v2的1700萬張圖像，以及從大量網(wǎng)絡爬取圖像中檢索的1250萬張相似于預選的27個公開可用數(shù)據(jù)集的圖像。主模型具有超過10億參數(shù)，這迫使作者使用多種正則化技術來穩(wěn)定訓練。他們還提供了主模型的精餾版本，這是作者工作中使用的版本。

最后，作者使用一個在ImageNet-1k上訓練的帶有圖像級標簽的監(jiān)督 Baseline 。在[CLS]Token之上訓練了一個線性層。在本論文中，它將被稱為監(jiān)督ViT。

所有方法都應用于多種大小的ViTs。在本工作中只關注一個對所有方法都可用的大小：ViT-B/16，它有8600萬個參數(shù)。DINOv2是唯一沒有ViT-B/16版本的模型。相反，作者使用了最接近的一個：ViT-B/14，它是從ViT-g/14模型中提煉出來的。這是DINOv2與其他方法之間的另一個區(qū)別：塊稍小，圖像大小為224x224px的圖像有更大的DINOv2塊數(shù)量。

這些模型在預訓練期間使用的數(shù)據(jù)增強類型也有所不同。MAE只使用了簡單的縮放和翻轉(zhuǎn)。DINO還額外使用了顏色抖動和模糊，并且在老師和學生網(wǎng)絡之間存在一些差異。監(jiān)督ViT使用RandAugment的一部分技巧，并使用了Mixup。DINOv2的增強方法類似于DINO。更多信息可以在表1中找到。

作者將圖像傳遞給這些ViTs，并從第12層提取所有塊嵌入。所有ViTs在這些嵌入之上應用層歸一化[1]。為了保持一致性，作者在提取ViTs內(nèi)部層的嵌入時也應用層歸一化。

Data Augmentations used in ViTs

作者測試的所有ViTs在預訓練階段都使用了數(shù)據(jù)增強。在本節(jié)中, 作者將討論使用的不同增強策略之間的差異。

在DINO和DINOv2中, 一張圖像被裁剪成兩個全局裁剪或視圖, 用于老師網(wǎng)絡, 多個局部視圖用于學生網(wǎng)絡。它們?yōu)椴煌囊晥D應用不同的增強。MAE只應用裁剪增強。請參閱表1以獲取更多信息。對于縮放裁剪, 所有模型都選擇 224 作為輸出大小。

監(jiān)督ViT采用了以下技術進行數(shù)據(jù)增強。

在表1中, 作者總結(jié)了增強的詳細信息。

Results on more datasets

作者還在ADE20K上進行了塊分類實驗。如表2所示，各種ViTs在k-NN和線性檢測設置下的排名相似。

圖9顯示了在MOT17數(shù)據(jù)集上進行跟蹤實驗的結(jié)果。

Statistics of the Few-shot Version of FAIR1M Dataset

作者創(chuàng)建了FAIR1M訓練集的一個子集，確保每個細粒度目標類別至少出現(xiàn)8張圖像。作者將原始圖像裁剪成224x224像素的塊，并為每個塊保留包含的目標類別列表。作者定義類別A在塊中存在，如果至少有一個類型為A的旋轉(zhuǎn)邊界框，其面積至少為塊的1/3。對于每個細粒度類別，作者選擇了包含該類別的8張圖像。然后作者從隊列中刪除這些圖像，并繼續(xù)處理下一個目標類別。這樣作者收集了37x8-1圖像，因為有一個特定的細粒度類別（_bus_）只有7個塊。

表3顯示了作者的295張圖像的每個類別的塊數(shù)。請注意，DINOv2每個圖像有256個塊，而其他所有模型每個圖像有196個塊。

Reconstruction Error Analysis for MAE

為了理解MAE的高方差特征中存儲了什么信息，如果刪除它們不會損害塊分類或塊檢索性能，作者進行了圖像重建實驗。假設被刪除的特征在某些重建屬性中發(fā)揮了作用。使用MAE的預訓練解碼器在兩種設置下進行實驗：當沒有塊被遮擋時，以及當75%的塊被遮擋時。

如表4所示，當高方差特征用零填充時，重建指標略有惡化。這表明這些特征包含關于如何重構圖像的知識，但對于大多數(shù)其他下游任務并不是必要的。使用均方誤差（MSE）、峰值信噪比（PSNR）和結(jié)構相似性指數(shù)（SSIM）指標評估重建準確性。

Frequency Noise Computation

在圖3中展示了一些針對各種降質(zhì)（包括基于頻率的隨機噪聲）的降解分析及其結(jié)果。在本節(jié)中將簡要介紹這些實驗并說明它們的設置。

Additional Experiments on FAIR1M

a.7.1 DINO vs. iBOT vs. DINOv2

第5節(jié)中最令人驚訝的結(jié)果是，與DINOv2相比，DINO表示在給定一個損壞的塊時，檢索最接近的塊方面表現(xiàn)更好。DINOv2與DINO之間存在一系列差異，這些差異可以分為兩類：與損失項相關的差異和與模型和數(shù)據(jù)集規(guī)模的差異相關的差異。DINOv2的新的塊級損失項首次出現(xiàn)在iBOT中。

在這里在iBOT上進行了與DINO和DINOv2相同的實驗，以比較它們。如圖11所示，iBOT至少與DINO一樣好。這意味著新的損失項不能歸因于DINOv2的檢索性能較差。

Discussion on Tiling

有許多處理這種圖像的方法, 包括將它們縮放到較小的尺寸, 將它們分割成較小的塊進行實驗 (然后將這些塊組合在一起以重構原始圖像大小), 或者強迫ViT處理完整的圖像, 通過插值位置嵌入。將圖像分割成較小的塊的風險是, 較小的塊可能會失去圖像的全局上下文, 這在 Transformer 架構中是一個重要因素。在本文的所有實驗中, 作者選擇了塊化方法。在這里,作者探索使用完整尺寸圖像的影響。?

a.8.1 Cityscapes

總之, 盡管預期圖像的全局上下文會包含更多的信息, 但輸入大小對性能的降解太強了。

a.8.2 Tracking

作者還進行了類似的實驗來研究目標跟蹤設置。請注意，在這個設置中將所有邊界框內(nèi)的塊表示進行平均。如果目標被分成多個相同圖像的塊，則平均發(fā)生在來自不同塊的塊表示上。

如圖12所示，作者看到了DINO和DINOv2對于分塊圖像的上述現(xiàn)象，塊化圖像表現(xiàn)更好。對于MAE，作者看到了一個令人驚訝的結(jié)果，從完整圖像的塊表示中提取的目標表示表現(xiàn)更好。請注意，本文中所有目標跟蹤實驗的結(jié)果都是在BDD-100k數(shù)據(jù)集中的4個視頻中報告的。

Sample Predictions on Cityscapes

在圖13中展示了基于本文中使用的ViTs進行語義分割的結(jié)果。作者固定了Cityscapes數(shù)據(jù)集中的兩個圖像。第一和第三張圖展示了原始圖像及其對應的原始Mask，第二和第四張圖分別展示了ViTs對于對應實例的語義分割Mask。第一行第一列到第三列和第五列到第七列分別對應k-NN預測和線性檢測預測的語義分割Mask。

在這些圖中可以定性確認作者的觀察結(jié)果，即MAE幾乎完全無法正確分割k-NN預測的塊。然而，它的性能與線性檢測相當。作者還觀察到，去掉MAE中最大方差前200個特征后的MAE在k-NN預測方面的性能超過MAE，并且與線性檢測預測的MAE幾乎相同。正如作者所預期的，DINO和DINOv2在定性上優(yōu)于所有其他方法。

#Morph Studio

“發(fā)光的水母從海洋中慢慢升起，”在 Morph Studio 中繼續(xù)輸入想看到的景象，“在夜空中變成閃閃發(fā)光的星座”。??文生視頻“黑馬”來襲：好用、1080P 、7秒時長還免費

幾分鐘后，Morph Studio 生成一個短視頻。一只水母通體透明，閃閃發(fā)光，一邊旋轉(zhuǎn)著一邊上升，搖曳的身姿與夜空繁星相映成趣。??

視頻發(fā)不了...

輸入“ joker cinematic ”，曾經(jīng)席卷全球的那張臉又回來了。

近期，專注于 text-to-video 生成技術與社區(qū)的初創(chuàng)公司 Morph Studio 對模型進行了一次重要更新。這些視頻正是模型更新后的作品，畫面清晰，細節(jié)生動。??

Morph Studio 是世界第一個推出公眾可隨意測試 text-to-video 產(chǎn)品的團隊，比 Runway 開放 Gen2 公測的時間還早。??

和一些炙手可熱的 text-to-video 產(chǎn)品僅提供 720P 的免費服務不同，Morph Studio 從一開始就提供默認 1080P 以及最長 7 秒生成時間的免費服務。更高分辨率、更長生成時長、更好的意圖表達是我們認為 text-to-video 的三個最關鍵的指標，三個指標上 Morph 都做到了行業(yè) SOTA 。?

好萊塢電影單鏡頭平均時長有 6 秒，將生成時長拉到 7 秒可以解鎖更多用戶的創(chuàng)作需求。?

體驗 Morph Studio 的模型很簡單，注冊 discord 即可免費使用。

畫面紅色方框部分中帶有“pro”字樣的模型就是更新后的模型，也是本文體驗的對象。?

攝像機運動是視頻制作的基礎語言，也是一種強大的敘述手段。Morph 提供幾種常規(guī)的攝像機語言，包括變焦、平移（上、下、左、右）、旋轉(zhuǎn)（順時針或逆時針）和靜態(tài)鏡頭。??

Morph 還提供控制視頻運動的 MOTION 功能（1-10）。數(shù)值越大動作越劇烈、夸張，設置的數(shù)值越小，動作越微妙、平滑。?

幀率（FPS）提供從8 -30 的調(diào)整幅度，值越高，視頻越流暢，尺寸也越大。例如，-FPS 30 將生成最流暢但也是最大的視頻。默認情況下，所有視頻均以每秒 24 幀的速度創(chuàng)建。??

視頻長度默認為 3 秒，生成 7 秒視頻，可以在命令中輸入 -s 7。另外，模型還提供 5 種視頻比例供選擇。

如果你對鏡頭、幀率和視頻長度等細節(jié)有要求，請在輸入內(nèi)容性提示后繼續(xù)輸入相應參數(shù)。（目前僅支持英文輸入。）??

我們體驗了一把更新后的模型服務，強烈感受到 1080P 帶來的視覺震撼。?

直到最近，人類才有了第一張雪豹在星空下漫步的照片：??

人類拍攝到的第一張雪豹在星空下漫步的照片?。

我們想知道，Morph Studio 的模型能不能生成這種比較罕見的動物視頻呢？

同樣的 prompt ，我們將?Morph Studio?的作品放在了視頻上部分，將用?Pika?生成的作品放在視頻下部分。

Morph Studio 的答卷，文本理解準確。1080P 畫面中，雪豹毛發(fā)細節(jié)豐富，栩栩如生。背景中可以看到銀河和星星。不過雪豹走動幅度不明顯。??

Pika 的作業(yè)中，雪豹確實在步行，但夜空似乎被理解成飄著鵝毛大雪的夜。無論是雪豹風格還是細節(jié)，還有畫面清晰度都還有差距。

再看看人物生成的效果。

Morph Studio 生成的作品中，高分辨率帶來極為細膩的面部輪廓和微表情，黎明光照下，發(fā)絲細節(jié)清晰可見。

受制于分辨率和色彩、光線層次的缺乏，Pika 生成的畫面整體偏青，人物面部細節(jié)也不太盡如人意。

人物、動物都感受過了，再來看看建筑（人造物）的生成效果。

和 Pika 作品更偏繪畫質(zhì)感的畫面相比，Morph Studio 的作品比較好地平衡了梵高元素和現(xiàn)實元素，光線層次非常豐富，特別是云海的流動細節(jié)，Pika 作品里的天空幾乎是靜止的。

最后，體驗一下自然風景創(chuàng)作。

你可能會懷疑?Morph Studio 的作品是不是人類攝影師在自然條件下的真實拍攝。

Pika?生成的視頻因為缺乏細膩的光影層次，海浪、沙灘顯得平板一塊，海浪拍打沙灘的動作比較呆板。

除了高分辨率帶來的震撼體驗，同樣的 prompt 生成視頻（比如動物、建筑、人物和自然風景主題），對手多少會在某些生成任務中“失手”，Morph Studio 的發(fā)揮相對更穩(wěn)定一些，corner case 相對少一些，能更準確預測用戶意圖。?

從一開始，這家初創(chuàng)公司對文生視頻的理解就是，視頻要能非常精準地描述用戶輸入，所有優(yōu)化工作也是朝著這個方向在走。Morph Studio 的模型結(jié)構對文字意圖理解比較深刻，這次更新做了一些結(jié)構上的改變，還特地對一些數(shù)據(jù)做了更詳盡的標注。?

除了比較好的文本理解能力，畫面的細節(jié)處理并未被高分辨率輸出難倒。?事實上，模型更新后，畫面動作內(nèi)容更豐富，這也反應在我們用 Morph Studio 生成的作品中。

1080P 意味著模型要處理更多的像素，給細節(jié)生成帶來更大的挑戰(zhàn)，但從結(jié)果看，畫面不但沒有拉垮掉，反而因為豐富的層次細節(jié)而更有表現(xiàn)力。

這是我們用模型生成的一組自然景觀，既有壯觀的巨浪和火山噴發(fā)，也有花朵的細膩特寫。

高分辨率輸出給用戶帶來更好的視覺享受，但也拉長了模型輸出的時間，影響到體驗。??

Morph Studio 現(xiàn)在生成速度為 3 分半生成 1080p 視頻，和 Pika 生成 720P 的視頻速度一樣。?初創(chuàng)公司算力資源有限，Morph Studio 一直保持 SOTA，實屬不易。?

另外，視頻風格上，除了電影寫實，Morph Studio 模型也支持漫畫、3D 動畫等常見風格。

Morph Studio ?專注的 text-to-video 技術，被視為 AI 行業(yè)競賽的下一個階段。?

“即時視頻可能代表 AI 技術的下一次飛躍，”《紐約時報》在一篇科技報道的標題中稱，并認為它將與網(wǎng)絡瀏覽器、iPhone 一樣重要。??

2022 年 9 月，Meta 的機器學習工程師團隊推出了一款名為 Make-A-Video 的新系統(tǒng)，用戶輸入對場景的粗略描述，系統(tǒng)就會生成一個對應的短視頻。??

2022 年 11 月，清華大學和北京人工智能研究院（ BAAI ）的研究人員也發(fā)布了 CogVideo。??

當時，這些模型生成的視頻，除了模糊（比如 CogVideo 生成的視頻分辨率只有 480 x 480 ），畫面也比較失真，還存在許多技術限制。但它們?nèi)匀淮砹?AI 內(nèi)容生成領域的重大發(fā)展。?

表面上看，視頻只是一連串的幀（靜止的圖像）以一種給人運動錯覺的方式組合在一起。然而，保證一系列圖像在時間、空間上的一致性，難度要大得多。?

擴散模型的出現(xiàn)加速了技術的進化。研究人員嘗試將擴散模型推廣到其他領域（如音頻、3D 和視頻），視頻合成技術取得顯著進步。??

基于擴散模型的技術主要是讓神經(jīng)網(wǎng)絡通過梳理數(shù)海量規(guī)模的圖像、視頻和文字說明，自動學習一些模式。當你輸入內(nèi)容需求時，這個神經(jīng)網(wǎng)絡會生成一個列表，囊括所有它認為創(chuàng)建圖像可能用到的特征（比如貓耳朵的輪廓、手機的邊緣）。??

然后，第二個神經(jīng)網(wǎng)絡（也就是擴散模型）負責創(chuàng)建圖像并生成這些特征所需要的像素，并將像素轉(zhuǎn)換為連貫的圖像。??

通過分析數(shù)以千計的視頻，AI 可以學會以類似的連貫方式將許多靜止圖像串在一起。關鍵在于要訓練一個能真正理解每一幀之間關系和一致性的模型。??

“這是我們在過去一百年中建立的最令人印象深刻的技術之一，” Runway CEO Cristóbal Valenzuela 曾對媒體表示，“你需要讓人們真正使用它?！??

2023 年被一些業(yè)內(nèi)人士視為視頻合成的突破之年。1 月還不見公開的? text-to-video 模型，一年行將結(jié)束之際已經(jīng)有幾十個類似產(chǎn)品和數(shù)百萬用戶。??

a16z合伙人Justine Moore在社交平臺上分享的文生視頻模型的時間軸，我們可以從中看到除了大廠還有很多創(chuàng)業(yè)公司，另外，技術迭代的速度非?？?。??

目前的 AI 文生視頻，并沒有形成類似 LLM 統(tǒng)一明確的技術范式，關于怎樣生成穩(wěn)定的視頻，業(yè)界還處于探索階段。但研究人員相信，當用越來越多的數(shù)據(jù)訓練他們的系統(tǒng)時，這些缺陷都能消除。最終，這項技術會使創(chuàng)建視頻像寫句子一樣簡單。??

國內(nèi)一位資深的 AI 行業(yè)投資人告訴我們，文生視頻技術的幾篇最重要的論文都是 2022 年 7-8 月出來的，類比文生圖的產(chǎn)業(yè)化進程，這項技術臨近產(chǎn)業(yè)化的節(jié)點會出現(xiàn)在一年后，也就是 2023 年 7-8 月。??

整個視頻技術的發(fā)展特別快，技術越來越成熟，這位投資人士說，根據(jù)之前在 GAN 領域的投資經(jīng)驗，他們預測未來半年到 1 年會是 text-to-video 技術的產(chǎn)品化時期。?

Morph 團隊匯集了視頻生成領域最優(yōu)秀的年輕研究者們，經(jīng)過過去一年日以繼夜地密集研發(fā)，創(chuàng)始人徐懷哲與聯(lián)合創(chuàng)始人李峰、殷子欣、趙世豪、劉少騰等核心技術骨干一起，攻克了 AI 視頻生成難題。?

除了技術團隊外，Morph Studio 最近也加強了其產(chǎn)品團隊的實力，貓眼電影簽約制作人、上海國際電影節(jié)評委，前硅谷頭部 AIGC 公司核心成員海辛也于近期加入 Morph Studio。

海辛表示，Morph Studio 在技術研究上在整個行業(yè)里都占據(jù)著領先的位置；團隊扁平、溝通效率和執(zhí)行力都特別高；每位成員都對行業(yè)充滿熱情。她最大的夢想曾是加入一個動畫公司。AI 時代來臨后，她很快意識到，未來的動畫行業(yè)將會發(fā)生變革，過去數(shù)十年動畫底座是 3D 引擎，很快將迎來全新的 AI 引擎時代。未來的皮克斯會在一家 AI 公司中誕生。而 Morph 就是她的選擇。?

創(chuàng)始人徐懷哲表示，Morph 正在積極布局 AI 視頻賽道，我們立志于做 AI 視頻時代的 Super App，為用戶實現(xiàn)夢境。

2024 年，這個賽道會迎來自己的 Midjourney 時刻，他補充說。?

PS: 體會原汁原味的免費1080P視頻生成樂趣，請移步至：

??https://discord.com/invite/VVqS8QnBkA???

查看全文

http://www.risenshineclean.com/news/6594.html