當(dāng)前位置：首頁(yè) > news >正文

網(wǎng)站策劃做營(yíng)銷推廣廣告營(yíng)銷

news 2025/7/4 13:41:42

網(wǎng)站策劃做營(yíng)銷推廣,廣告營(yíng)銷,各大網(wǎng)站搜索引擎,好孩子官方網(wǎng)站王建設(shè)摘要 https://arxiv.org/pdf/2205.01529 知識(shí)蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過(guò)模仿教師的輸出來(lái)提高學(xué)生的性能。本文表明，教師還可以通過(guò)指導(dǎo)學(xué)生的特征恢復(fù)來(lái)提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā)，我們提出了掩碼生成蒸餾&#xff08…

摘要

https://arxiv.org/pdf/2205.01529
知識(shí)蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過(guò)模仿教師的輸出來(lái)提高學(xué)生的性能。本文表明，教師還可以通過(guò)指導(dǎo)學(xué)生的特征恢復(fù)來(lái)提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā)，我們提出了掩碼生成蒸餾（Masked Generative Distillation，MGD），該方法很簡(jiǎn)單：我們隨機(jī)掩碼學(xué)生的特征像素，并通過(guò)一個(gè)簡(jiǎn)單的塊強(qiáng)迫其生成教師的完整特征。MGD是一種真正通用的基于特征的蒸餾方法，可用于各種任務(wù)，包括圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割。我們?cè)诓煌Ｐ秃蛷V泛的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，結(jié)果表明所有學(xué)生都取得了顯著的改進(jìn)。特別地，我們將ResNet-18在ImageNet上的top-1準(zhǔn)確率從69.90%提高到71.69%，將基于ResNet-50骨干的RetinaNet的Boundingbox mAP從37.4提高到41.0，將基于ResNet-50的SOLO的Mask mAP從33.1提高到36.2，以及將基于ResNet-18的DeepLabV3的mIoU從73.20提高到76.02。我們的代碼已公開(kāi)在https://github.com/yzd-v/MGD。

關(guān)鍵詞：知識(shí)蒸餾，圖像分類，目標(biāo)檢測(cè)，語(yǔ)義分割，實(shí)例分割

1、引言

深度卷積神經(jīng)網(wǎng)絡(luò)（CNNs）已被廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)任務(wù)。通常，較大的模型具有更好的性能但推理速度較慢，這使得在資源有限的情況下難以部署。為了克服這一問(wèn)題，提出了知識(shí)蒸餾技術(shù)[18]。根據(jù)蒸餾發(fā)生的位置，它可以分為兩類。第一類是專門(mén)為不同任務(wù)設(shè)計(jì)的，例如，基于logits的蒸餾[18,40]用于分類任務(wù)和基于頭部的蒸餾[10,39]用于檢測(cè)任務(wù)。第二類是基于特征的蒸餾[28,17,4]。由于各種網(wǎng)絡(luò)之間僅在特征之后的頭部或投影器上存在差異，理論上，基于特征的蒸餾方法可以在各種任務(wù)中使用。然而，為特定任務(wù)設(shè)計(jì)的蒸餾方法通常在其他任務(wù)中不可用。例如，OFD[17]和KR[4]對(duì)檢測(cè)器的改進(jìn)有限。FKD[37]和FGD[35]是專門(mén)為檢測(cè)器設(shè)計(jì)的，由于缺少頸部結(jié)構(gòu)，無(wú)法在其他任務(wù)中使用。

先前的基于特征的蒸餾方法通常讓學(xué)生盡可能地模仿教師的輸出，因?yàn)榻處煹奶卣骶哂懈鼜?qiáng)的表示能力。然而，我們認(rèn)為，為了提高學(xué)生的特征表示能力，并不需要直接模仿教師。用于蒸餾的特征通常是通過(guò)深度網(wǎng)絡(luò)提取的高階語(yǔ)義信息。特征像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此，如果我們能夠通過(guò)一個(gè)簡(jiǎn)單的模塊使用部分像素來(lái)恢復(fù)教師的完整特征，那么這些使用的像素的表示能力也會(huì)得到提高。從這一點(diǎn)出發(fā)，我們提出了掩碼生成蒸餾（Masked Generative Distillation，MGD），這是一種簡(jiǎn)單且高效的基于特征的蒸餾方法。如圖2所示，我們首先隨機(jī)掩碼學(xué)生的特征像素，然后通過(guò)一個(gè)簡(jiǎn)單的模塊使用掩碼后的特征來(lái)生成教師的完整特征。由于在每次迭代中都使用隨機(jī)像素，訓(xùn)練過(guò)程中會(huì)用到所有像素，這意味著特征將更具魯棒性，并且其表示能力也會(huì)得到提高。在我們的方法中，教師僅作為指導(dǎo)學(xué)生恢復(fù)特征的指南，并不要求學(xué)生直接模仿它。
在這里插入圖片描述

為了驗(yàn)證我們的假設(shè)，即在不直接模仿教師的情況下，通過(guò)掩碼特征生成可以提高學(xué)生的特征表示能力，我們對(duì)學(xué)生和教師頸部特征的注意力進(jìn)行了可視化。如圖1所示，學(xué)生和教師的特征差異很大。與教師相比，學(xué)生特征在背景區(qū)域的響應(yīng)更高。教師的mAP也顯著高于學(xué)生，為41.0%對(duì)37.4%。在使用最先進(jìn)的蒸餾方法FGD[35]進(jìn)行蒸餾后，該方法強(qiáng)制學(xué)生模仿教師特征的注意力，學(xué)生的特征變得更接近教師，mAP也大幅提高到40.7%。然而，在使用MGD進(jìn)行訓(xùn)練后，盡管學(xué)生和教師的特征之間仍然存在顯著差異，但學(xué)生對(duì)背景的響應(yīng)大大降低。我們也驚訝地發(fā)現(xiàn)，學(xué)生的性能超過(guò)了FGD，甚至達(dá)到了與教師相同的mAP。這也表明使用MGD進(jìn)行訓(xùn)練可以提高學(xué)生特征的表示能力。
在這里插入圖片描述

此外，我們還在圖像分類和密集預(yù)測(cè)任務(wù)上進(jìn)行了豐富的實(shí)驗(yàn)。結(jié)果顯示，MGD可以為各種任務(wù)帶來(lái)顯著的改進(jìn)，包括圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割。MGD還可以與其他基于logits或頭部的蒸餾方法結(jié)合使用，以獲得更大的性能提升。

綜上所述，本文的貢獻(xiàn)如下：

我們?yōu)榛谔卣鞯闹R(shí)蒸餾引入了一種新方法，使學(xué)生通過(guò)其掩碼特征生成教師的特征，而不是直接模仿。
我們提出了一種新穎的基于特征的蒸餾方法——掩碼生成蒸餾（MGD），該方法簡(jiǎn)單易用，僅包含兩個(gè)超參數(shù)。
我們通過(guò)在不同數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了該方法在各種模型上的有效性。對(duì)于圖像分類和密集預(yù)測(cè)任務(wù)，使用MGD的學(xué)生都取得了顯著的改進(jìn)。

2、相關(guān)工作

2.1、分類中的知識(shí)蒸餾

知識(shí)蒸餾最初由Hinton等人提出[18]，其中學(xué)生模型不僅受到真實(shí)標(biāo)簽的監(jiān)督，還受到教師模型最后線性層產(chǎn)生的軟標(biāo)簽的監(jiān)督。然而，除了基于logits的蒸餾方法外，更多蒸餾方法是基于特征圖的。FitNet[28]從中間層提取語(yǔ)義信息進(jìn)行蒸餾。AT[36]匯總通道維度上的值，并將注意力知識(shí)傳遞給學(xué)生模型。OFD[17]提出了邊際ReLU，并設(shè)計(jì)了一種新的函數(shù)來(lái)衡量蒸餾中的距離。CRD[30]利用對(duì)比學(xué)習(xí)將知識(shí)傳遞給學(xué)生。最近，KR[4]建立了一個(gè)回顧機(jī)制，并利用多級(jí)信息進(jìn)行蒸餾。SRRL[33]將表示學(xué)習(xí)和分類解耦，利用教師模型的分類器來(lái)訓(xùn)練學(xué)生模型的倒數(shù)第二層特征。WSLD[40]從偏差-方差權(quán)衡的角度提出了加權(quán)軟標(biāo)簽用于蒸餾。

2.2、密集預(yù)測(cè)的知識(shí)蒸餾

分類與密集預(yù)測(cè)之間存在很大差異。許多針對(duì)分類的知識(shí)蒸餾方法在密集預(yù)測(cè)上失敗了。理論上，基于特征的知識(shí)蒸餾方法應(yīng)該對(duì)分類和密集預(yù)測(cè)任務(wù)都有幫助，這也是我們方法的目標(biāo)。

對(duì)象檢測(cè)的知識(shí)蒸餾。Chen等人[1]首先在檢測(cè)器的頸部和頭部計(jì)算蒸餾損失。對(duì)象檢測(cè)中蒸餾的關(guān)鍵在于由于前景和背景之間的極端不平衡，應(yīng)該在哪里進(jìn)行蒸餾。為了避免從背景中引入噪聲，FGFI[31]利用細(xì)粒度掩碼來(lái)蒸餾物體附近的區(qū)域。然而，Defeat[13]指出前景和背景的信息都很重要。GID[10]選擇學(xué)生和教師表現(xiàn)不同的區(qū)域進(jìn)行蒸餾。FKD[37]使用教師和學(xué)生的注意力之和來(lái)使學(xué)生關(guān)注可變區(qū)域。FGD[35]提出了焦點(diǎn)蒸餾，迫使學(xué)生學(xué)習(xí)教師的關(guān)鍵部分，以及全局蒸餾，以彌補(bǔ)缺失的全局信息。

語(yǔ)義分割的知識(shí)蒸餾。Liu等人[23]提出了成對(duì)和整體蒸餾，強(qiáng)制學(xué)生和教師的輸出之間保持成對(duì)和高階一致性。He等人[16]將教師網(wǎng)絡(luò)的輸出重新解釋為重新表示的潛在域，并從教師網(wǎng)絡(luò)中捕獲長(zhǎng)期依賴關(guān)系。CWD[29]最小化了通過(guò)歸一化每個(gè)通道的激活圖計(jì)算得到的概率圖之間的Kullback-Leibler（KL）散度。

3、方法

不同任務(wù)的模型架構(gòu)差異很大。此外，大多數(shù)蒸餾方法都是為特定任務(wù)設(shè)計(jì)的。然而，基于特征的知識(shí)蒸餾可以應(yīng)用于分類和密集預(yù)測(cè)?；谔卣髡麴s的基本方法可以表示為：

$L_{\text{fea}} = \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(F_{k, i, j}^{T} - f_{\text{align}}\left(F_{k, i, j}^{S}\right)\right)^{2}$

其中， $F^{T}$ 和 $F^{S}$ 分別表示教師和學(xué)生的特征，而 $f_{\text{align}}$ 是適配層，用于將學(xué)生特征 $F^{S}$ 與教師特征 $F^{T}$ 對(duì)齊。C、H、W 表示特征圖的形狀。

這種方法有助于學(xué)生直接模仿教師的特征。然而，我們提出了掩碼生成蒸餾（MGD），其目標(biāo)在于迫使學(xué)生生成教師的特征，而不是簡(jiǎn)單地模仿它，從而在分類和密集預(yù)測(cè)方面都為學(xué)生帶來(lái)顯著改進(jìn)。MGD的架構(gòu)如圖2所示，我們將在本節(jié)中詳細(xì)介紹它。

3.1、使用掩碼特征的生成

對(duì)于基于CNN的模型，深層特征具有較大的感受野和更好的原始輸入圖像表示。換句話說(shuō)，特征圖像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此，我們可以使用部分像素來(lái)恢復(fù)完整的特征圖。我們的方法旨在通過(guò)學(xué)生的掩碼特征生成教師的特征，這有助于學(xué)生實(shí)現(xiàn)更好的表示。

我們分別用 $T^{l} \in R^{C \times H \times W}$ 和 $S^{l} \in R^{C \times H \times W} (l=1, \ldots, L)$ 表示教師和學(xué)生的第 $l$ 層特征圖。首先，我們?cè)O(shè)置第 $l$ 個(gè)隨機(jī)掩碼來(lái)覆蓋學(xué)生的第 $l$ 層特征，可以表示為：

$M_{i, j}^{l}=\left\{ \begin{array}{ll} 0, & \text{如果 } R_{i, j}^{l}<\lambda \\ 1, & \text{其他情況} \end{array} \right.$

其中 $R_{i, j}^{l}$ 是一個(gè)在 $(0, 1)$ 范圍內(nèi)的隨機(jī)數(shù)， $i, j$ 分別是特征圖的橫縱坐標(biāo)。 $\lambda$ 是一個(gè)超參數(shù)，表示掩碼比例。第 $l$ 層特征圖被第 $l$ 個(gè)隨機(jī)掩碼覆蓋。

然后，我們使用相應(yīng)的掩碼來(lái)覆蓋學(xué)生的特征圖，并嘗試用剩下的像素生成教師的特征圖，可以表示為：

$\begin{array}{c} \mathcal{G}\left(f_{\text{align}}\left(S^{l}\right) \cdot M^{l}\right) \longrightarrow T^{l} \\ \mathcal{G}(F) = W_{l 2}\left(\text{ReLU}\left(W_{l 1}(F)\right)\right) \end{array}$

$\mathcal{G}$ 表示投影層，包括兩個(gè)卷積層 $W_{l 1}$ 和 $W_{l 2}$ ，以及一個(gè)激活層 ReLU。在本文中，我們?yōu)檫m配層 $f_{\text{align}}$ 采用 $\times 1$ 卷積層，為投影層 $W_{l 1}$ 和 $W_{l 2}$ 采用 $\times 3$ 卷積層。

根據(jù)這種方法，我們?yōu)镸GD設(shè)計(jì)了蒸餾損失 $L_{\text{dis}}$ ：

$L_{\text{dis}}(S, T) = \sum_{l=1}^{L} \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(T_{k, i, j}^{l} - \mathcal{G}\left(f_{\text{align}}\left(S_{k, i, j}^{l}\right) \cdot M_{i, j}^{l}\right)\right)^{2}$

其中 $L$ 是進(jìn)行蒸餾的層數(shù)總和， $C, H, W$ 表示特征圖的形狀。 $S$ 和 $T$ 分別表示學(xué)生和教師的特征。

3.2、總損失

在提出用于MGD的蒸餾損失 $L_{\text{dis}}$ 之后，我們使用總損失來(lái)訓(xùn)練所有模型，具體形式如下：

$L_{\text{all}} = L_{\text{original}} + \alpha \cdot L_{\text{dis}}$

其中 $L_{\text{original}}$ 是所有任務(wù)中模型的原始損失，而 $\alpha$ 是一個(gè)超參數(shù)，用于平衡兩種損失。

MGD 是一種簡(jiǎn)單而有效的蒸餾方法，可以很容易地應(yīng)用于各種任務(wù)。我們的方法流程在算法1中進(jìn)行了總結(jié)。

在這里插入圖片描述

4、主要實(shí)驗(yàn)

MGD 是一種基于特征的蒸餾方法，可以輕松應(yīng)用于不同模型和各種任務(wù)。在本文中，我們?cè)诎ǚ诸悺⒛繕?biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割在內(nèi)的各種任務(wù)上進(jìn)行了實(shí)驗(yàn)。我們針對(duì)不同任務(wù)使用了不同的模型和數(shù)據(jù)集，并且所有模型在使用 MGD 后都取得了顯著的改進(jìn)。

4.1、分類

數(shù)據(jù)集。對(duì)于分類任務(wù)，我們?cè)?ImageNet[11] 上評(píng)估了我們的知識(shí)蒸餾方法，它包含了 1000 個(gè)對(duì)象類別。我們使用 120 萬(wàn)張圖像進(jìn)行訓(xùn)練，并使用 50k 張圖像進(jìn)行所有分類實(shí)驗(yàn)的測(cè)試。我們使用準(zhǔn)確率來(lái)評(píng)估模型。

實(shí)現(xiàn)細(xì)節(jié)。對(duì)于分類任務(wù)，我們?cè)谥鞲删W(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。關(guān)于這一點(diǎn)的消融研究將在第 5.5 節(jié)中展示。MGD 使用一個(gè)超參數(shù) $\alpha$ 來(lái)平衡方程 6 中的蒸餾損失。另一個(gè)超參數(shù) $\lambda$ 用于調(diào)整方程 2 中的掩碼比例。我們?cè)谒蟹诸悓?shí)驗(yàn)中都采用了超參數(shù) $\left\{\alpha=7 \times 10^{-5}, \lambda=0.5\right\}$ 。我們使用 SGD 優(yōu)化器對(duì)所有模型進(jìn)行 100 個(gè)周期的訓(xùn)練，其中動(dòng)量設(shè)置為 0.9，權(quán)重衰減為 0.0001。我們初始化學(xué)習(xí)率為 0.1，并在每 30 個(gè)周期后衰減。這一設(shè)置基于 8 個(gè) GPU。實(shí)驗(yàn)是使用基于 Pytorch[26] 的 MMClassification[6] 和 MMRazor[7] 進(jìn)行的。

分類結(jié)果。我們針對(duì)分類任務(wù)進(jìn)行了兩種流行的蒸餾設(shè)置實(shí)驗(yàn)，包括同構(gòu)蒸餾和異構(gòu)蒸餾。第一種蒸餾設(shè)置是從 ResNet-34[15] 到 ResNet-18，另一種設(shè)置是從 ResNet-50 到 MobileNet[19]。如表 1 所示，我們將我們的方法與各種知識(shí)蒸餾方法[18, 36, 17, 25, 30, 4, 40, 33]進(jìn)行了比較，這些方法包括基于特征的方法、基于邏輯的方法以及它們的組合。使用我們的方法，學(xué)生模型 ResNet-18 和 MobileNet 的 Top-1 準(zhǔn)確率分別提高了 1.68 和 3.14。此外，如上所述，MGD 只需要在特征圖上計(jì)算蒸餾損失，并且可以與基于邏輯的其他圖像分類方法相結(jié)合。因此，我們嘗試在 WSLD[40] 中添加基于邏輯的蒸餾損失。通過(guò)這種方式，兩個(gè)學(xué)生模型分別達(dá)到了 71.80 和 72.59 的 Top-1 準(zhǔn)確率，分別再提高了 0.22 和 0.24。

在這里插入圖片描述

4.2、目標(biāo)檢測(cè)與實(shí)例分割

數(shù)據(jù)集。我們?cè)?COCO2017 數(shù)據(jù)集[22]上進(jìn)行了實(shí)驗(yàn)，該數(shù)據(jù)集包含 80 個(gè)對(duì)象類別。我們使用 120k 張訓(xùn)練圖像進(jìn)行訓(xùn)練，并使用 5k 張驗(yàn)證圖像進(jìn)行測(cè)試。模型的性能通過(guò)平均精度（Average Precision）進(jìn)行評(píng)估。

實(shí)現(xiàn)細(xì)節(jié)。我們?cè)陬i部（neck）的所有特征圖上計(jì)算蒸餾損失。對(duì)于所有單階段模型，我們采用超參數(shù) $\left\{\alpha=2 \times 10^{-5}, \lambda=0.65\right\}$ ；對(duì)于所有兩階段模型，我們采用超參數(shù) $\left\{\alpha=5 \times 10^{-7}, \lambda=0.45\right\}$ 。我們使用 SGD 優(yōu)化器對(duì)所有模型進(jìn)行訓(xùn)練，其中動(dòng)量設(shè)置為 0.9，權(quán)重衰減為 0.0001。除非另有說(shuō)明，我們訓(xùn)練模型 24 個(gè)周期。當(dāng)師生具有相同的頭結(jié)構(gòu)時(shí)，我們使用繼承策略[20, 35]，即用教師的頸部和頭部參數(shù)初始化學(xué)生的參數(shù)來(lái)訓(xùn)練學(xué)生。實(shí)驗(yàn)是基于 MMDetection[2] 進(jìn)行的。
在這里插入圖片描述

目標(biāo)檢測(cè)與實(shí)例分割結(jié)果。對(duì)于目標(biāo)檢測(cè)，我們?cè)谌N不同類型的檢測(cè)器上進(jìn)行了實(shí)驗(yàn)，包括兩階段檢測(cè)器（Faster RCNN[27]）、基于錨點(diǎn)的單階段檢測(cè)器（RetinaNet[21]）和無(wú)錨點(diǎn)單階段檢測(cè)器（RepPoints[34]）。我們將 MGD 與三種最新的檢測(cè)器蒸餾方法[37, 29, 35]進(jìn)行了比較。對(duì)于實(shí)例分割，我們?cè)趦蓚€(gè)模型上進(jìn)行了實(shí)驗(yàn)，即 SOLO[32] 和 Mask RCNN[14]。如表 2 和表 3 所示，我們的方法在目標(biāo)檢測(cè)和實(shí)例分割方面均超過(guò)了其他最先進(jìn)的方法。使用 MGD 的學(xué)生模型獲得了顯著的 AP 改進(jìn)，例如，基于 ResNet-50 的 RetinaNet 和 SOLO 在 COCO 數(shù)據(jù)集上分別獲得了 3.6 的 Boundingbox mAP 和 3.1 的 Mask mAP 提升。
在這里插入圖片描述

4.3、語(yǔ)義分割

數(shù)據(jù)集。對(duì)于語(yǔ)義分割任務(wù)，我們?cè)贑ityScapes數(shù)據(jù)集[9]上評(píng)估了我們的方法，該數(shù)據(jù)集包含5000張高質(zhì)量圖像（其中2975張用于訓(xùn)練，500張用于驗(yàn)證，1525張用于測(cè)試）。我們使用平均交并比（mIoU）來(lái)評(píng)估所有模型。

實(shí)現(xiàn)細(xì)節(jié)。對(duì)于所有模型，我們?cè)诠歉删W(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。我們?cè)谒袑?shí)驗(yàn)中都采用了超參數(shù) $\left\{\alpha=2 \times 10^{-5}, \lambda=0.75\right\}$ 。我們使用SGD優(yōu)化器訓(xùn)練所有模型，其中動(dòng)量設(shè)置為0.9，權(quán)重衰減為0.0005。我們?cè)?個(gè)GPU上運(yùn)行所有模型。實(shí)驗(yàn)是使用MMSegmentation[8]框架進(jìn)行的。

語(yǔ)義分割結(jié)果。在語(yǔ)義分割任務(wù)中，我們進(jìn)行了兩種設(shè)置的實(shí)驗(yàn)。在這兩種設(shè)置中，我們都使用PspNet-Res101[38]作為教師模型，并使用 $512 \times 1024$ 的輸入大小對(duì)其進(jìn)行80k次迭代的訓(xùn)練。我們使用PspNet-Res18和DeepLabV3-Res18[3]作為學(xué)生模型，并使用 $512 \times 1024$ 的輸入大小對(duì)它們進(jìn)行40k次迭代的訓(xùn)練。如表4所示，我們的方法在語(yǔ)義分割任務(wù)上超越了最先進(jìn)的蒸餾方法。無(wú)論是同構(gòu)蒸餾還是異構(gòu)蒸餾，都為學(xué)生模型帶來(lái)了顯著的改進(jìn)，例如基于ResNet-18的PspNet獲得了3.78 mIoU的改進(jìn)。此外，MGD是一種基于特征的蒸餾方法，可以與其他基于邏輯（logits）的蒸餾方法相結(jié)合。如結(jié)果所示，通過(guò)在CWD[29]中添加頭部的邏輯蒸餾損失，學(xué)生模型PspNet和DeepLabV3的mIoU分別再提高了0.47和0.29。

在這里插入圖片描述

5、分析

5.1、MGD帶來(lái)的更好表示

MGD迫使學(xué)生通過(guò)其掩碼特征生成教師的完整特征圖，而不是直接模仿它。這有助于學(xué)生獲得輸入圖像的更好表示。在本小節(jié)中，我們通過(guò)使用學(xué)生自我教學(xué)來(lái)研究這一點(diǎn)。我們首先直接訓(xùn)練ResNet-18作為教師和基線。然后，我們使用訓(xùn)練好的ResNet-18用MGD蒸餾自己。為了比較，我們還通過(guò)強(qiáng)迫學(xué)生直接模仿教師來(lái)蒸餾學(xué)生。模仿的蒸餾損失是學(xué)生特征圖與教師特征圖之間的L2距離的平方。
在這里插入圖片描述

如表5所示，即使教師是它自己，學(xué)生也能通過(guò)MGD獲得1.01的準(zhǔn)確率提升。相比之下，當(dāng)強(qiáng)迫學(xué)生直接模仿教師的特征圖時(shí)，提升非常有限。比較表明，蒸餾后學(xué)生的特征圖比教師的特征圖獲得了更好的表示。
在這里插入圖片描述

此外，我們可視化了使用MGD蒸餾和模仿教師的訓(xùn)練損失曲線，如圖3所示。圖中的差異表示學(xué)生與教師最后一個(gè)特征圖之間的L2距離的平方，也是模仿教師的蒸餾損失。如圖所示，在直接模仿教師的過(guò)程中，差異不斷減小，最終學(xué)生得到了與教師相似的特征。然而，這種方法帶來(lái)的改進(jìn)很小。相比之下，在使用MGD訓(xùn)練后，差異變得更大。盡管學(xué)生得到了與教師不同的特征，但它獲得了更高的準(zhǔn)確率，這也表明學(xué)生的特征獲得了更強(qiáng)的表示能力。

5.2、通過(guò)掩碼隨機(jī)通道進(jìn)行蒸餾

對(duì)于圖像分類，模型通常使用池化層來(lái)減少特征圖的空間維度。這使得模型對(duì)通道比空間像素更敏感。因此，在本小節(jié)中，我們嘗試通過(guò)掩碼隨機(jī)通道而不是空間像素來(lái)應(yīng)用MGD進(jìn)行分類。我們?cè)趯?shí)驗(yàn)中采用掩碼比率 $\beta=0.15$ 和超參數(shù) $\alpha=7 \times 10^{-5}$ 。如表6所示，通過(guò)掩碼隨機(jī)通道而不是空間像素進(jìn)行圖像分類，學(xué)生可以獲得更好的性能。學(xué)生ResNet-18和MobileNet分別獲得了0.13和0.14的Top-1準(zhǔn)確率提升。
在這里插入圖片描述

5.3、使用不同教師進(jìn)行蒸餾

Cho等人[5]表明，對(duì)于圖像分類的知識(shí)蒸餾，準(zhǔn)確率更高的教師可能并不是更好的教師。這一結(jié)論基于基于邏輯（logits）的蒸餾方法。然而，我們的方法只需要在特征圖上計(jì)算蒸餾損失。在本小節(jié)中，我們使用不同類型的教師來(lái)蒸餾相同的學(xué)生ResNet-18，如圖4所示。
在這里插入圖片描述

如圖4所示，當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí)，更好的教師更能使學(xué)生受益，例如ResNet-18分別使用ResNet-18和ResNetV1D-152作為教師時(shí)，準(zhǔn)確率達(dá)到了70.91和71.8。然而，當(dāng)教師和學(xué)生具有不同的架構(gòu)時(shí)，學(xué)生很難生成教師的特征圖，通過(guò)蒸餾獲得的改進(jìn)是有限的。此外，架構(gòu)差異越大，蒸餾效果越差。例如，盡管Res2Net101[12]和ConvNeXt-T[24]的準(zhǔn)確率分別為79.19和82.05，但它們僅為學(xué)生帶來(lái)了1.53和0.88的準(zhǔn)確率提升，甚至低于基于ResNet-34的教師（準(zhǔn)確率為73.62）。

圖4中的結(jié)果表明，當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí)，更強(qiáng)的教師是特征基礎(chǔ)蒸餾的更好選擇。此外，具有相似架構(gòu)的同構(gòu)教師比準(zhǔn)確率高但架構(gòu)異構(gòu)的教師更適合特征基礎(chǔ)蒸餾。

5.4、生成塊

MGD使用一個(gè)簡(jiǎn)單的塊來(lái)恢復(fù)特征，稱為生成塊。在方程4中，我們使用兩個(gè) $\times 3$ 卷積層和一個(gè)ReLU激活層來(lái)完成這一點(diǎn)。在本小節(jié)中，我們探索了具有不同組合的生成塊的效果，如表7所示。
在這里插入圖片描述

結(jié)果表明，當(dāng)只有一個(gè)卷積層時(shí)，學(xué)生的提升最小。然而，當(dāng)有三個(gè)卷積層時(shí)，學(xué)生的Top-1準(zhǔn)確率較差但Top-5準(zhǔn)確率更好。對(duì)于核大小， $\times 5$ 卷積核需要更多的計(jì)算資源，但性能較差?；谶@些結(jié)果，我們選擇方程4中的架構(gòu)作為MGD，它包括兩個(gè)卷積層和一個(gè)激活層。

5.5、在不同階段的蒸餾

我們的方法也可以應(yīng)用于模型的其他階段。在本小節(jié)中，我們探索了在ImageNet上的不同階段進(jìn)行蒸餾。我們?cè)诮處熀蛯W(xué)生的相應(yīng)層上計(jì)算蒸餾損失。如表8所示，蒸餾較淺的層也有助于學(xué)生，但非常有限。而蒸餾包含更多語(yǔ)義信息的較深階段更能使學(xué)生受益。此外，早期階段的特征不直接用于分類。因此，將這樣的特征與最后一階段的特征一起蒸餾可能會(huì)損害學(xué)生的準(zhǔn)確率。
在這里插入圖片描述

5.6、超參數(shù)的敏感性研究

在本文中，我們使用方程6中的 $\alpha$ 和方程2中的 $\lambda$ 來(lái)平衡蒸餾損失和調(diào)整掩碼比率。在本小節(jié)中，我們通過(guò)使用ResNet-34在ImageNet數(shù)據(jù)集上蒸餾ResNet-18來(lái)進(jìn)行超參數(shù)的敏感性研究。結(jié)果如圖5所示。

如圖5所示，MGD對(duì)僅用于平衡損失的超參數(shù) $\alpha$ 不敏感。對(duì)于掩碼比率 $\lambda$ ，當(dāng)其為0時(shí)，準(zhǔn)確率為71.41，這意味著沒(méi)有用于生成的掩碼部分。當(dāng) $\lambda<0.5$ 時(shí)，學(xué)生隨著比率的增大而獲得更高的性能。然而，當(dāng) $\lambda$ 過(guò)大時(shí)，例如0.8，剩余的語(yǔ)義信息太差，無(wú)法生成教師的完整特征圖，性能提升也受到影響。

在這里插入圖片描述

6、結(jié)論

在本文中，我們提出了一種新的知識(shí)蒸餾方法，它迫使學(xué)生通過(guò)其掩碼特征生成教師的特征，而不是直接模仿它。基于這種方式，我們提出了一種新的知識(shí)蒸餾方法，即掩碼生成蒸餾（MGD）。通過(guò)MGD，學(xué)生可以獲得更強(qiáng)的表示能力。此外，我們的方法僅基于特征圖，因此MGD可以輕松應(yīng)用于各種任務(wù)，如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割。在各種模型和不同數(shù)據(jù)集上的廣泛實(shí)驗(yàn)證明，我們的方法簡(jiǎn)單且有效。

致謝。本研究得到了SZSTC項(xiàng)目資助號(hào)JCYJ20190809172201639和WDZC20200820200655001，以及深圳市重點(diǎn)實(shí)驗(yàn)室項(xiàng)目ZDSYS20210623092001004的支持。

查看全文

http://www.risenshineclean.com/news/37738.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

網(wǎng)站策劃做營(yíng)銷推廣廣告營(yíng)銷

摘要

1、引言