中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

網(wǎng)站策劃做營(yíng)銷推廣廣告營(yíng)銷

網(wǎng)站策劃做營(yíng)銷推廣,廣告營(yíng)銷,各大網(wǎng)站搜索引擎,好孩子官方網(wǎng)站王建設(shè)摘要 https://arxiv.org/pdf/2205.01529 知識(shí)蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過(guò)模仿教師的輸出來(lái)提高學(xué)生的性能。本文表明,教師還可以通過(guò)指導(dǎo)學(xué)生的特征恢復(fù)來(lái)提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā),我們提出了掩碼生成蒸餾&#xff08…

摘要

https://arxiv.org/pdf/2205.01529
知識(shí)蒸餾已成功應(yīng)用于各種任務(wù)。當(dāng)前的蒸餾算法通常通過(guò)模仿教師的輸出來(lái)提高學(xué)生的性能。本文表明,教師還可以通過(guò)指導(dǎo)學(xué)生的特征恢復(fù)來(lái)提高學(xué)生的表示能力。從這一觀點(diǎn)出發(fā),我們提出了掩碼生成蒸餾(Masked Generative Distillation,MGD),該方法很簡(jiǎn)單:我們隨機(jī)掩碼學(xué)生的特征像素,并通過(guò)一個(gè)簡(jiǎn)單的塊強(qiáng)迫其生成教師的完整特征。MGD是一種真正通用的基于特征的蒸餾方法,可用于各種任務(wù),包括圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割。我們?cè)诓煌P秃蛷V泛的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明所有學(xué)生都取得了顯著的改進(jìn)。特別地,我們將ResNet-18在ImageNet上的top-1準(zhǔn)確率從69.90%提高到71.69%,將基于ResNet-50骨干的RetinaNet的Boundingbox mAP從37.4提高到41.0,將基于ResNet-50的SOLO的Mask mAP從33.1提高到36.2,以及將基于ResNet-18的DeepLabV3的mIoU從73.20提高到76.02。我們的代碼已公開(kāi)在https://github.com/yzd-v/MGD。

關(guān)鍵詞:知識(shí)蒸餾,圖像分類,目標(biāo)檢測(cè),語(yǔ)義分割,實(shí)例分割

1、引言

深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已被廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)任務(wù)。通常,較大的模型具有更好的性能但推理速度較慢,這使得在資源有限的情況下難以部署。為了克服這一問(wèn)題,提出了知識(shí)蒸餾技術(shù)[18]。根據(jù)蒸餾發(fā)生的位置,它可以分為兩類。第一類是專門(mén)為不同任務(wù)設(shè)計(jì)的,例如,基于logits的蒸餾[18,40]用于分類任務(wù)和基于頭部的蒸餾[10,39]用于檢測(cè)任務(wù)。第二類是基于特征的蒸餾[28,17,4]。由于各種網(wǎng)絡(luò)之間僅在特征之后的頭部或投影器上存在差異,理論上,基于特征的蒸餾方法可以在各種任務(wù)中使用。然而,為特定任務(wù)設(shè)計(jì)的蒸餾方法通常在其他任務(wù)中不可用。例如,OFD[17]和KR[4]對(duì)檢測(cè)器的改進(jìn)有限。FKD[37]和FGD[35]是專門(mén)為檢測(cè)器設(shè)計(jì)的,由于缺少頸部結(jié)構(gòu),無(wú)法在其他任務(wù)中使用。

先前的基于特征的蒸餾方法通常讓學(xué)生盡可能地模仿教師的輸出,因?yàn)榻處煹奶卣骶哂懈鼜?qiáng)的表示能力。然而,我們認(rèn)為,為了提高學(xué)生的特征表示能力,并不需要直接模仿教師。用于蒸餾的特征通常是通過(guò)深度網(wǎng)絡(luò)提取的高階語(yǔ)義信息。特征像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此,如果我們能夠通過(guò)一個(gè)簡(jiǎn)單的模塊使用部分像素來(lái)恢復(fù)教師的完整特征,那么這些使用的像素的表示能力也會(huì)得到提高。從這一點(diǎn)出發(fā),我們提出了掩碼生成蒸餾(Masked Generative Distillation,MGD),這是一種簡(jiǎn)單且高效的基于特征的蒸餾方法。如圖2所示,我們首先隨機(jī)掩碼學(xué)生的特征像素,然后通過(guò)一個(gè)簡(jiǎn)單的模塊使用掩碼后的特征來(lái)生成教師的完整特征。由于在每次迭代中都使用隨機(jī)像素,訓(xùn)練過(guò)程中會(huì)用到所有像素,這意味著特征將更具魯棒性,并且其表示能力也會(huì)得到提高。在我們的方法中,教師僅作為指導(dǎo)學(xué)生恢復(fù)特征的指南,并不要求學(xué)生直接模仿它。
在這里插入圖片描述

為了驗(yàn)證我們的假設(shè),即在不直接模仿教師的情況下,通過(guò)掩碼特征生成可以提高學(xué)生的特征表示能力,我們對(duì)學(xué)生和教師頸部特征的注意力進(jìn)行了可視化。如圖1所示,學(xué)生和教師的特征差異很大。與教師相比,學(xué)生特征在背景區(qū)域的響應(yīng)更高。教師的mAP也顯著高于學(xué)生,為41.0%對(duì)37.4%。在使用最先進(jìn)的蒸餾方法FGD[35]進(jìn)行蒸餾后,該方法強(qiáng)制學(xué)生模仿教師特征的注意力,學(xué)生的特征變得更接近教師,mAP也大幅提高到40.7%。然而,在使用MGD進(jìn)行訓(xùn)練后,盡管學(xué)生和教師的特征之間仍然存在顯著差異,但學(xué)生對(duì)背景的響應(yīng)大大降低。我們也驚訝地發(fā)現(xiàn),學(xué)生的性能超過(guò)了FGD,甚至達(dá)到了與教師相同的mAP。這也表明使用MGD進(jìn)行訓(xùn)練可以提高學(xué)生特征的表示能力。
在這里插入圖片描述

此外,我們還在圖像分類和密集預(yù)測(cè)任務(wù)上進(jìn)行了豐富的實(shí)驗(yàn)。結(jié)果顯示,MGD可以為各種任務(wù)帶來(lái)顯著的改進(jìn),包括圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割。MGD還可以與其他基于logits或頭部的蒸餾方法結(jié)合使用,以獲得更大的性能提升。

綜上所述,本文的貢獻(xiàn)如下:

  1. 我們?yōu)榛谔卣鞯闹R(shí)蒸餾引入了一種新方法,使學(xué)生通過(guò)其掩碼特征生成教師的特征,而不是直接模仿。
  2. 我們提出了一種新穎的基于特征的蒸餾方法——掩碼生成蒸餾(MGD),該方法簡(jiǎn)單易用,僅包含兩個(gè)超參數(shù)。
  3. 我們通過(guò)在不同數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了該方法在各種模型上的有效性。對(duì)于圖像分類和密集預(yù)測(cè)任務(wù),使用MGD的學(xué)生都取得了顯著的改進(jìn)。

2、相關(guān)工作

2.1、分類中的知識(shí)蒸餾

知識(shí)蒸餾最初由Hinton等人提出[18],其中學(xué)生模型不僅受到真實(shí)標(biāo)簽的監(jiān)督,還受到教師模型最后線性層產(chǎn)生的軟標(biāo)簽的監(jiān)督。然而,除了基于logits的蒸餾方法外,更多蒸餾方法是基于特征圖的。FitNet[28]從中間層提取語(yǔ)義信息進(jìn)行蒸餾。AT[36]匯總通道維度上的值,并將注意力知識(shí)傳遞給學(xué)生模型。OFD[17]提出了邊際ReLU,并設(shè)計(jì)了一種新的函數(shù)來(lái)衡量蒸餾中的距離。CRD[30]利用對(duì)比學(xué)習(xí)將知識(shí)傳遞給學(xué)生。最近,KR[4]建立了一個(gè)回顧機(jī)制,并利用多級(jí)信息進(jìn)行蒸餾。SRRL[33]將表示學(xué)習(xí)和分類解耦,利用教師模型的分類器來(lái)訓(xùn)練學(xué)生模型的倒數(shù)第二層特征。WSLD[40]從偏差-方差權(quán)衡的角度提出了加權(quán)軟標(biāo)簽用于蒸餾。

2.2、密集預(yù)測(cè)的知識(shí)蒸餾

分類與密集預(yù)測(cè)之間存在很大差異。許多針對(duì)分類的知識(shí)蒸餾方法在密集預(yù)測(cè)上失敗了。理論上,基于特征的知識(shí)蒸餾方法應(yīng)該對(duì)分類和密集預(yù)測(cè)任務(wù)都有幫助,這也是我們方法的目標(biāo)。

對(duì)象檢測(cè)的知識(shí)蒸餾。Chen等人[1]首先在檢測(cè)器的頸部和頭部計(jì)算蒸餾損失。對(duì)象檢測(cè)中蒸餾的關(guān)鍵在于由于前景和背景之間的極端不平衡,應(yīng)該在哪里進(jìn)行蒸餾。為了避免從背景中引入噪聲,FGFI[31]利用細(xì)粒度掩碼來(lái)蒸餾物體附近的區(qū)域。然而,Defeat[13]指出前景和背景的信息都很重要。GID[10]選擇學(xué)生和教師表現(xiàn)不同的區(qū)域進(jìn)行蒸餾。FKD[37]使用教師和學(xué)生的注意力之和來(lái)使學(xué)生關(guān)注可變區(qū)域。FGD[35]提出了焦點(diǎn)蒸餾,迫使學(xué)生學(xué)習(xí)教師的關(guān)鍵部分,以及全局蒸餾,以彌補(bǔ)缺失的全局信息。

語(yǔ)義分割的知識(shí)蒸餾。Liu等人[23]提出了成對(duì)和整體蒸餾,強(qiáng)制學(xué)生和教師的輸出之間保持成對(duì)和高階一致性。He等人[16]將教師網(wǎng)絡(luò)的輸出重新解釋為重新表示的潛在域,并從教師網(wǎng)絡(luò)中捕獲長(zhǎng)期依賴關(guān)系。CWD[29]最小化了通過(guò)歸一化每個(gè)通道的激活圖計(jì)算得到的概率圖之間的Kullback-Leibler(KL)散度。

3、方法

不同任務(wù)的模型架構(gòu)差異很大。此外,大多數(shù)蒸餾方法都是為特定任務(wù)設(shè)計(jì)的。然而,基于特征的知識(shí)蒸餾可以應(yīng)用于分類和密集預(yù)測(cè)?;谔卣髡麴s的基本方法可以表示為:

L fea = ∑ k = 1 C ∑ i = 1 H ∑ j = 1 W ( F k , i , j T ? f align ( F k , i , j S ) ) 2 L_{\text{fea}} = \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(F_{k, i, j}^{T} - f_{\text{align}}\left(F_{k, i, j}^{S}\right)\right)^{2} Lfea?=k=1C?i=1H?j=1W?(Fk,i,jT??falign?(Fk,i,jS?))2

其中, F T F^{T} FT F S F^{S} FS 分別表示教師和學(xué)生的特征,而 f align f_{\text{align}} falign? 是適配層,用于將學(xué)生特征 F S F^{S} FS 與教師特征 F T F^{T} FT 對(duì)齊。C、H、W 表示特征圖的形狀。

這種方法有助于學(xué)生直接模仿教師的特征。然而,我們提出了掩碼生成蒸餾(MGD),其目標(biāo)在于迫使學(xué)生生成教師的特征,而不是簡(jiǎn)單地模仿它,從而在分類和密集預(yù)測(cè)方面都為學(xué)生帶來(lái)顯著改進(jìn)。MGD的架構(gòu)如圖2所示,我們將在本節(jié)中詳細(xì)介紹它。

3.1、使用掩碼特征的生成

對(duì)于基于CNN的模型,深層特征具有較大的感受野和更好的原始輸入圖像表示。換句話說(shuō),特征圖像素已經(jīng)在一定程度上包含了相鄰像素的信息。因此,我們可以使用部分像素來(lái)恢復(fù)完整的特征圖。我們的方法旨在通過(guò)學(xué)生的掩碼特征生成教師的特征,這有助于學(xué)生實(shí)現(xiàn)更好的表示。

我們分別用 T l ∈ R C × H × W T^{l} \in R^{C \times H \times W} TlRC×H×W S l ∈ R C × H × W ( l = 1 , … , L ) S^{l} \in R^{C \times H \times W} (l=1, \ldots, L) SlRC×H×W(l=1,,L) 表示教師和學(xué)生的第 l l l 層特征圖。首先,我們?cè)O(shè)置第 l l l 個(gè)隨機(jī)掩碼來(lái)覆蓋學(xué)生的第 l l l 層特征,可以表示為:

M i , j l = { 0 , 如果? R i , j l < λ 1 , 其他情況 M_{i, j}^{l}=\left\{ \begin{array}{ll} 0, & \text{如果 } R_{i, j}^{l}<\lambda \\ 1, & \text{其他情況} \end{array} \right. Mi,jl?={0,1,?如果?Ri,jl?<λ其他情況?

其中 R i , j l R_{i, j}^{l} Ri,jl? 是一個(gè)在 ( 0 , 1 ) (0,1) (0,1) 范圍內(nèi)的隨機(jī)數(shù), i , j i, j i,j 分別是特征圖的橫縱坐標(biāo)。 λ \lambda λ 是一個(gè)超參數(shù),表示掩碼比例。第 l l l 層特征圖被第 l l l 個(gè)隨機(jī)掩碼覆蓋。

然后,我們使用相應(yīng)的掩碼來(lái)覆蓋學(xué)生的特征圖,并嘗試用剩下的像素生成教師的特征圖,可以表示為:

G ( f align ( S l ) ? M l ) ? T l G ( F ) = W l 2 ( ReLU ( W l 1 ( F ) ) ) \begin{array}{c} \mathcal{G}\left(f_{\text{align}}\left(S^{l}\right) \cdot M^{l}\right) \longrightarrow T^{l} \\ \mathcal{G}(F) = W_{l 2}\left(\text{ReLU}\left(W_{l 1}(F)\right)\right) \end{array} G(falign?(Sl)?Ml)?TlG(F)=Wl2?(ReLU(Wl1?(F)))?

G \mathcal{G} G 表示投影層,包括兩個(gè)卷積層 W l 1 W_{l 1} Wl1? W l 2 W_{l 2} Wl2?,以及一個(gè)激活層 ReLU。在本文中,我們?yōu)檫m配層 f align f_{\text{align}} falign? 采用 1 × 1 1 \times 1 1×1 卷積層,為投影層 W l 1 W_{l 1} Wl1? W l 2 W_{l 2} Wl2? 采用 3 × 3 3 \times 3 3×3 卷積層。

根據(jù)這種方法,我們?yōu)镸GD設(shè)計(jì)了蒸餾損失 L dis L_{\text{dis}} Ldis?

L dis ( S , T ) = ∑ l = 1 L ∑ k = 1 C ∑ i = 1 H ∑ j = 1 W ( T k , i , j l ? G ( f align ( S k , i , j l ) ? M i , j l ) ) 2 L_{\text{dis}}(S, T) = \sum_{l=1}^{L} \sum_{k=1}^{C} \sum_{i=1}^{H} \sum_{j=1}^{W}\left(T_{k, i, j}^{l} - \mathcal{G}\left(f_{\text{align}}\left(S_{k, i, j}^{l}\right) \cdot M_{i, j}^{l}\right)\right)^{2} Ldis?(S,T)=l=1L?k=1C?i=1H?j=1W?(Tk,i,jl??G(falign?(Sk,i,jl?)?Mi,jl?))2

其中 L L L 是進(jìn)行蒸餾的層數(shù)總和, C , H , W C, H, W C,H,W 表示特征圖的形狀。 S S S T T T 分別表示學(xué)生和教師的特征。

3.2、總損失

在提出用于MGD的蒸餾損失 L dis L_{\text{dis}} Ldis? 之后,我們使用總損失來(lái)訓(xùn)練所有模型,具體形式如下:

L all = L original + α ? L dis L_{\text{all}} = L_{\text{original}} + \alpha \cdot L_{\text{dis}} Lall?=Loriginal?+α?Ldis?

其中 L original L_{\text{original}} Loriginal? 是所有任務(wù)中模型的原始損失,而 α \alpha α 是一個(gè)超參數(shù),用于平衡兩種損失。

MGD 是一種簡(jiǎn)單而有效的蒸餾方法,可以很容易地應(yīng)用于各種任務(wù)。我們的方法流程在算法1中進(jìn)行了總結(jié)。

在這里插入圖片描述

4、主要實(shí)驗(yàn)

MGD 是一種基于特征的蒸餾方法,可以輕松應(yīng)用于不同模型和各種任務(wù)。在本文中,我們?cè)诎ǚ诸悺⒛繕?biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割在內(nèi)的各種任務(wù)上進(jìn)行了實(shí)驗(yàn)。我們針對(duì)不同任務(wù)使用了不同的模型和數(shù)據(jù)集,并且所有模型在使用 MGD 后都取得了顯著的改進(jìn)。

4.1、分類

數(shù)據(jù)集。對(duì)于分類任務(wù),我們?cè)?ImageNet[11] 上評(píng)估了我們的知識(shí)蒸餾方法,它包含了 1000 個(gè)對(duì)象類別。我們使用 120 萬(wàn)張圖像進(jìn)行訓(xùn)練,并使用 50k 張圖像進(jìn)行所有分類實(shí)驗(yàn)的測(cè)試。我們使用準(zhǔn)確率來(lái)評(píng)估模型。

實(shí)現(xiàn)細(xì)節(jié)。對(duì)于分類任務(wù),我們?cè)谥鞲删W(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。關(guān)于這一點(diǎn)的消融研究將在第 5.5 節(jié)中展示。MGD 使用一個(gè)超參數(shù) α \alpha α 來(lái)平衡方程 6 中的蒸餾損失。另一個(gè)超參數(shù) λ \lambda λ 用于調(diào)整方程 2 中的掩碼比例。我們?cè)谒蟹诸悓?shí)驗(yàn)中都采用了超參數(shù) { α = 7 × 1 0 ? 5 , λ = 0.5 } \left\{\alpha=7 \times 10^{-5}, \lambda=0.5\right\} {α=7×10?5,λ=0.5}。我們使用 SGD 優(yōu)化器對(duì)所有模型進(jìn)行 100 個(gè)周期的訓(xùn)練,其中動(dòng)量設(shè)置為 0.9,權(quán)重衰減為 0.0001。我們初始化學(xué)習(xí)率為 0.1,并在每 30 個(gè)周期后衰減。這一設(shè)置基于 8 個(gè) GPU。實(shí)驗(yàn)是使用基于 Pytorch[26] 的 MMClassification[6] 和 MMRazor[7] 進(jìn)行的。

分類結(jié)果。我們針對(duì)分類任務(wù)進(jìn)行了兩種流行的蒸餾設(shè)置實(shí)驗(yàn),包括同構(gòu)蒸餾和異構(gòu)蒸餾。第一種蒸餾設(shè)置是從 ResNet-34[15] 到 ResNet-18,另一種設(shè)置是從 ResNet-50 到 MobileNet[19]。如表 1 所示,我們將我們的方法與各種知識(shí)蒸餾方法[18, 36, 17, 25, 30, 4, 40, 33]進(jìn)行了比較,這些方法包括基于特征的方法、基于邏輯的方法以及它們的組合。使用我們的方法,學(xué)生模型 ResNet-18 和 MobileNet 的 Top-1 準(zhǔn)確率分別提高了 1.68 和 3.14。此外,如上所述,MGD 只需要在特征圖上計(jì)算蒸餾損失,并且可以與基于邏輯的其他圖像分類方法相結(jié)合。因此,我們嘗試在 WSLD[40] 中添加基于邏輯的蒸餾損失。通過(guò)這種方式,兩個(gè)學(xué)生模型分別達(dá)到了 71.80 和 72.59 的 Top-1 準(zhǔn)確率,分別再提高了 0.22 和 0.24。

在這里插入圖片描述

4.2、目標(biāo)檢測(cè)與實(shí)例分割

數(shù)據(jù)集。我們?cè)?COCO2017 數(shù)據(jù)集[22]上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集包含 80 個(gè)對(duì)象類別。我們使用 120k 張訓(xùn)練圖像進(jìn)行訓(xùn)練,并使用 5k 張驗(yàn)證圖像進(jìn)行測(cè)試。模型的性能通過(guò)平均精度(Average Precision)進(jìn)行評(píng)估。

實(shí)現(xiàn)細(xì)節(jié)。我們?cè)陬i部(neck)的所有特征圖上計(jì)算蒸餾損失。對(duì)于所有單階段模型,我們采用超參數(shù) { α = 2 × 1 0 ? 5 , λ = 0.65 } \left\{\alpha=2 \times 10^{-5}, \lambda=0.65\right\} {α=2×10?5,λ=0.65};對(duì)于所有兩階段模型,我們采用超參數(shù) { α = 5 × 1 0 ? 7 , λ = 0.45 } \left\{\alpha=5 \times 10^{-7}, \lambda=0.45\right\} {α=5×10?7,λ=0.45}。我們使用 SGD 優(yōu)化器對(duì)所有模型進(jìn)行訓(xùn)練,其中動(dòng)量設(shè)置為 0.9,權(quán)重衰減為 0.0001。除非另有說(shuō)明,我們訓(xùn)練模型 24 個(gè)周期。當(dāng)師生具有相同的頭結(jié)構(gòu)時(shí),我們使用繼承策略[20, 35],即用教師的頸部和頭部參數(shù)初始化學(xué)生的參數(shù)來(lái)訓(xùn)練學(xué)生。實(shí)驗(yàn)是基于 MMDetection[2] 進(jìn)行的。
在這里插入圖片描述

目標(biāo)檢測(cè)與實(shí)例分割結(jié)果。對(duì)于目標(biāo)檢測(cè),我們?cè)谌N不同類型的檢測(cè)器上進(jìn)行了實(shí)驗(yàn),包括兩階段檢測(cè)器(Faster RCNN[27])、基于錨點(diǎn)的單階段檢測(cè)器(RetinaNet[21])和無(wú)錨點(diǎn)單階段檢測(cè)器(RepPoints[34])。我們將 MGD 與三種最新的檢測(cè)器蒸餾方法[37, 29, 35]進(jìn)行了比較。對(duì)于實(shí)例分割,我們?cè)趦蓚€(gè)模型上進(jìn)行了實(shí)驗(yàn),即 SOLO[32] 和 Mask RCNN[14]。如表 2 和表 3 所示,我們的方法在目標(biāo)檢測(cè)和實(shí)例分割方面均超過(guò)了其他最先進(jìn)的方法。使用 MGD 的學(xué)生模型獲得了顯著的 AP 改進(jìn),例如,基于 ResNet-50 的 RetinaNet 和 SOLO 在 COCO 數(shù)據(jù)集上分別獲得了 3.6 的 Boundingbox mAP 和 3.1 的 Mask mAP 提升。
在這里插入圖片描述

4.3、語(yǔ)義分割

數(shù)據(jù)集。對(duì)于語(yǔ)義分割任務(wù),我們?cè)贑ityScapes數(shù)據(jù)集[9]上評(píng)估了我們的方法,該數(shù)據(jù)集包含5000張高質(zhì)量圖像(其中2975張用于訓(xùn)練,500張用于驗(yàn)證,1525張用于測(cè)試)。我們使用平均交并比(mIoU)來(lái)評(píng)估所有模型。

實(shí)現(xiàn)細(xì)節(jié)。對(duì)于所有模型,我們?cè)诠歉删W(wǎng)絡(luò)的最后一個(gè)特征圖上計(jì)算蒸餾損失。我們?cè)谒袑?shí)驗(yàn)中都采用了超參數(shù) { α = 2 × 1 0 ? 5 , λ = 0.75 } \left\{\alpha=2 \times 10^{-5}, \lambda=0.75\right\} {α=2×10?5,λ=0.75}。我們使用SGD優(yōu)化器訓(xùn)練所有模型,其中動(dòng)量設(shè)置為0.9,權(quán)重衰減為0.0005。我們?cè)?個(gè)GPU上運(yùn)行所有模型。實(shí)驗(yàn)是使用MMSegmentation[8]框架進(jìn)行的。

語(yǔ)義分割結(jié)果。在語(yǔ)義分割任務(wù)中,我們進(jìn)行了兩種設(shè)置的實(shí)驗(yàn)。在這兩種設(shè)置中,我們都使用PspNet-Res101[38]作為教師模型,并使用 512 × 1024 512 \times 1024 512×1024的輸入大小對(duì)其進(jìn)行80k次迭代的訓(xùn)練。我們使用PspNet-Res18和DeepLabV3-Res18[3]作為學(xué)生模型,并使用 512 × 1024 512 \times 1024 512×1024的輸入大小對(duì)它們進(jìn)行40k次迭代的訓(xùn)練。如表4所示,我們的方法在語(yǔ)義分割任務(wù)上超越了最先進(jìn)的蒸餾方法。無(wú)論是同構(gòu)蒸餾還是異構(gòu)蒸餾,都為學(xué)生模型帶來(lái)了顯著的改進(jìn),例如基于ResNet-18的PspNet獲得了3.78 mIoU的改進(jìn)。此外,MGD是一種基于特征的蒸餾方法,可以與其他基于邏輯(logits)的蒸餾方法相結(jié)合。如結(jié)果所示,通過(guò)在CWD[29]中添加頭部的邏輯蒸餾損失,學(xué)生模型PspNet和DeepLabV3的mIoU分別再提高了0.47和0.29。

在這里插入圖片描述

5、分析

5.1、MGD帶來(lái)的更好表示

MGD迫使學(xué)生通過(guò)其掩碼特征生成教師的完整特征圖,而不是直接模仿它。這有助于學(xué)生獲得輸入圖像的更好表示。在本小節(jié)中,我們通過(guò)使用學(xué)生自我教學(xué)來(lái)研究這一點(diǎn)。我們首先直接訓(xùn)練ResNet-18作為教師和基線。然后,我們使用訓(xùn)練好的ResNet-18用MGD蒸餾自己。為了比較,我們還通過(guò)強(qiáng)迫學(xué)生直接模仿教師來(lái)蒸餾學(xué)生。模仿的蒸餾損失是學(xué)生特征圖與教師特征圖之間的L2距離的平方。
在這里插入圖片描述

如表5所示,即使教師是它自己,學(xué)生也能通過(guò)MGD獲得1.01的準(zhǔn)確率提升。相比之下,當(dāng)強(qiáng)迫學(xué)生直接模仿教師的特征圖時(shí),提升非常有限。比較表明,蒸餾后學(xué)生的特征圖比教師的特征圖獲得了更好的表示。
在這里插入圖片描述

此外,我們可視化了使用MGD蒸餾和模仿教師的訓(xùn)練損失曲線,如圖3所示。圖中的差異表示學(xué)生與教師最后一個(gè)特征圖之間的L2距離的平方,也是模仿教師的蒸餾損失。如圖所示,在直接模仿教師的過(guò)程中,差異不斷減小,最終學(xué)生得到了與教師相似的特征。然而,這種方法帶來(lái)的改進(jìn)很小。相比之下,在使用MGD訓(xùn)練后,差異變得更大。盡管學(xué)生得到了與教師不同的特征,但它獲得了更高的準(zhǔn)確率,這也表明學(xué)生的特征獲得了更強(qiáng)的表示能力。

5.2、通過(guò)掩碼隨機(jī)通道進(jìn)行蒸餾

對(duì)于圖像分類,模型通常使用池化層來(lái)減少特征圖的空間維度。這使得模型對(duì)通道比空間像素更敏感。因此,在本小節(jié)中,我們嘗試通過(guò)掩碼隨機(jī)通道而不是空間像素來(lái)應(yīng)用MGD進(jìn)行分類。我們?cè)趯?shí)驗(yàn)中采用掩碼比率 β = 0.15 \beta=0.15 β=0.15和超參數(shù) α = 7 × 1 0 ? 5 \alpha=7 \times 10^{-5} α=7×10?5。如表6所示,通過(guò)掩碼隨機(jī)通道而不是空間像素進(jìn)行圖像分類,學(xué)生可以獲得更好的性能。學(xué)生ResNet-18和MobileNet分別獲得了0.13和0.14的Top-1準(zhǔn)確率提升。
在這里插入圖片描述

5.3、使用不同教師進(jìn)行蒸餾

Cho等人[5]表明,對(duì)于圖像分類的知識(shí)蒸餾,準(zhǔn)確率更高的教師可能并不是更好的教師。這一結(jié)論基于基于邏輯(logits)的蒸餾方法。然而,我們的方法只需要在特征圖上計(jì)算蒸餾損失。在本小節(jié)中,我們使用不同類型的教師來(lái)蒸餾相同的學(xué)生ResNet-18,如圖4所示。
在這里插入圖片描述

如圖4所示,當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí),更好的教師更能使學(xué)生受益,例如ResNet-18分別使用ResNet-18和ResNetV1D-152作為教師時(shí),準(zhǔn)確率達(dá)到了70.91和71.8。然而,當(dāng)教師和學(xué)生具有不同的架構(gòu)時(shí),學(xué)生很難生成教師的特征圖,通過(guò)蒸餾獲得的改進(jìn)是有限的。此外,架構(gòu)差異越大,蒸餾效果越差。例如,盡管Res2Net101[12]和ConvNeXt-T[24]的準(zhǔn)確率分別為79.19和82.05,但它們僅為學(xué)生帶來(lái)了1.53和0.88的準(zhǔn)確率提升,甚至低于基于ResNet-34的教師(準(zhǔn)確率為73.62)。

圖4中的結(jié)果表明,當(dāng)教師和學(xué)生具有相似架構(gòu)時(shí),更強(qiáng)的教師是特征基礎(chǔ)蒸餾的更好選擇。此外,具有相似架構(gòu)的同構(gòu)教師比準(zhǔn)確率高但架構(gòu)異構(gòu)的教師更適合特征基礎(chǔ)蒸餾。

5.4、生成塊

MGD使用一個(gè)簡(jiǎn)單的塊來(lái)恢復(fù)特征,稱為生成塊。在方程4中,我們使用兩個(gè) 3 × 3 3 \times 3 3×3卷積層和一個(gè)ReLU激活層來(lái)完成這一點(diǎn)。在本小節(jié)中,我們探索了具有不同組合的生成塊的效果,如表7所示。
在這里插入圖片描述

結(jié)果表明,當(dāng)只有一個(gè)卷積層時(shí),學(xué)生的提升最小。然而,當(dāng)有三個(gè)卷積層時(shí),學(xué)生的Top-1準(zhǔn)確率較差但Top-5準(zhǔn)確率更好。對(duì)于核大小, 5 × 5 5 \times 5 5×5卷積核需要更多的計(jì)算資源,但性能較差?;谶@些結(jié)果,我們選擇方程4中的架構(gòu)作為MGD,它包括兩個(gè)卷積層和一個(gè)激活層。

5.5、在不同階段的蒸餾

我們的方法也可以應(yīng)用于模型的其他階段。在本小節(jié)中,我們探索了在ImageNet上的不同階段進(jìn)行蒸餾。我們?cè)诮處熀蛯W(xué)生的相應(yīng)層上計(jì)算蒸餾損失。如表8所示,蒸餾較淺的層也有助于學(xué)生,但非常有限。而蒸餾包含更多語(yǔ)義信息的較深階段更能使學(xué)生受益。此外,早期階段的特征不直接用于分類。因此,將這樣的特征與最后一階段的特征一起蒸餾可能會(huì)損害學(xué)生的準(zhǔn)確率。
在這里插入圖片描述

5.6、超參數(shù)的敏感性研究

在本文中,我們使用方程6中的 α \alpha α和方程2中的 λ \lambda λ來(lái)平衡蒸餾損失和調(diào)整掩碼比率。在本小節(jié)中,我們通過(guò)使用ResNet-34在ImageNet數(shù)據(jù)集上蒸餾ResNet-18來(lái)進(jìn)行超參數(shù)的敏感性研究。結(jié)果如圖5所示。

如圖5所示,MGD對(duì)僅用于平衡損失的超參數(shù) α \alpha α不敏感。對(duì)于掩碼比率 λ \lambda λ,當(dāng)其為0時(shí),準(zhǔn)確率為71.41,這意味著沒(méi)有用于生成的掩碼部分。當(dāng) λ < 0.5 \lambda<0.5 λ<0.5時(shí),學(xué)生隨著比率的增大而獲得更高的性能。然而,當(dāng) λ \lambda λ過(guò)大時(shí),例如0.8,剩余的語(yǔ)義信息太差,無(wú)法生成教師的完整特征圖,性能提升也受到影響。

在這里插入圖片描述

6、結(jié)論

在本文中,我們提出了一種新的知識(shí)蒸餾方法,它迫使學(xué)生通過(guò)其掩碼特征生成教師的特征,而不是直接模仿它。基于這種方式,我們提出了一種新的知識(shí)蒸餾方法,即掩碼生成蒸餾(MGD)。通過(guò)MGD,學(xué)生可以獲得更強(qiáng)的表示能力。此外,我們的方法僅基于特征圖,因此MGD可以輕松應(yīng)用于各種任務(wù),如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和實(shí)例分割。在各種模型和不同數(shù)據(jù)集上的廣泛實(shí)驗(yàn)證明,我們的方法簡(jiǎn)單且有效。

致謝。本研究得到了SZSTC項(xiàng)目資助號(hào)JCYJ20190809172201639和WDZC20200820200655001,以及深圳市重點(diǎn)實(shí)驗(yàn)室項(xiàng)目ZDSYS20210623092001004的支持。

http://www.risenshineclean.com/news/37738.html

相關(guān)文章:

  • 沈陽(yáng)網(wǎng)站制作找網(wǎng)勢(shì)科技國(guó)際軍事新聞
  • wordpress加個(gè)留言板谷歌seo排名技巧
  • 學(xué)校響應(yīng)式網(wǎng)站模板網(wǎng)絡(luò)推廣有哪些途徑
  • 網(wǎng)站列表頁(yè)內(nèi)容優(yōu)化關(guān)鍵詞哪家好
  • 商務(wù)網(wǎng)站建設(shè)2024最火的十大新聞?dòng)心男?/a>
  • 國(guó)外網(wǎng)站建立軟文營(yíng)銷案例
  • sql2008做網(wǎng)站淘寶seo具體優(yōu)化方法
  • 專門(mén)做油畫(huà)交流的網(wǎng)站專業(yè)做網(wǎng)站建設(shè)的公司
  • h5制作多少錢(qián)seo是怎么優(yōu)化上去
  • 如何自己建一個(gè)微網(wǎng)站查看瀏覽過(guò)的歷史記錄百度
  • 領(lǐng)諾科技網(wǎng)站建設(shè)在哪買網(wǎng)站鏈接
  • 邯鄲58同城網(wǎng)秦皇島網(wǎng)站seo
  • app軟件下載網(wǎng)站免費(fèi)進(jìn)入常用的網(wǎng)絡(luò)營(yíng)銷方法及效果
  • 哪個(gè)跨境電商網(wǎng)站做的最好免費(fèi)云服務(wù)器
  • 電子郵箱注冊(cè)專業(yè)seo網(wǎng)站
  • 建立網(wǎng)站教程視頻百度官方電話號(hào)碼
  • 大橋石化集團(tuán)網(wǎng)站誰(shuí)做的網(wǎng)絡(luò)廣告代理
  • 安慶懷寧網(wǎng)站建設(shè)兼職seo下載站
  • 重慶高端網(wǎng)站建設(shè)公司最新黑帽seo培訓(xùn)
  • 企業(yè)網(wǎng)站建設(shè)中期報(bào)告模板微商軟文推廣平臺(tái)
  • 怎么做網(wǎng)站兼容性測(cè)試發(fā)布軟文廣告
  • 網(wǎng)站公安備案需要多久個(gè)人網(wǎng)站模板
  • 一起裝修網(wǎng)官方網(wǎng)站單詞優(yōu)化和整站優(yōu)化
  • 專注高端網(wǎng)站建設(shè)seo 專業(yè)
  • 可以制作網(wǎng)站的軟件seo交流qq群
  • 鎮(zhèn)江網(wǎng)站優(yōu)化電商seo是什么意思
  • 怎么根據(jù)網(wǎng)站做二維碼seo精華網(wǎng)站
  • wordpress VIP系統(tǒng)愛(ài)站網(wǎng)seo工具包
  • 電子商務(wù)是什么職業(yè)福州seo優(yōu)化
  • 做網(wǎng)站服務(wù)商新鄉(xiāng)網(wǎng)絡(luò)推廣外包