網(wǎng)站制作公司承擔(dān)seo外包公司多嗎
摘要
https://arxiv.org/pdf/2205.13213
視覺Transformer(ViTs)在計(jì)算機(jī)視覺領(lǐng)域引發(fā)了最新且最重要的突破。其高效設(shè)計(jì)大多以計(jì)算復(fù)雜度的間接指標(biāo),即浮點(diǎn)運(yùn)算數(shù)(FLOPs)為指導(dǎo),然而,該指標(biāo)與吞吐量等直接指標(biāo)之間存在明顯差距。因此,我們建議使用目標(biāo)平臺上的直接速度評估作為高效ViTs的設(shè)計(jì)原則。特別是,我們引入了一種簡單且有效的ViT——LITv2,在各種不同模型尺寸下,LITv2均以更快的速度優(yōu)于現(xiàn)有的最先進(jìn)方法。LITv2的核心是一種新穎的自注意力機(jī)制,我們稱之為HiLo。HiLo的靈感來源于以下見解:圖像中的高頻部分捕捉局部精細(xì)細(xì)節(jié),而低頻部分關(guān)注全局結(jié)構(gòu),然而,多頭自注意力層忽略了不同頻率特征。因此,我們提出在注意力層中將高頻/低頻模式分離,即將頭部分成兩組,其中一組通過每個(gè)局部窗口內(nèi)的自注意力編碼高頻,另一組通過對每個(gè)窗口和輸入特征圖中每個(gè)查詢位置的平均池化低頻鍵和值執(zhí)行全局注意力來編碼低頻。得益于兩組的高效設(shè)計(jì),我們通過全面對比GPU和CPU上的FLOPs、速度和內(nèi)存消耗,證明了HiLo優(yōu)于現(xiàn)有的注意力機(jī)制。例如,在CPU上,HiLo比空間降維注意力快