企業(yè)官網(wǎng)網(wǎng)站模板下載不了品牌推廣內(nèi)容
摘要
作者提出一種新的檢測頭,稱為“動(dòng)態(tài)頭”,旨在將尺度感知、空間感知和任務(wù)感知統(tǒng)一在一起。如果我們將骨干網(wǎng)絡(luò)的輸出(即檢測頭的輸入)視為一個(gè)三維張量,其維度為級別 × 空間 × 通道,這樣的統(tǒng)一檢測頭可以看作是一個(gè)注意力學(xué)習(xí)問題,直觀的解決方案是對該張量進(jìn)行全自注意力機(jī)制的構(gòu)建。然而,直接在所有維度上學(xué)習(xí)注意力函數(shù)過于困難,且計(jì)算成本過高。因此,作者提出通過分別在特征的每個(gè)特定維度上部署注意力機(jī)制,即在級別、空間和通道維度上來解決這一問題。
# 理論介紹
DynamicHead模塊是針對目標(biāo)檢測任務(wù)提出的一種新的頭部(head)結(jié)構(gòu),它的設(shè)計(jì)目的是通過引入多種注意力機(jī)制,提升模型的檢測能力。核心思想是使得檢測頭部可以動(dòng)態(tài)地根據(jù)輸入特征進(jìn)行自適應(yīng)調(diào)整,從而提高模型在不同尺度、空間、任務(wù)等方面的表現(xiàn)。DynamicHead模塊的關(guān)鍵組成部分包括:
- Scale-Aware Attention Module(尺度感知注意力模塊):該模塊根據(jù)特征的尺度進(jìn)行調(diào)整,使得不同尺度的特征能在合適的尺度下進(jìn)行融合和處理。它通過為不同尺度的特征賦予權(quán)重來優(yōu)化尺度差異的影響。
- Spatial-Aware Attention Module(空間感知注意力模塊):該模塊針對空間位置進(jìn)行優(yōu)化。通過對特征圖中的重要區(qū)域進(jìn)行加權(quán),使得網(wǎng)絡(luò)能更關(guān)注目標(biāo)物體的前景區(qū)域,避免特征圖的冗余部分對模型性能造成影響。
- Task-Aware Module(任務(wù)感知模塊):這個(gè)模塊根據(jù)具體任務(wù)(如分類、定位等)調(diào)整頭部的輸出。它能根據(jù)任務(wù)需求優(yōu)化目標(biāo)的分類或回歸結(jié)果,提高模型的準(zhǔn)確度和魯棒性。
下圖摘自論文
理論詳解可以參考鏈接:論文地址
代碼可在這個(gè)鏈接找到:代碼地址
小目標(biāo)理論
在YOLOv11 中,輸入圖像的尺寸為 640x640x3,經(jīng)過 8 倍、16 倍和 32 倍下采樣后分別得到 80x80、40x40 以及 20x20 大小的特征圖,網(wǎng)絡(luò)最終在這三個(gè)不同尺度的特征圖上進(jìn)行目標(biāo)檢測。在這三個(gè)尺度的特征圖中,局部感受野最小的是 8 倍下采樣特征圖,即如果將該特征圖映射到原輸入圖像,則每個(gè)網(wǎng)格對應(yīng)原圖 8x8 的區(qū)域。對于分辨率較小的目標(biāo)而言,8 倍下采樣得到的特征圖感受野仍然偏大,容易丟失某些小目標(biāo)的位置和細(xì)節(jié)信息。為了改善目標(biāo)漏檢現(xiàn)狀,對 YOLOv8 的 Head 結(jié)構(gòu)進(jìn)行優(yōu)化,在原有的三尺度檢測頭的基礎(chǔ)之上,新增一個(gè)針對微小目標(biāo)檢測的檢測頭 ,YOLOv11 原有 P3、P4 和 P5 這 3 個(gè)輸出層&#x