個(gè)人微信公共號(hào)可以做微網(wǎng)站么在線識(shí)別圖片來源
PP-YOLOE: An evolved version of YOLO
Abstract
- 在本報(bào)告中,我們介紹了PP-YOLOE,一種具有高性能和友好部署的工業(yè)最先進(jìn)的目標(biāo)探測(cè)器。我們?cè)谥暗腜P-YOLOv2的基礎(chǔ)上進(jìn)行優(yōu)化,采用無錨模式,更強(qiáng)大的骨干和頸部配備CSPRepResStage, ET-head和動(dòng)態(tài)標(biāo)簽分配算法TAL。我們?yōu)椴煌膶?shí)踐場(chǎng)景提供s/m/l/x模型。結(jié)果,pp - yoloe - 1在COCO測(cè)試開發(fā)上實(shí)現(xiàn)了51.4 mAP,在Tesla V100上實(shí)現(xiàn)了78.1 FPS,與之前的先進(jìn)工業(yè)車型PP-YOLOv2和YOLOX相比,分別實(shí)現(xiàn)了(+1.9 AP, +13.35%提速)和(+1.3 AP, +24.96%提速)的顯著提升。在TensorRT和fp16精度下,PP-YOLOE推理速度達(dá)到149.2 FPS。我們還進(jìn)行了大量的實(shí)驗(yàn)來驗(yàn)證我們?cè)O(shè)計(jì)的有效性。源代碼和預(yù)訓(xùn)練模型可在PaddleDetection PaddlePaddle/PaddleDetection: Object Detection toolkit based on PaddlePaddle. It supports object detection, instance segmentation, multiple object tracking and real-time multi-person keypoint detection. (github.com)。
- 論文地址:[2203.16250] PP-YOLOE: An evolved version of YOLO (arxiv.org)
- 首先PP-YOLOE-l 在COCO數(shù)據(jù)集上達(dá)到了51.4mAP。相比較PP-YOLOv2提升1.9AP和13.35%的速度,相比較YOLOX提升1.3AP和24.96%的速度。PP-YOLOE中主要的改進(jìn)點(diǎn)是:anchor-free,powerful backbone and neck,TAL動(dòng)態(tài)label assign,ET-head。
- 該檢測(cè)器的設(shè)計(jì)機(jī)制包括:Anchor free無錨盒機(jī)制,可擴(kuò)展的backbone和neck,由CSPRepResStage(CSPNet+RMNet)構(gòu)成,使用Varifocal Loss(VFL)和Distribution focal loss(DFL)的頭部機(jī)制ET-head,動(dòng)態(tài)標(biāo)簽分配算法Task Alignment Learning(TAL)
Introduction
-
單級(jí)目標(biāo)檢測(cè)器由于具有良好的速度和精度平衡,在實(shí)時(shí)應(yīng)用中很受歡迎。單級(jí)探測(cè)器中最突出的結(jié)構(gòu)是YOLO系列。自YOLOv1以來,YOLO系列目標(biāo)檢測(cè)器在網(wǎng)絡(luò)結(jié)構(gòu)、標(biāo)簽分配等方面發(fā)生了巨大的變化。目前,YOLOX在Tesla V100上以68.9 FPS的速度實(shí)現(xiàn)了50.1 mAP的速度和精度的最佳平衡。
-
YOLOX引入了先進(jìn)的無錨方法,配備了動(dòng)態(tài)標(biāo)簽分配,提高了探測(cè)器的性能,在精度上明顯優(yōu)于YOLOv5。受YOLOX的啟發(fā),我們進(jìn)一步優(yōu)化了之前的作品PP-YOLOv2。PP-YOLOv2是一款高性能一級(jí)探測(cè)器,在特斯拉V100上具有49.5 mAP, 68.9 FPS的速度。在PP-YOLOv2的基礎(chǔ)上,提出了YOLO的演進(jìn)版本,命名為PP-YOLOE。PP-YOLOE避免使用可變形卷積和矩陣NMS等算子,以便在各種硬件上得到很好的支持。此外,PPYOLOE可以輕松擴(kuò)展到具有不同計(jì)算能力的各種硬件的一系列模型。這些特點(diǎn)進(jìn)一步推動(dòng)了PP-YOLOE在更廣泛的實(shí)際場(chǎng)景中的應(yīng)用。
-
如圖所示,PP-YOLOE在速度和精度權(quán)衡方面優(yōu)于YOLOv5和YOLOX。具體而言,pp - yoloe - 1以 78.1 FPS的速度在640 × 640分辨率的COCO上實(shí)現(xiàn)了51.4 mAP,比pp - yolo2 和yolox - 1分別高出1.9%和1.3% AP。此外,PP-YOLOE有一系列型號(hào),可以像YOLOv5一樣通過寬度乘倍器和深度乘倍器進(jìn)行簡(jiǎn)單配置。我們的代碼已經(jīng)在PaddleDetection上發(fā)布,支持TensorRT和ONNX。
-
-
PP-YOLOE與其他先進(jìn)型號(hào)的比較。pp - yoloe - l在COCO測(cè)試開發(fā)上實(shí)現(xiàn)了51.4 mAP,在Tesla V100上實(shí)現(xiàn)了78.1 FPS,比pp - yoloe - v2獲得了1.9 AP和9.2 FPS的提升。
-
-
PP-YOLOv2的總體情況包括:(1)backbone:具有可變形卷積的ResNet50-vd;(2)neck:具有SPP層的PAN,DropBlock;(3)head:輕量級(jí)的IoU感知;(4)激活函數(shù):在backbone中使用ReLU激活,neck中使用Mish激活;(5)標(biāo)簽分配:為每個(gè)ground truth目標(biāo)分配一個(gè)anchor box;(6)損失:分類損失、回歸損失、目標(biāo)損失,IoU損失和IoU感知損失;
-
PP-YOLOE是基于PP-YOLOv2的卓越的單階段Anchor-free模型,超越了多種流行的YOLO模型。PP-YOLOE有一系列的模型,即s/m/l/x,可以通過width multiplier和depth multiplier配置。PP-YOLOE避免了使用諸如Deformable Convolution或者M(jìn)atrix NMS之類的特殊算子,以使其能輕松地部署在多種多樣的硬件上。
-
PPYOLOE中的anchor free方法,主要就是將之前anchor base中預(yù)測(cè)相較于anchor的xywh,改進(jìn)為預(yù)測(cè)ltrb(left,top,right,bottom),并將ltrb結(jié)果乘上當(dāng)前特征圖的stride。
Method
-
在本節(jié)中,我們將首先回顧我們的基線模型,然后從網(wǎng)絡(luò)結(jié)構(gòu)、標(biāo)簽分配策略、頭部結(jié)構(gòu)和損失函數(shù)等方面詳細(xì)介紹PP-YOLOE的設(shè)計(jì)(下圖)。
-
-
我們PP-YOLOE的模型架構(gòu)。主干是CSPRepResNet,頸部是Path Aggregation Network (PAN),頭部是Efficient Task-aligned head (ET-head)。
-
A Brief Review of PP-YOLOv2
- PP-YOLOv2的整體架構(gòu)包括具有可變形卷積的ResNet50-vd 主干、具有SPP層和DropBlock的PAN主干和輕量級(jí)IoU感知頭。在PPYOLOv2中,主干使用ReLU激活函數(shù),頸部使用mish激活函數(shù)。繼YOLOv3之后,PP-YOLOv2只為每個(gè) GT 值對(duì)象分配一個(gè)錨框。除了分類損失、回歸損失和對(duì)象損失外,PP-YOLOv2還使用IoU損失和IoU感知損失來提高性能。
Improvement of PP-YOLOE
-
Anchor-free。如上所述,PP-YOLOv2以基于錨點(diǎn)的方式分配基礎(chǔ)真理。然而,錨定機(jī)制引入了許多超參數(shù),并且依賴于手工設(shè)計(jì),這可能不能很好地推廣到其他數(shù)據(jù)集?;谝陨显?#xff0c;我們?cè)赑P-YOLOv2中引入無錨法。根據(jù)FCOS[26]在每個(gè)像素上貼合一個(gè)錨點(diǎn),我們?yōu)槿齻€(gè)檢測(cè)頭設(shè)置上下限,將ground truth分配給相應(yīng)的feature map。然后,計(jì)算邊界框的中心,選擇最接近的像素作為正樣本。根據(jù)YOLO序列,預(yù)測(cè)一個(gè)四維向量(x, y, w, h)進(jìn)行回歸。這個(gè)修改使模型更快了一點(diǎn),損失了0.3 AP,如表2所示。雖然根據(jù)PPYOLOv2的錨點(diǎn)尺寸仔細(xì)設(shè)置了上界和下界,但基于錨點(diǎn)和無錨點(diǎn)的賦值結(jié)果仍然存在一些小的不一致,這可能導(dǎo)致精度下降不大。PPYOLOE解析1 Backbone - 飛槳AI Studio (baidu.com)
-
Backbone and Neck。殘差連接和密集連接在現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)中得到了廣泛的應(yīng)用。殘差連接引入了解決梯度消失問題的捷徑,也可以看作是一種模型集成方法。密集連接集合了具有不同接收域的中間特征,在目標(biāo)檢測(cè)任務(wù)中表現(xiàn)出良好的性能。CSPNet利用跨級(jí)密集連接來降低計(jì)算負(fù)擔(dān)而不損失精度,這種方法在YOLOv5、YOLOX等有效的目標(biāo)檢測(cè)器中很流行。VoVNet和隨后的TreeNet在對(duì)象檢測(cè)和實(shí)例分割方面也表現(xiàn)出優(yōu)異的性能。受這些作品的啟發(fā),我們提出了一種結(jié)合殘差連接和密集連接的新型RepResBlock,用于我們的Backbone and Neck。
-
源自TreeBlock,我們的RepResBlock在訓(xùn)練階段如下圖(b)所示,在推理階段如下圖?所示。首先,我們對(duì)原始TreeBlock進(jìn)行簡(jiǎn)化(下圖(a))。然后,我們用元素相加操作代替連接操作(下圖(b)),因?yàn)镽MNet在某種程度上顯示了這兩種操作的近似。因此,在推理階段,我們可以將RepResBlock重新參數(shù)化為ResNet-34以RepVGG風(fēng)格使用的基本殘差塊(下圖?)。
-
-
我們的RepResBlock和CSPRepResStage的結(jié)構(gòu)
-
-
我們使用所提出的RepResBlock來構(gòu)建Backbone and Neck。與ResNet類似,我們的主干名為CSPRepResNet,包含一個(gè)由三個(gè)卷積層組成的主干,以及由我們的RepResBlock堆疊的四個(gè)后續(xù)階段,如上圖(d)所示。在每一步中,采用跨階段部分連接,避免了大量 3 × 3 卷積層帶來的大量參數(shù)和計(jì)算負(fù)擔(dān)。ESE(有效擠壓和提取)層也用于在構(gòu)建主干時(shí)在每個(gè)CSPRepResStage中施加信道注意。我們?cè)赑P-YOLOv2之后使用所提出的RepResBlock和CSPRepResStage構(gòu)建頸部。與主干不同的是,主干去掉了RepResBlock中的殘差鏈接和CSPRepResStage中的ESE層。
-
我們使用寬度乘法器α和深度乘法器β像YOLOv5一樣對(duì)基本 Backbone and Neck 進(jìn)行聯(lián)合縮放。因此,我們可以得到一系列具有不同參數(shù)和計(jì)算量的檢測(cè)網(wǎng)絡(luò)。基本骨干寬度設(shè)置為[64,128,256,512,1024]。除主干外,基本主干的深度設(shè)置為[3,6,6,3]?;绢i寬設(shè)置為[192,384,768],深度設(shè)置為3。下表給出了不同模型的寬度乘法器α和深度乘法器β的規(guī)格。
-
-
寬度乘法器α和深度乘法器β規(guī)范的一系列網(wǎng)絡(luò)
-
-
這樣的修改使AP性能提高了0.7%,即49.5%,如下表所示。
-
-
pp - yoloe - l在COCO val上的燒蝕研究。我們使用640×640分辨率作為輸入,采用fp32精度,在特斯拉V100上進(jìn)行測(cè)試,不進(jìn)行后處理。
-
-
任務(wù)一致性學(xué)習(xí)(TAL)。為了進(jìn)一步提高準(zhǔn)確性,標(biāo)簽分配是另一個(gè)需要考慮的方面。YOLOX使用SimOTA作為標(biāo)簽分配策略來提高性能。然而,為了進(jìn)一步克服分類和定位的錯(cuò)位,在 TOOD 中提出了任務(wù)對(duì)齊學(xué)習(xí)(task alignment learning, TAL),它由動(dòng)態(tài)標(biāo)簽分配和任務(wù)對(duì)齊損失組成。動(dòng)態(tài)標(biāo)簽分配意味著預(yù)測(cè)/損失意識(shí)。根據(jù)預(yù)測(cè),為每個(gè)真值分配動(dòng)態(tài)的正錨點(diǎn)個(gè)數(shù)。通過顯式地對(duì)齊這兩個(gè)任務(wù),TAL可以同時(shí)獲得最高的分類分?jǐn)?shù)和最精確的邊界框。在PP-YOLOE訓(xùn)練時(shí),前5個(gè)epoch是使用ATSS中的分配方式,后續(xù)的epochs才使用TAL作為label assign方式。主要原因是TAL需要模型具有一定表現(xiàn)的基礎(chǔ)上,才能具有比較好的分配效果。
-
比較值得注意的是,往常我們?cè)谟?jì)算class分支的loss時(shí)候,使用BCEloss時(shí)候,輸入分別是pred_score和label_one_hot向量。而在PP-YOLOE中,將label_one_hot向量替換成了TAL分配時(shí)的alignment metric。alignment metric中分?jǐn)?shù)越高,就意味著越是高質(zhì)量樣本,模型希望高質(zhì)量樣本擁有更高的class score。
-
對(duì)于與任務(wù)對(duì)齊的損失,TOOD使用一個(gè)歸一化的 t,即 t ^ \hat{t} t^ 來代替損失中的目標(biāo)。它采用每個(gè)實(shí)例中最大的IoU作為規(guī)范化。分類的二進(jìn)制交叉熵(Binary Cross Entropy, BCE)可以重寫為:
- L c l s ? p o s = ∑ i = 1 N p o s B C E ( p i , t i ^ ) , ( 1 ) L_{cls-pos}=\sum_{i=1}^{N_{pos}}BCE(p_i,\hat{t_i}),(1) Lcls?pos?=i=1∑Npos??BCE(pi?,ti?^?),(1)
-
我們研究了使用不同標(biāo)簽分配策略的性能。本文以CSPRepResNet為骨干,在上述改進(jìn)的模型上進(jìn)行了實(shí)驗(yàn)。為了快速得到驗(yàn)證結(jié)果,我們只在COCO train2017上訓(xùn)練了36個(gè)epoch,并在COCO val上進(jìn)行驗(yàn)證,如下表所示,TAL達(dá)到了最佳的45.2% AP性能。我們使用TAL替代標(biāo)簽分配,如FCOS樣式,并實(shí)現(xiàn)0.9% AP改進(jìn)- 50.4% AP,如上表所示。
-
-
不同的標(biāo)簽分配在基本模型上。我們使用CSPRepResStage作為主干和頸部,一個(gè)1×1 conv層作為頭部,在COCO train2017上只訓(xùn)練了36個(gè)epoch。
-
-
高效任務(wù)對(duì)齊頭(ET-head)。在目標(biāo)檢測(cè)中,分類與定位之間的任務(wù)沖突是一個(gè)眾所周知的問題。許多文獻(xiàn)都提出了相應(yīng)的解決方案。YOLOX的解耦頭吸取了大多數(shù)一級(jí)和二級(jí)檢測(cè)器的經(jīng)驗(yàn),并成功應(yīng)用于YOLO模型,提高了精度。但是,解耦的頭部可能會(huì)使分類和定位任務(wù)分離和獨(dú)立,缺乏針對(duì)任務(wù)的學(xué)習(xí)。在TOOD的基礎(chǔ)上,我們改進(jìn)了頭,提出了以速度和精度為目標(biāo)的ET-head。如圖上所示,我們使用ESE取代了tod中的層關(guān)注,將分類分支的對(duì)齊簡(jiǎn)化為shortcut,將回歸分支的對(duì)齊替換為分布焦損(distributed focal loss, DFL)層。通過上述變化,ET-head在V100上增加了0.9ms。
-
對(duì)于分類和定位任務(wù)的學(xué)習(xí),我們分別選擇了變焦損失(VFL)和分布焦損失(DFL)。PP-Picodet成功地將VFL和DFL應(yīng)用于目標(biāo)檢測(cè)器,并獲得了性能提升。對(duì)于VFL,與[Generalized focal loss]中的質(zhì)量焦點(diǎn)損失(quality focal loss, QFL)不同,VFL使用目標(biāo)分?jǐn)?shù)來加權(quán)陽性樣本的損失。這種實(shí)現(xiàn)使得高IoU的陽性樣本對(duì)損失的貢獻(xiàn)相對(duì)較大。這也使得模型在訓(xùn)練時(shí)更加關(guān)注高質(zhì)量的樣本,而不是那些低質(zhì)量的樣本。相同的是,兩者都使用IACS作為預(yù)測(cè)的目標(biāo)。這可以有效地學(xué)習(xí)分類分?jǐn)?shù)和定位質(zhì)量估計(jì)的聯(lián)合表示,使訓(xùn)練和推理之間具有較高的一致性。對(duì)于DFL,為了解決邊界框表示不靈活的問題,[Generalized focal loss]提出使用一般分布來預(yù)測(cè)邊界框。我們的模型由損失函數(shù)監(jiān)督:
-
L o s s = α ? L o s s V F L + β ? L o s s G I O U + γ ? L o s s D F L ∑ i N p o s t ^ , ( 2 ) Loss=\frac{\alpha·Loss_{VFL}+\beta ·Loss_{GIOU}+\gamma ·Loss_{DFL}}{\sum^{N_{pos}}_i\hat t},(2) Loss=∑iNpos??t^α?LossVFL?+β?LossGIOU?+γ?LossDFL??,(2)
-
其中, t ^ \hat t t^表示歸一化目標(biāo)得分,見式(1)。如上表所示,ET-head獲得0.5% AP改善- 50.9% AP
-
-
分類分支:VFL提出了非對(duì)稱的加權(quán)操作。正負(fù)樣本有不平衡的問題,同樣在正樣本中也有不等權(quán)的問題,意思就是要更多的發(fā)現(xiàn)有價(jià)值的正樣本。在為負(fù)樣本的時(shí)候,不同的負(fù)樣本的weight主要由當(dāng)前pred_score決定,pred_score越大,weight越大,loss越大。而在為正樣本的時(shí)候,weight為gt_score,而gt_score來源于TAL assign時(shí)。這也就達(dá)到了①正樣本和負(fù)樣本權(quán)重計(jì)算方式不同,②每個(gè)正負(fù)樣本在計(jì)算loss時(shí)的權(quán)重都是不同的,達(dá)到了非對(duì)稱的加權(quán)操作。
-
回歸分支:目標(biāo)檢測(cè)任務(wù)中做回歸一般是直接預(yù)測(cè)某個(gè)回歸值,或者預(yù)測(cè)相較于anchor的比例,而distribution focal loss (DFL)作者認(rèn)為之前的bbox regression 采用的表示不夠靈活,沒有辦法建模復(fù)雜場(chǎng)景下的uncertainty。用直接回歸一個(gè)任意分布來建??虻谋硎究梢杂懈玫男Ч?/strong>。在PP-YOLOE中,將回歸看作是一個(gè)分布預(yù)測(cè)任務(wù)。
Experiment
- 在本節(jié)中,我們給出了實(shí)驗(yàn)的細(xì)節(jié)和結(jié)果。所有實(shí)驗(yàn)都在MS COCO-2017訓(xùn)練集上進(jìn)行訓(xùn)練,該訓(xùn)練集有80個(gè)類,118k張圖像。對(duì)于消融研究,我們?cè)?000張圖像的MS COCO-2017驗(yàn)證集上使用具有單一尺度的標(biāo)準(zhǔn)COCO AP度量。我們使用MS COCO-2017 test-dev報(bào)告最終結(jié)果。
Implementation details
- 我們使用隨機(jī)梯度下降(SGD),動(dòng)量= 0.9,權(quán)重衰減= 5e-4。我們使用余弦學(xué)習(xí)率計(jì)劃,總epochs為300次,熱身次數(shù)為5次,基本學(xué)習(xí)率為0.01。在8 × 32 G V100 GPU設(shè)備上,總批大小默認(rèn)為64個(gè),我們遵循線性縮放規(guī)則來調(diào)整學(xué)習(xí)率。在訓(xùn)練過程中也采用衰減= 0.9998的指數(shù)移動(dòng)平均(EMA)策略。我們只使用一些基本的數(shù)據(jù)增強(qiáng),包括隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)、顏色失真和多尺度。特別地,輸入大小均勻地從320繪制到768,步幅為32。
Comparsion with Other SOTA Detectors
-
下表顯示了MS-COCO測(cè)試分裂與其他最先進(jìn)的目標(biāo)檢測(cè)器的結(jié)果比較。我們使用官方代碼庫重新評(píng)估YOLOv5和YOLOX,因?yàn)樗鼈冇蟹穷A(yù)定的更新。我們比較了批處理大小= 1(沒有數(shù)據(jù)預(yù)處理和非最大抑制)的模型推理速度。而PP-YOLOE系列采用槳葉推理引擎。此外,為了公平比較,我們還在相同的環(huán)境下測(cè)試了基于tensorRT 6.0的FP16精度速度。應(yīng)該強(qiáng)調(diào)的是,PaddlePaddle2正式支持用于模型部署的tensorRT。因此,PPYOLOE可以直接使用帶有tensorRT的槳葉推理,其他測(cè)試遵循官方指南。
-
-
不同目標(biāo)檢測(cè)器在COCO 2017測(cè)試開發(fā)中的速度和精度比較。標(biāo)注“+”的結(jié)果為官方發(fā)布的更新結(jié)果。用“*”標(biāo)記的結(jié)果在我們的環(huán)境中使用官方代碼庫和模型進(jìn)行測(cè)試。在驗(yàn)證和速度測(cè)試中,YOLOv5的輸入大小不是640 × 640的平方,所以我們?cè)诒碇刑^它。默認(rèn)精度的速度是FP32的無trt和FP16的有trt。此外,我們?yōu)閅OLOX w/o trt場(chǎng)景提供了FP32和FP16, FP32的速度在分割線的左側(cè),FP16的速度在右側(cè)。PP-YOLOE+使用在Objects365數(shù)據(jù)集上預(yù)訓(xùn)練的模型。
-
Conclusion
-
在本報(bào)告中,我們提出了PPYOLOv2的幾個(gè)更新,包括可擴(kuò)展的主干頸架構(gòu),高效的任務(wù)對(duì)齊頭,先進(jìn)的標(biāo)簽分配策略和改進(jìn)的目標(biāo)損失函數(shù),形成了一系列高性能的目標(biāo)檢測(cè)器,稱為PP-YOLOE。同時(shí),我們提出了s/m/l/x模型,可以覆蓋不同的實(shí)際場(chǎng)景。此外,在PaddlePaddle官方支持下,這些模型可以順利過渡到部署。我們希望這些令人鼓舞的設(shè)計(jì)可以為開發(fā)人員和研究人員提供靈感。
-
Backbone 翻譯為主干網(wǎng)絡(luò)的意思,既然說是主干網(wǎng)絡(luò),就代表其是網(wǎng)絡(luò)的一部分,那么是哪部分呢?翻譯的很好,主干部分,哈哈哈哈,文字游戲了哈。這個(gè)主干網(wǎng)絡(luò)大多時(shí)候指的是提取特征的網(wǎng)絡(luò),其作用就是提取圖片中的信息,共后面的網(wǎng)絡(luò)使用。這些網(wǎng)絡(luò)經(jīng)常使用的是resnet VGG等,而不是我們自己設(shè)計(jì)的網(wǎng)絡(luò),因?yàn)檫@些網(wǎng)絡(luò)已經(jīng)證明了在分類等問題上的特征提取能力是很強(qiáng)的。在用這些網(wǎng)絡(luò)作為backbone的時(shí)候,都是直接加載官方已經(jīng)訓(xùn)練好的模型參數(shù),后面接著我們自己的網(wǎng)絡(luò)。讓網(wǎng)絡(luò)的這兩個(gè)部分同時(shí)進(jìn)行訓(xùn)練,因?yàn)榧虞d的backbone模型已經(jīng)具有提取特征的能力了,在我們的訓(xùn)練過程中,會(huì)對(duì)他進(jìn)行微調(diào),使得其更適合于我們自己的任務(wù)。(14 封私信 / 80 條消息) 深度學(xué)習(xí)網(wǎng)絡(luò)中backbone是什么意思? - 知乎 (zhihu.com)
SAHI:超大圖片中對(duì)小目標(biāo)檢測(cè)的切片輔助超推理庫
-
目標(biāo)檢測(cè)和實(shí)例分割是迄今為止計(jì)算機(jī)視覺中最重要的應(yīng)用領(lǐng)域。然而,小物體的檢測(cè)和大圖像的推理仍然是實(shí)際使用中的主要問題。切片推理的概念基本上是;對(duì)原始圖像的較小切片執(zhí)行推理,然后合并原始圖像上的切片預(yù)測(cè)??梢杂孟聢D表示:
-
為了提高你的模型在小目標(biāo)上的性能,推薦以下技術(shù):medium.com
- 提高圖像采集的分辨率
- 增加模型的輸入分辨率
- tile你的圖像
- 通過增強(qiáng)生成更多數(shù)據(jù)
- 自動(dòng)學(xué)習(xí)模型anchors
- 過濾掉無關(guān)的類別
-
檢測(cè)小物體的另一個(gè)重要策略是將圖像切割后形成batch,這個(gè)操作叫做tile,作為預(yù)處理步驟。tile可以有效地將檢測(cè)器聚焦在小物體上,但允許你保持所需的小輸入分辨率,以便能夠運(yùn)行快速推斷。