做數(shù)學(xué)的網(wǎng)站視頻外鏈平臺(tái)
在前面幾章里,都只做了目標(biāo)檢測(cè)中的目標(biāo)定位任務(wù),并未做目標(biāo)分類任務(wù)。目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺領(lǐng)域的核心人物之一,旨在從圖像中識(shí)別出所有感興趣的目標(biāo),并確定它們的類別和位置。現(xiàn)在目標(biāo)檢測(cè)以一階段模型和兩階段模型為代表的。本章將以簡(jiǎn)單的任務(wù)來對(duì)這兩種模型進(jìn)行介紹。
一、一階段模型(One-Stage Model)
一階段模型是指在目標(biāo)檢測(cè)任務(wù)中,直接輸入圖像并同事輸出圖中存在的物體類別和對(duì)應(yīng)的位置信息,無需先提取候選區(qū)域。這類模型通常具有較高的檢測(cè)速度,但可能在檢測(cè)精度上略有犧牲。其主要特點(diǎn)是將目標(biāo)檢測(cè)問題轉(zhuǎn)化為回歸問題處理,直接預(yù)測(cè)出目標(biāo)的位置和類別信息。
優(yōu)點(diǎn):
- 檢測(cè)速度快,適合實(shí)時(shí)性要求高的應(yīng)用場(chǎng)景。
- 模型結(jié)構(gòu)相對(duì)簡(jiǎn)單,易于實(shí)現(xiàn)和部署。
缺點(diǎn):
- 相對(duì)于兩階段模型,檢測(cè)精度可能稍遜一籌
- 對(duì)于小目標(biāo)的檢測(cè)能力仍需進(jìn)一步提升
一階段模型中的典型算法有YOLO(You Only Look Once)系列(YOLO1、YOLO2、......YOLO8)、CenterNet等。在后面的章節(jié)中才會(huì)仔細(xì)介紹這些算法,這里暫時(shí)只用簡(jiǎn)單的檢測(cè)任務(wù)和簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型介紹一階段模型和二階段模型的主要區(qū)別。

如上圖所示,圖像輸入模型中,模型輸出預(yù)測(cè)框坐標(biāo)和預(yù)測(cè)框?qū)?yīng)目標(biāo)的類別,只有一個(gè)階段,預(yù)測(cè)值只需通過一個(gè)模型即可得到。
二、兩階段模型(Two-Stage Model)
兩階段模型在目標(biāo)檢測(cè)任務(wù)中,首先生成一系列作為樣本的候選區(qū)域(Region Proposal),然后對(duì)這些候選區(qū)域進(jìn)行分類和位置回歸,以確定它們是否包含目標(biāo)物體以及目標(biāo)物體的精確位
優(yōu)點(diǎn):
- 檢測(cè)精度高,能夠處理復(fù)雜的檢測(cè)任務(wù)。
- 適用于對(duì)檢測(cè)精度要求較高的應(yīng)用場(chǎng)景。
缺點(diǎn):
- 檢測(cè)速度相對(duì)較慢,難以滿足實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景。
- 候選區(qū)域的生成質(zhì)量對(duì)模型的最終性能有較大影響,需要精心設(shè)計(jì)和優(yōu)化。
兩階段模型中的典型算法有R-CNN系列,包括R-CNN、Fast R-CNN、Faster R-CNN等。其中又以Faster R-CNN使用較為廣泛。在后面的章節(jié)才會(huì)仔細(xì)介紹Faster R-CNN算法。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

如上圖所示,圖像輸入模型中,第一個(gè)神經(jīng)網(wǎng)絡(luò)模型輸出可能存在目標(biāo)的建議框和與輸入圖像對(duì)應(yīng)的特征圖,再將特征圖和建議框輸入到第二個(gè)神經(jīng)網(wǎng)絡(luò)模型中,通過對(duì)建議框的篩選回歸和分類得到最終的預(yù)測(cè)框坐標(biāo)和對(duì)應(yīng)的類別,預(yù)測(cè)值需要通過兩個(gè)模型才可得到。兩階段模型在訓(xùn)練時(shí)對(duì)應(yīng)會(huì)有兩個(gè)部分的損失,需要準(zhǔn)備的標(biāo)簽相較于一階段模型多,在模型訓(xùn)練時(shí)推理的時(shí)間也需要更多,但最終的模型的檢測(cè)效果通常下比一階段模型較好。