佛山優(yōu)化網(wǎng)站排名收費(fèi)關(guān)鍵詞推廣優(yōu)化外包
目錄標(biāo)題
- 參考
- 目標(biāo)檢測(cè)定義
- 深度學(xué)習(xí)對(duì)目標(biāo)檢測(cè)的作用
- 單目標(biāo)檢測(cè)
- 多任務(wù)框架
- 多任務(wù)損失
- 預(yù)訓(xùn)練模型
- 姿態(tài)估計(jì)
- 多目標(biāo)檢測(cè)
- 問題
- 滑動(dòng)窗口(Sliding Window)
- 滑動(dòng)窗口缺點(diǎn)
- AdaBoost(Adaptive Boosting)
- 參考
- 區(qū)域建議 selective search 思想
- 慢速R-CNN
- 慢速R-CNN思路
- 邊界框回歸(Bbox reg)
- 慢速R-CNN缺點(diǎn)
- Fast R-CNN
- 改進(jìn)一:先提取特征后區(qū)域建議
- 改進(jìn)二:全連接神經(jīng)網(wǎng)絡(luò)
- 改進(jìn)三:裁剪+縮放特征(RoI Pool)
- 為什么需要RoI Pool?
- 區(qū)域裁剪
- Rol Pool
- Rol Align
- Fast R-CNN的問題
- Fast R-CNN vs 慢速R-CNN
- Faster R-CNN
- RPN(Region Proposal Network)
- 區(qū)域建議(Region Proposal Network)
- 運(yùn)行分為兩個(gè)階段
- Faster R-CNN速度
- 目標(biāo)檢測(cè): 影響精度的因素 ...
參考
【計(jì)算機(jī)視覺】計(jì)算機(jī)視覺與深度學(xué)習(xí)-07-目標(biāo)檢測(cè)-北郵魯鵬老師課程筆記
計(jì)算機(jī)視覺與深度學(xué)習(xí) 北京郵電大學(xué) 魯鵬 清晰版合集(完整版)
目標(biāo)檢測(cè)定義
目標(biāo)檢測(cè)的目標(biāo)是確定圖像中存在的目標(biāo)的類別,并在圖像中標(biāo)記出它們的位置,通常使用邊界框來表示目標(biāo)的位置和大小。
單目標(biāo)檢測(cè):分類+定位
深度學(xué)習(xí)對(duì)目標(biāo)檢測(cè)的作用
深度學(xué)習(xí)通過使用深層神經(jīng)網(wǎng)絡(luò)模型,可以從原始像素級(jí)別上學(xué)習(xí)和提取圖像特征,從而實(shí)現(xiàn)目標(biāo)檢測(cè)。
單目標(biāo)檢測(cè)
將定位任務(wù)建模為回歸問題!
多任務(wù)框架
一個(gè)任務(wù)是:分類。
另一個(gè)任務(wù)是:定位。
多任務(wù)損失
網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是降低總損失,所以 softmax loss 和 L2 loss 將同時(shí)減小,也可以為 softmax loss 和 L2 loss 分別設(shè)置一個(gè)權(quán)重,通過改變權(quán)重,調(diào)整 softmax loss 和 L2 loss 在總損失中所占的比重。
預(yù)訓(xùn)練模型
目標(biāo)檢測(cè)中,一般不從頭開始訓(xùn)練網(wǎng)絡(luò),而是使用ImageNet上預(yù)訓(xùn)練的模型。
一般分三個(gè)階段:
1、分類訓(xùn)練階段
在這個(gè)階段,通常使用預(yù)訓(xùn)練的分類模型(如在ImageNet上預(yù)訓(xùn)練的模型)來進(jìn)行訓(xùn)練。該模型已經(jīng)在大規(guī)模圖像分類任務(wù)上學(xué)習(xí)到了豐富的圖像特征。然后,將最后的全連接層替換成適應(yīng)目標(biāo)檢測(cè)任務(wù)的新的全連接層,并使用目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行訓(xùn)練。這個(gè)階段的目標(biāo)是學(xué)習(xí)分類任務(wù)所需的特征表示。
2、定位訓(xùn)練階段
在這個(gè)階段,固定預(yù)訓(xùn)練模型的大部分層,并僅僅調(diào)整輸出層和一些頂層特征層。然后,使用目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行訓(xùn)練,讓模型學(xué)習(xí)如何準(zhǔn)確地定位目標(biāo)。這個(gè)階段的目標(biāo)是學(xué)習(xí)目標(biāo)的位置信息。
3、分類和定位一起訓(xùn)練階段
在這個(gè)階段,不僅訓(xùn)練分類任務(wù),還同時(shí)訓(xùn)練目標(biāo)的位置信息。在模型中同時(shí)使用分類和定位損失函數(shù),并根據(jù)這兩個(gè)任務(wù)的權(quán)重進(jìn)行綜合訓(xùn)練。這個(gè)階段的目標(biāo)是綜合考慮分類和定位任務(wù),使模型能夠準(zhǔn)確地檢測(cè)并定位目標(biāo)。
姿態(tài)估計(jì)
姿態(tài)估計(jì)(Pose Estimation)是計(jì)算機(jī)視覺中的一個(gè)重要任務(wù),旨在從圖像或視頻中推斷出人體、物體或其他目標(biāo)的姿態(tài)信息,包括位置、方向和關(guān)節(jié)角度等。
單目標(biāo)檢測(cè)的思路,還應(yīng)用于單人體姿態(tài)估計(jì),與box coordinates不同的是,在人體上標(biāo)注關(guān)鍵點(diǎn),然后通過訓(xùn)練,與標(biāo)答進(jìn)行對(duì)比。
-
目標(biāo)檢測(cè): 首先,使用目標(biāo)檢測(cè)算法來檢測(cè)圖像中的人體目標(biāo)。目標(biāo)檢測(cè)算法可以是傳統(tǒng)的方法(如基于特征的方法)或深度學(xué)習(xí)方法(如基于卷積神經(jīng)網(wǎng)絡(luò)的方法)。檢測(cè)到的人體目標(biāo)將作為后續(xù)姿態(tài)估計(jì)的輸入。
-
關(guān)鍵點(diǎn)定位: 對(duì)于每個(gè)檢測(cè)到的人體目標(biāo),需要進(jìn)一步定位其關(guān)鍵點(diǎn),例如人體姿態(tài)估計(jì)中的關(guān)節(jié)點(diǎn)??梢允褂藐P(guān)鍵點(diǎn)檢測(cè)算法(如姿態(tài)估計(jì)算法或關(guān)鍵點(diǎn)檢測(cè)算法)來定位人體關(guān)鍵點(diǎn)。這些算法可以是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,也可以是基于深度學(xué)習(xí)的方法。
-
姿態(tài)估計(jì): 一旦獲得了人體關(guān)鍵點(diǎn)的位置,可以使用姿態(tài)估計(jì)算法來推斷人體的姿態(tài)信息,如人體的位置、旋轉(zhuǎn)和關(guān)節(jié)角度等。姿態(tài)估計(jì)算法可以基于幾何模型、優(yōu)化方法或深度學(xué)習(xí)方法。根據(jù)應(yīng)用需求,可以選擇合適的姿態(tài)表示形式,如關(guān)節(jié)角度、骨架模型或三維姿態(tài)等。
-
后處理與應(yīng)用: 最后,可以對(duì)估計(jì)的姿態(tài)結(jié)果進(jìn)行后處理,如濾波或平滑操作,以提高估計(jì)的準(zhǔn)確性和穩(wěn)定性。得到最終的姿態(tài)估計(jì)結(jié)果后,可以將其應(yīng)用于各種應(yīng)用領(lǐng)域,如動(dòng)作識(shí)別、運(yùn)動(dòng)分析、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等。
多目標(biāo)檢測(cè)
問題
困境:每張圖像期望輸出的維度都不一樣。
神經(jīng)網(wǎng)絡(luò)的標(biāo)答是預(yù)先建立好的,因?yàn)槎嗄繕?biāo)檢測(cè)中目標(biāo)數(shù)量并不確定,輸出的維度不確定,就無法建立Correct box標(biāo)答,如果使用單目標(biāo)檢測(cè)的訓(xùn)練方法,無法建立多目標(biāo)檢測(cè)的表達(dá),訓(xùn)練將不能進(jìn)行。
滑動(dòng)窗口(Sliding Window)
在圖像上以不同的尺度和位置滑動(dòng)固定大小的窗口,然后在每個(gè)窗口上應(yīng)用分類器或特征提取方法來判斷窗口內(nèi)是否存在目標(biāo)。滑動(dòng)窗口方法可以用于檢測(cè)不同尺寸的目標(biāo),并且可以通過滑動(dòng)步長控制檢測(cè)的精度和速度。
將圖像中所有可能的區(qū)域都給到分類器進(jìn)行分類,只留下能正確分類的窗口。
困境:CNN需要對(duì)圖像中所有可能的區(qū)域(不同位置、尺寸、長寬比)進(jìn)行分類,計(jì)算量巨大!
滑動(dòng)窗口缺點(diǎn)
窮舉圖像中成千上萬的區(qū)域進(jìn)行分類,對(duì)于神經(jīng)網(wǎng)絡(luò),計(jì)算量很大。
針對(duì)這個(gè)問題,提出了一種新的思想,先從圖像中產(chǎn)生一些候選區(qū)域再進(jìn)行分類,而不是窮舉圖像中所有區(qū)域。例如:selective search
AdaBoost(Adaptive Boosting)
AdaBoost是一個(gè)非常快的分類器,可以對(duì)圖像上的區(qū)域進(jìn)行窮舉后分類。
參考
AdaBoost算法超詳細(xì)講解
AdaBoost 是一種集成學(xué)習(xí)算法,用于提高分類器的性能。它通過迭代訓(xùn)練一系列弱分類器(如決策樹、支持向量機(jī)等),每次迭代都根據(jù)前一輪分類結(jié)果對(duì)樣本進(jìn)行調(diào)整,使得難以分類的樣本獲得更高的權(quán)重,從而加強(qiáng)對(duì)這些樣本的分類能力。最終,通過組合多個(gè)弱分類器,AdaBoost 可以產(chǎn)生一個(gè)強(qiáng)大的分類器。
區(qū)域建議 selective search 思想
針對(duì)窮舉圖像所有區(qū)域神經(jīng)網(wǎng)絡(luò)分類計(jì)算量大這個(gè)問題,提出了一種新的思想,先從圖像中產(chǎn)生一些候選區(qū)域再進(jìn)行分類,而不是窮舉圖像中所有區(qū)域。例如:selective search。
選擇性搜索(Selective Search):選擇性搜索是一種經(jīng)典的區(qū)域建議算法。它基于圖像的顏色、紋理、邊緣等信息,在不同尺度和層次上進(jìn)行區(qū)域合并和分割,生成一系列候選區(qū)域。
selective search思想是在R-CNN的論文中提出的。
慢速R-CNN
基于區(qū)域的目標(biāo)檢測(cè)算法。
慢速R-CNN思路
1 利用區(qū)域建議產(chǎn)生感興趣的區(qū)域。(存入硬盤)
2 對(duì)區(qū)域進(jìn)行縮放。
3 將圖像區(qū)域送入卷積網(wǎng)絡(luò)進(jìn)行特征提取。(存入硬盤)
4 使用支持向量機(jī)對(duì)區(qū)域進(jìn)行分類,同時(shí)進(jìn)行邊界框回歸(修正學(xué)習(xí))。
邊界框回歸(Bbox reg)
區(qū)域建議生成的區(qū)域,可能有損失,效果不好,進(jìn)行邊界框回歸,就是為了修正區(qū)域建議生成的區(qū)域與真實(shí)區(qū)域的偏差。
邊框回歸(Bounding Box Regression)詳解
對(duì)于上圖,綠色的框表示Ground Truth, 紅色的框?yàn)镾elective Search提取的Region Proposal。那么即便紅色的框被分類器識(shí)別為飛機(jī),但是由于紅色的框定位不準(zhǔn)(IoU<0.5), 那么這張圖相當(dāng)于沒有正確的檢測(cè)出飛機(jī)。 如果我們能對(duì)紅色的框進(jìn)行微調(diào), 使得經(jīng)過微調(diào)后的窗口跟Ground Truth 更接近, 這樣豈不是定位會(huì)更準(zhǔn)確。 確實(shí),Bounding-box regression 就是用來微調(diào)這個(gè)窗口的。
慢速R-CNN缺點(diǎn)
問題:計(jì)算效率低下,每張圖像大約有2k個(gè)區(qū)域需要卷積網(wǎng)絡(luò)進(jìn)行特征提取,重疊區(qū)域反復(fù)計(jì)算。
Fast R-CNN
在Fast R-CNN中,首先通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取整個(gè)圖像的特征圖。然后,針對(duì)每個(gè)感興趣區(qū)域(Region of Interest,RoI),通過RoI池化層將其映射為固定大小的特征圖。這樣可以避免在每個(gè)RoI上進(jìn)行獨(dú)立的卷積操作,從而大大減少了計(jì)算量。
接下來,將RoI映射后的特征圖輸入到全連接層中,進(jìn)行目標(biāo)分類和邊界框回歸。分類部分使用softmax函數(shù)對(duì)RoI進(jìn)行多類別分類,而邊界框回歸則用于預(yù)測(cè)目標(biāo)的位置和大小。
Fast R-CNN的訓(xùn)練是端到端的,可以通過反向傳播同時(shí)優(yōu)化特征提取網(wǎng)絡(luò)和分類/回歸網(wǎng)絡(luò)。這種端到端的訓(xùn)練方式比R-CNN中的多階段訓(xùn)練更加高效。
改進(jìn)一:先提取特征后區(qū)域建議
如果先進(jìn)行區(qū)域建議后進(jìn)行特征提取,計(jì)算量比較大。因此先對(duì)整個(gè)圖片進(jìn)行卷積提取特征后,在特征圖上進(jìn)行區(qū)域扣取。
改進(jìn)二:全連接神經(jīng)網(wǎng)絡(luò)
改進(jìn)三:裁剪+縮放特征(RoI Pool)
為什么需要RoI Pool?
先來看一個(gè)問題:對(duì)于傳統(tǒng)的CNN(如AlexNet和VGG),當(dāng)網(wǎng)絡(luò)訓(xùn)練好后輸入的圖像尺寸必須是固定值,同時(shí)網(wǎng)絡(luò)輸出也是固定大小的vector or matrix。如果輸入圖像大小不定,這個(gè)問題就變得比較麻煩。有2種解決辦法:
- 從圖像中crop一部分傳入網(wǎng)絡(luò)。
- 將圖像warp成需要的大小后傳入網(wǎng)絡(luò)。
兩種辦法的示意圖如圖,可以看到無論采取那種辦法都不好,要么crop后破壞了圖像的完整結(jié)構(gòu),要么warp破壞了圖像原始形狀信息。
回憶RPN網(wǎng)絡(luò)生成的proposals的方法:對(duì)positive anchors進(jìn)行bounding box regression,那么這樣獲得的proposals也是大小形狀各不相同,即也存在上述問題。所以Faster R-CNN中提出了RoI Pooling解決這個(gè)問題。不過RoI Pooling確實(shí)是從Spatial Pyramid Pooling發(fā)展而來。
通過RoI Pooling,即使大小不同的proposal輸出結(jié)果都是固定大小,實(shí)現(xiàn)了固定長度輸出。
參考:一文讀懂Faster RCNN
區(qū)域裁剪
Rol Pool
區(qū)域頂點(diǎn)規(guī)整到網(wǎng)格交點(diǎn)上(有偏移)
然后進(jìn)行處理
Rol Pool處理前不同的區(qū)域特征的空間尺寸可能不一致,但是處理后的所有區(qū)域特征尺寸都是一樣的。
問題: 處理后的區(qū)域特征會(huì)有輕微的對(duì)不齊!
Rol Align
區(qū)域頂點(diǎn)不規(guī)整到網(wǎng)格交點(diǎn)上(無偏移)
在每個(gè)區(qū)域中選擇幾個(gè)關(guān)鍵點(diǎn),關(guān)鍵點(diǎn)個(gè)數(shù)是可自定義的,是超參數(shù)。
RoI Align 解決了傳統(tǒng) RoI Pooling 中的精度損失和空間錯(cuò)位問題。它通過使用雙線性插值的方式,精確地計(jì)算感興趣區(qū)域內(nèi)每個(gè)位置的特征值。具體而言,RoI Align 將感興趣區(qū)域劃分為更細(xì)的小格,然后在每個(gè)小格內(nèi)使用雙線性插值計(jì)算對(duì)應(yīng)位置的特征值。最后,這些特征值通過平均池化得到感興趣區(qū)域的特征表示。
雙線性插值: 在每個(gè)小格內(nèi)使用雙線性插值來計(jì)算對(duì)應(yīng)位置的特征值。雙線性插值利用小格內(nèi)的四個(gè)相鄰像素的特征值,通過加權(quán)平均來估計(jì)目標(biāo)位置的特征值。
雙線性插值通過使用周圍四個(gè)最近的數(shù)據(jù)點(diǎn)來估計(jì)目標(biāo)位置的值。假設(shè)我們要在一個(gè)二維網(wǎng)格上進(jìn)行插值,其中四個(gè)最近的數(shù)據(jù)點(diǎn)的坐標(biāo)為 (x1, y1)、(x1, y2)、(x2, y1) 和 (x2, y2),目標(biāo)位置的坐標(biāo)為 (x, y)。雙線性插值的計(jì)算步驟如下:
- 計(jì)算水平方向上的插值:
a. 在 x 軸上,對(duì)數(shù)據(jù)點(diǎn) (x1, y1) 和 (x2, y1) 進(jìn)行線性插值,得到兩個(gè)插值結(jié)果:
f 1 = f ( x 1 ) + ( x ? x 1 ) ? ( f ( x 2 ) ? f ( x 1 ) ) / ( x 2 ? x 1 ) f_1 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f1?=f(x1)+(x?x1)?(f(x2)?f(x1))/(x2?x1)
f 2 = f ( x 1 ) + ( x ? x 1 ) ? ( f ( x 2 ) ? f ( x 1 ) ) / ( x 2 ? x 1 ) f_2 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f2?=f(x1)+(x?x1)?(f(x2)?f(x1))/(x2?x1)。
b. 在 x 軸上,對(duì)數(shù)據(jù)點(diǎn) (x1, y2) 和 (x2, y2) 進(jìn)行線性插值,得到兩個(gè)插值結(jié)果:
f 3 = f ( x 1 ) + ( x ? x 1 ) ? ( f ( x 2 ) ? f ( x 1 ) ) / ( x 2 ? x 1 ) f_3 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f3?=f(x1)+(x?x1)?(f(x2)?f(x1))/(x2?x1)
f 4 = f ( x 1 ) + ( x ? x 1 ) ? ( f ( x 2 ) ? f ( x 1 ) ) / ( x 2 ? x 1 ) f_4 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1) f4?=f(x1)+(x?x1)?(f(x2)?f(x1))/(x2?x1)。
- 計(jì)算垂直方向上的插值:
a. 在 y 軸上,對(duì)插值結(jié)果 f1 和 f2 進(jìn)行線性插值,得到結(jié)果: f 12 = f 1 + ( y ? y 1 ) ? ( f 2 ? f 1 ) / ( y 2 ? y 1 ) f_{12} = f_1 + (y - y_1) * (f_2 - f_1) / (y_2 - y_1) f12?=f1?+(y?y1?)?(f2??f1?)/(y2??y1?)。
b. 在 y 軸上,對(duì)插值結(jié)果 f3 和 f4 進(jìn)行線性插值,得到結(jié)果: f 34 = f 3 + ( y ? y 1 ) ? ( f 4 ? f 3 ) / ( y 2 ? y 1 ) f_{34} = f_3 + (y - y_1) * (f_4 - f_3) / (y_2 - y_1) f34?=f3?+(y?y1?)?(f4??f3?)/(y2??y1?)。
最終的插值結(jié)果為在垂直方向上插值得到的 f 12 f_{12} f12?和 f 34 f_{34} f34?的線性插值結(jié)果: f = f 12 + ( y ? y 1 ) ? ( f 34 ? f 12 ) / ( y 2 ? y 1 ) f = f_{12} + (y - y_1) * (f_{34} - f_{12}) / (y_2 - y_1) f=f12?+(y?y1?)?(f34??f12?)/(y2??y1?)。
Fast R-CNN的問題
selective search 區(qū)域建議 耗時(shí)過高,幾乎等于單張圖片的檢測(cè)時(shí)間。
Fast R-CNN vs 慢速R-CNN
Fast R-CNN 相對(duì)于慢速 R-CNN 有幾個(gè)改進(jìn)點(diǎn):
- 特征共享:Fast R-CNN 在整個(gè)圖像上只進(jìn)行一次卷積運(yùn)算,而慢速 R-CNN 需要為每個(gè)候選區(qū)域分別進(jìn)行卷積運(yùn)算。這意味著 Fast R-CNN 可以共享卷積層的計(jì)算,從而更高效地提取特征。
- 單次前向傳播:Fast R-CNN 可以通過單次前向傳播同時(shí)計(jì)算所有候選區(qū)域的特征和分類結(jié)果,而慢速 R-CNN 需要為每個(gè)候選區(qū)域獨(dú)立地進(jìn)行前向傳播,效率較低。
- 損失函數(shù):Fast R-CNN 引入了多任務(wù)損失函數(shù),同時(shí)優(yōu)化目標(biāo)分類和邊界框回歸,而慢速 R-CNN 僅使用分類損失函數(shù)。
Faster R-CNN
參考:一文讀懂Faster RCNN
在結(jié)構(gòu)上,在中間特征層后加入?yún)^(qū)域建議網(wǎng)絡(luò)RPN(Region Proposal Network) 產(chǎn)生候選區(qū)域,其他部分保持與Fast R-CNN一致,即扣取每個(gè)候選區(qū)域的特征,然后對(duì)其進(jìn)行分類。
RPN(Region Proposal Network)
在目標(biāo)檢測(cè)任務(wù)中,RPN的作用是在輸入圖像上提出可能包含目標(biāo)的候選框(或稱為候選區(qū)域)。RPN是一個(gè)小型的神經(jīng)網(wǎng)絡(luò),它以滑動(dòng)窗口的方式在特征圖上滑動(dòng),并為每個(gè)位置生成多個(gè)不同尺度和長寬比的候選框。
RPN的輸入是經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)(如VGG、ResNet等)提取的特征圖。特征圖具有豐富的語義信息,可以幫助RPN更好地定位目標(biāo)。RPN在特征圖上應(yīng)用一個(gè)小型的卷積滑動(dòng)窗口,并對(duì)每個(gè)窗口位置生成多個(gè)anchors。
對(duì)于每個(gè)anchor,RPN會(huì)通過卷積和全連接層進(jìn)行處理,并輸出兩個(gè)值:
1)表示該anchor是否包含目標(biāo)的概率(通常是二分類問題);
2)對(duì)應(yīng)目標(biāo)邊界框的修正信息,用于調(diào)整候選框的位置和形狀。
通過這個(gè)過程,RPN能夠生成大量的候選框,并為每個(gè)候選框提供目標(biāo)概率和邊界框的修正信息。然后,根據(jù)這些概率和修正信息,可以對(duì)候選框進(jìn)行篩選和精細(xì)調(diào)整,選出最具有潛力的候選區(qū)域。
RPN所生成的候選區(qū)域隨后被傳遞給后續(xù)的分類器和邊界框回歸器,進(jìn)行目標(biāo)分類和精確定位。
區(qū)域建議(Region Proposal Network)
實(shí)際使用中,對(duì)于每個(gè)特征圖上的每個(gè)位置,我們通常會(huì)采用k個(gè)不同尺寸和分辨率的錨點(diǎn)區(qū)域(anchor boxes)
四種損失聯(lián)合訓(xùn)練:
? RPN分類損失(目標(biāo)/非目標(biāo))
? RPN邊界框坐標(biāo)回歸損失
? 候選區(qū)域分類損失
? 最終邊界框坐標(biāo)回歸損失
運(yùn)行分為兩個(gè)階段
第一階段:候選區(qū)域生成
在第一階段,Faster R-CNN使用Region Proposal Network (RPN) 來生成候選區(qū)域。
RPN通過在輸入圖像上滑動(dòng)窗口,并在不同位置和尺度上生成一系列的候選框(也稱為錨框或anchors),這些候選框可能包含目標(biāo)。對(duì)于每個(gè)候選框,RPN預(yù)測(cè)其包含目標(biāo)的概率以及對(duì)應(yīng)目標(biāo)邊界框的修正信息。
第二階段:目標(biāo)分類和邊界框回歸
在第二階段,Faster R-CNN使用先前生成的候選區(qū)域作為輸入,對(duì)這些候選區(qū)域進(jìn)行目標(biāo)分類和邊界框回歸。通常,這個(gè)階段包括一個(gè)用于特征提取的卷積神經(jīng)網(wǎng)絡(luò)(如VGG、ResNet等),以及用于目標(biāo)分類和邊界框回歸的全連接層。這些層將從候選區(qū)域中提取的特征映射與目標(biāo)類別進(jìn)行關(guān)聯(lián),并對(duì)邊界框進(jìn)行微調(diào),以更準(zhǔn)確地定位目標(biāo)。