當(dāng)前位置：首頁 > news >正文

佛山優(yōu)化網(wǎng)站排名收費(fèi)關(guān)鍵詞推廣優(yōu)化外包

news 2025/7/2 0:35:14

佛山優(yōu)化網(wǎng)站排名收費(fèi),關(guān)鍵詞推廣優(yōu)化外包,自建網(wǎng)站和第三方平臺(tái)的區(qū)別,知名的企業(yè)網(wǎng)站建設(shè)目錄標(biāo)題參考目標(biāo)檢測(cè)定義深度學(xué)習(xí)對(duì)目標(biāo)檢測(cè)的作用單目標(biāo)檢測(cè)多任務(wù)框架多任務(wù)損失預(yù)訓(xùn)練模型姿態(tài)估計(jì) 多目標(biāo)檢測(cè)問題滑動(dòng)窗口（Sliding Window）滑動(dòng)窗口缺點(diǎn) AdaBoost（Adaptive Boosting）參考區(qū)域建議 selective search 思想慢…

目錄標(biāo)題

參考
目標(biāo)檢測(cè)定義
深度學(xué)習(xí)對(duì)目標(biāo)檢測(cè)的作用
- 單目標(biāo)檢測(cè)
- - 多任務(wù)框架
  - 多任務(wù)損失
  - 預(yù)訓(xùn)練模型
  - 姿態(tài)估計(jì)
- 多目標(biāo)檢測(cè)
- - 問題
  - 滑動(dòng)窗口（Sliding Window）
  - - 滑動(dòng)窗口缺點(diǎn)
  - AdaBoost（Adaptive Boosting）
  - - 參考
  - 區(qū)域建議 selective search 思想
  - 慢速R-CNN
  - - 慢速R-CNN思路
    - 邊界框回歸（Bbox reg）
    - 慢速R-CNN缺點(diǎn)
  - Fast R-CNN
  - - 改進(jìn)一：先提取特征后區(qū)域建議
    - 改進(jìn)二：全連接神經(jīng)網(wǎng)絡(luò)
    - 改進(jìn)三：裁剪+縮放特征（RoI Pool）
    - 為什么需要RoI Pool？
    - 區(qū)域裁剪
    - - Rol Pool
      - Rol Align
    - Fast R-CNN的問題
  - Fast R-CNN vs 慢速R-CNN
  - Faster R-CNN
  - - RPN（Region Proposal Network）
    - 區(qū)域建議（Region Proposal Network）
    - 運(yùn)行分為兩個(gè)階段
    - Faster R-CNN速度
  - 目標(biāo)檢測(cè): 影響精度的因素 ...

參考

【計(jì)算機(jī)視覺】計(jì)算機(jī)視覺與深度學(xué)習(xí)-07-目標(biāo)檢測(cè)-北郵魯鵬老師課程筆記
計(jì)算機(jī)視覺與深度學(xué)習(xí) 北京郵電大學(xué) 魯鵬清晰版合集（完整版）

目標(biāo)檢測(cè)定義

目標(biāo)檢測(cè)的目標(biāo)是確定圖像中存在的目標(biāo)的類別，并在圖像中標(biāo)記出它們的位置，通常使用邊界框來表示目標(biāo)的位置和大小。

單目標(biāo)檢測(cè)：分類+定位
在這里插入圖片描述

深度學(xué)習(xí)對(duì)目標(biāo)檢測(cè)的作用

深度學(xué)習(xí)通過使用深層神經(jīng)網(wǎng)絡(luò)模型，可以從原始像素級(jí)別上學(xué)習(xí)和提取圖像特征，從而實(shí)現(xiàn)目標(biāo)檢測(cè)。
在這里插入圖片描述

單目標(biāo)檢測(cè)

將定位任務(wù)建模為回歸問題!
在這里插入圖片描述

多任務(wù)框架

一個(gè)任務(wù)是：分類。
另一個(gè)任務(wù)是：定位。
在這里插入圖片描述

多任務(wù)損失

網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是降低總損失，所以 softmax loss 和 L2 loss 將同時(shí)減小，也可以為 softmax loss 和 L2 loss 分別設(shè)置一個(gè)權(quán)重，通過改變權(quán)重，調(diào)整 softmax loss 和 L2 loss 在總損失中所占的比重。

預(yù)訓(xùn)練模型

目標(biāo)檢測(cè)中，一般不從頭開始訓(xùn)練網(wǎng)絡(luò)，而是使用ImageNet上預(yù)訓(xùn)練的模型。
在這里插入圖片描述
一般分三個(gè)階段：

1、分類訓(xùn)練階段

在這個(gè)階段，通常使用預(yù)訓(xùn)練的分類模型（如在ImageNet上預(yù)訓(xùn)練的模型）來進(jìn)行訓(xùn)練。該模型已經(jīng)在大規(guī)模圖像分類任務(wù)上學(xué)習(xí)到了豐富的圖像特征。然后，將最后的全連接層替換成適應(yīng)目標(biāo)檢測(cè)任務(wù)的新的全連接層，并使用目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行訓(xùn)練。這個(gè)階段的目標(biāo)是學(xué)習(xí)分類任務(wù)所需的特征表示。

2、定位訓(xùn)練階段

在這個(gè)階段，固定預(yù)訓(xùn)練模型的大部分層，并僅僅調(diào)整輸出層和一些頂層特征層。然后，使用目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行訓(xùn)練，讓模型學(xué)習(xí)如何準(zhǔn)確地定位目標(biāo)。這個(gè)階段的目標(biāo)是學(xué)習(xí)目標(biāo)的位置信息。

3、分類和定位一起訓(xùn)練階段

在這個(gè)階段，不僅訓(xùn)練分類任務(wù)，還同時(shí)訓(xùn)練目標(biāo)的位置信息。在模型中同時(shí)使用分類和定位損失函數(shù)，并根據(jù)這兩個(gè)任務(wù)的權(quán)重進(jìn)行綜合訓(xùn)練。這個(gè)階段的目標(biāo)是綜合考慮分類和定位任務(wù)，使模型能夠準(zhǔn)確地檢測(cè)并定位目標(biāo)。

姿態(tài)估計(jì)

姿態(tài)估計(jì)（Pose Estimation）是計(jì)算機(jī)視覺中的一個(gè)重要任務(wù)，旨在從圖像或視頻中推斷出人體、物體或其他目標(biāo)的姿態(tài)信息，包括位置、方向和關(guān)節(jié)角度等。

單目標(biāo)檢測(cè)的思路，還應(yīng)用于單人體姿態(tài)估計(jì)，與box coordinates不同的是，在人體上標(biāo)注關(guān)鍵點(diǎn)，然后通過訓(xùn)練，與標(biāo)答進(jìn)行對(duì)比。
在這里插入圖片描述

目標(biāo)檢測(cè)： 首先，使用目標(biāo)檢測(cè)算法來檢測(cè)圖像中的人體目標(biāo)。目標(biāo)檢測(cè)算法可以是傳統(tǒng)的方法（如基于特征的方法）或深度學(xué)習(xí)方法（如基于卷積神經(jīng)網(wǎng)絡(luò)的方法）。檢測(cè)到的人體目標(biāo)將作為后續(xù)姿態(tài)估計(jì)的輸入。
關(guān)鍵點(diǎn)定位： 對(duì)于每個(gè)檢測(cè)到的人體目標(biāo)，需要進(jìn)一步定位其關(guān)鍵點(diǎn)，例如人體姿態(tài)估計(jì)中的關(guān)節(jié)點(diǎn)?？梢允褂藐P(guān)鍵點(diǎn)檢測(cè)算法（如姿態(tài)估計(jì)算法或關(guān)鍵點(diǎn)檢測(cè)算法）來定位人體關(guān)鍵點(diǎn)。這些算法可以是傳統(tǒng)的機(jī)器學(xué)習(xí)方法，也可以是基于深度學(xué)習(xí)的方法。
姿態(tài)估計(jì)： 一旦獲得了人體關(guān)鍵點(diǎn)的位置，可以使用姿態(tài)估計(jì)算法來推斷人體的姿態(tài)信息，如人體的位置、旋轉(zhuǎn)和關(guān)節(jié)角度等。姿態(tài)估計(jì)算法可以基于幾何模型、優(yōu)化方法或深度學(xué)習(xí)方法。根據(jù)應(yīng)用需求，可以選擇合適的姿態(tài)表示形式，如關(guān)節(jié)角度、骨架模型或三維姿態(tài)等。
后處理與應(yīng)用： 最后，可以對(duì)估計(jì)的姿態(tài)結(jié)果進(jìn)行后處理，如濾波或平滑操作，以提高估計(jì)的準(zhǔn)確性和穩(wěn)定性。得到最終的姿態(tài)估計(jì)結(jié)果后，可以將其應(yīng)用于各種應(yīng)用領(lǐng)域，如動(dòng)作識(shí)別、運(yùn)動(dòng)分析、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等。

多目標(biāo)檢測(cè)

問題

困境：每張圖像期望輸出的維度都不一樣。

在這里插入圖片描述
神經(jīng)網(wǎng)絡(luò)的標(biāo)答是預(yù)先建立好的，因?yàn)槎嗄繕?biāo)檢測(cè)中目標(biāo)數(shù)量并不確定，輸出的維度不確定，就無法建立Correct box標(biāo)答，如果使用單目標(biāo)檢測(cè)的訓(xùn)練方法，無法建立多目標(biāo)檢測(cè)的表達(dá)，訓(xùn)練將不能進(jìn)行。

滑動(dòng)窗口（Sliding Window）

在圖像上以不同的尺度和位置滑動(dòng)固定大小的窗口，然后在每個(gè)窗口上應(yīng)用分類器或特征提取方法來判斷窗口內(nèi)是否存在目標(biāo)。滑動(dòng)窗口方法可以用于檢測(cè)不同尺寸的目標(biāo)，并且可以通過滑動(dòng)步長控制檢測(cè)的精度和速度。

將圖像中所有可能的區(qū)域都給到分類器進(jìn)行分類，只留下能正確分類的窗口。
在這里插入圖片描述
困境：CNN需要對(duì)圖像中所有可能的區(qū)域（不同位置、尺寸、長寬比）進(jìn)行分類，計(jì)算量巨大！

滑動(dòng)窗口缺點(diǎn)

窮舉圖像中成千上萬的區(qū)域進(jìn)行分類，對(duì)于神經(jīng)網(wǎng)絡(luò)，計(jì)算量很大。

針對(duì)這個(gè)問題，提出了一種新的思想，先從圖像中產(chǎn)生一些候選區(qū)域再進(jìn)行分類，而不是窮舉圖像中所有區(qū)域。例如：selective search

AdaBoost（Adaptive Boosting）

AdaBoost是一個(gè)非常快的分類器，可以對(duì)圖像上的區(qū)域進(jìn)行窮舉后分類。

參考

AdaBoost算法超詳細(xì)講解

AdaBoost 是一種集成學(xué)習(xí)算法，用于提高分類器的性能。它通過迭代訓(xùn)練一系列弱分類器（如決策樹、支持向量機(jī)等），每次迭代都根據(jù)前一輪分類結(jié)果對(duì)樣本進(jìn)行調(diào)整，使得難以分類的樣本獲得更高的權(quán)重，從而加強(qiáng)對(duì)這些樣本的分類能力。最終，通過組合多個(gè)弱分類器，AdaBoost 可以產(chǎn)生一個(gè)強(qiáng)大的分類器。

區(qū)域建議 selective search 思想

針對(duì)窮舉圖像所有區(qū)域神經(jīng)網(wǎng)絡(luò)分類計(jì)算量大這個(gè)問題，提出了一種新的思想，先從圖像中產(chǎn)生一些候選區(qū)域再進(jìn)行分類，而不是窮舉圖像中所有區(qū)域。例如：selective search。
在這里插入圖片描述
選擇性搜索（Selective Search）：選擇性搜索是一種經(jīng)典的區(qū)域建議算法。它基于圖像的顏色、紋理、邊緣等信息，在不同尺度和層次上進(jìn)行區(qū)域合并和分割，生成一系列候選區(qū)域。

selective search思想是在R-CNN的論文中提出的。

慢速R-CNN

基于區(qū)域的目標(biāo)檢測(cè)算法。

慢速R-CNN思路

1 利用區(qū)域建議產(chǎn)生感興趣的區(qū)域。（存入硬盤）
2 對(duì)區(qū)域進(jìn)行縮放。
3 將圖像區(qū)域送入卷積網(wǎng)絡(luò)進(jìn)行特征提取。（存入硬盤）
4 使用支持向量機(jī)對(duì)區(qū)域進(jìn)行分類，同時(shí)進(jìn)行邊界框回歸（修正學(xué)習(xí)）。
在這里插入圖片描述

邊界框回歸（Bbox reg）

區(qū)域建議生成的區(qū)域，可能有損失，效果不好，進(jìn)行邊界框回歸，就是為了修正區(qū)域建議生成的區(qū)域與真實(shí)區(qū)域的偏差。

邊框回歸(Bounding Box Regression)詳解

在這里插入圖片描述
對(duì)于上圖，綠色的框表示Ground Truth, 紅色的框?yàn)镾elective Search提取的Region Proposal。那么即便紅色的框被分類器識(shí)別為飛機(jī)，但是由于紅色的框定位不準(zhǔn)(IoU<0.5)，那么這張圖相當(dāng)于沒有正確的檢測(cè)出飛機(jī)。如果我們能對(duì)紅色的框進(jìn)行微調(diào)，使得經(jīng)過微調(diào)后的窗口跟Ground Truth 更接近，這樣豈不是定位會(huì)更準(zhǔn)確。確實(shí)，Bounding-box regression 就是用來微調(diào)這個(gè)窗口的。

慢速R-CNN缺點(diǎn)

問題：計(jì)算效率低下，每張圖像大約有2k個(gè)區(qū)域需要卷積網(wǎng)絡(luò)進(jìn)行特征提取，重疊區(qū)域反復(fù)計(jì)算。

Fast R-CNN

在Fast R-CNN中，首先通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取整個(gè)圖像的特征圖。然后，針對(duì)每個(gè)感興趣區(qū)域（Region of Interest，RoI），通過RoI池化層將其映射為固定大小的特征圖。這樣可以避免在每個(gè)RoI上進(jìn)行獨(dú)立的卷積操作，從而大大減少了計(jì)算量。

接下來，將RoI映射后的特征圖輸入到全連接層中，進(jìn)行目標(biāo)分類和邊界框回歸。分類部分使用softmax函數(shù)對(duì)RoI進(jìn)行多類別分類，而邊界框回歸則用于預(yù)測(cè)目標(biāo)的位置和大小。
在這里插入圖片描述
Fast R-CNN的訓(xùn)練是端到端的，可以通過反向傳播同時(shí)優(yōu)化特征提取網(wǎng)絡(luò)和分類/回歸網(wǎng)絡(luò)。這種端到端的訓(xùn)練方式比R-CNN中的多階段訓(xùn)練更加高效。

改進(jìn)一：先提取特征后區(qū)域建議

如果先進(jìn)行區(qū)域建議后進(jìn)行特征提取，計(jì)算量比較大。因此先對(duì)整個(gè)圖片進(jìn)行卷積提取特征后，在特征圖上進(jìn)行區(qū)域扣取。

改進(jìn)二：全連接神經(jīng)網(wǎng)絡(luò)

改進(jìn)三：裁剪+縮放特征（RoI Pool）

為什么需要RoI Pool？

先來看一個(gè)問題：對(duì)于傳統(tǒng)的CNN（如AlexNet和VGG），當(dāng)網(wǎng)絡(luò)訓(xùn)練好后輸入的圖像尺寸必須是固定值，同時(shí)網(wǎng)絡(luò)輸出也是固定大小的vector or matrix。如果輸入圖像大小不定，這個(gè)問題就變得比較麻煩。有2種解決辦法：

從圖像中crop一部分傳入網(wǎng)絡(luò)。
將圖像warp成需要的大小后傳入網(wǎng)絡(luò)。

在這里插入圖片描述
兩種辦法的示意圖如圖，可以看到無論采取那種辦法都不好，要么crop后破壞了圖像的完整結(jié)構(gòu)，要么warp破壞了圖像原始形狀信息。

回憶RPN網(wǎng)絡(luò)生成的proposals的方法：對(duì)positive anchors進(jìn)行bounding box regression，那么這樣獲得的proposals也是大小形狀各不相同，即也存在上述問題。所以Faster R-CNN中提出了RoI Pooling解決這個(gè)問題。不過RoI Pooling確實(shí)是從Spatial Pyramid Pooling發(fā)展而來。

通過RoI Pooling，即使大小不同的proposal輸出結(jié)果都是固定大小，實(shí)現(xiàn)了固定長度輸出。

參考：一文讀懂Faster RCNN

區(qū)域裁剪

在這里插入圖片描述

Rol Pool

區(qū)域頂點(diǎn)規(guī)整到網(wǎng)格交點(diǎn)上（有偏移）

在這里插入圖片描述
然后進(jìn)行處理

Rol Pool處理前不同的區(qū)域特征的空間尺寸可能不一致，但是處理后的所有區(qū)域特征尺寸都是一樣的。

問題: 處理后的區(qū)域特征會(huì)有輕微的對(duì)不齊！

Rol Align

區(qū)域頂點(diǎn)不規(guī)整到網(wǎng)格交點(diǎn)上（無偏移）
在每個(gè)區(qū)域中選擇幾個(gè)關(guān)鍵點(diǎn)，關(guān)鍵點(diǎn)個(gè)數(shù)是可自定義的，是超參數(shù)。

在這里插入圖片描述
RoI Align 解決了傳統(tǒng) RoI Pooling 中的精度損失和空間錯(cuò)位問題。它通過使用雙線性插值的方式，精確地計(jì)算感興趣區(qū)域內(nèi)每個(gè)位置的特征值。具體而言，RoI Align 將感興趣區(qū)域劃分為更細(xì)的小格，然后在每個(gè)小格內(nèi)使用雙線性插值計(jì)算對(duì)應(yīng)位置的特征值。最后，這些特征值通過平均池化得到感興趣區(qū)域的特征表示。

在這里插入圖片描述
雙線性插值： 在每個(gè)小格內(nèi)使用雙線性插值來計(jì)算對(duì)應(yīng)位置的特征值。雙線性插值利用小格內(nèi)的四個(gè)相鄰像素的特征值，通過加權(quán)平均來估計(jì)目標(biāo)位置的特征值。
在這里插入圖片描述
雙線性插值通過使用周圍四個(gè)最近的數(shù)據(jù)點(diǎn)來估計(jì)目標(biāo)位置的值。假設(shè)我們要在一個(gè)二維網(wǎng)格上進(jìn)行插值，其中四個(gè)最近的數(shù)據(jù)點(diǎn)的坐標(biāo)為 (x1, y1)、(x1, y2)、(x2, y1) 和 (x2, y2)，目標(biāo)位置的坐標(biāo)為 (x, y)。雙線性插值的計(jì)算步驟如下：

計(jì)算水平方向上的插值：

a. 在 x 軸上，對(duì)數(shù)據(jù)點(diǎn) (x1, y1) 和 (x2, y1) 進(jìn)行線性插值，得到兩個(gè)插值結(jié)果：
$f_1 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$
$f_2 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$ 。
b. 在 x 軸上，對(duì)數(shù)據(jù)點(diǎn) (x1, y2) 和 (x2, y2) 進(jìn)行線性插值，得到兩個(gè)插值結(jié)果：
$f_3 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$
$f_4 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$ 。

計(jì)算垂直方向上的插值：

a. 在 y 軸上，對(duì)插值結(jié)果 f1 和 f2 進(jìn)行線性插值，得到結(jié)果： $f_{12} = f_1 + (y - y_1) * (f_2 - f_1) / (y_2 - y_1)$ 。
b. 在 y 軸上，對(duì)插值結(jié)果 f3 和 f4 進(jìn)行線性插值，得到結(jié)果： $f_{34} = f_3 + (y - y_1) * (f_4 - f_3) / (y_2 - y_1)$ 。

最終的插值結(jié)果為在垂直方向上插值得到的 $f_{12}$ 和 $f_{34}$ 的線性插值結(jié)果： $f = f_{12} + (y - y_1) * (f_{34} - f_{12}) / (y_2 - y_1)$ 。

Fast R-CNN的問題

selective search 區(qū)域建議耗時(shí)過高，幾乎等于單張圖片的檢測(cè)時(shí)間。
在這里插入圖片描述

Fast R-CNN vs 慢速R-CNN

在這里插入圖片描述

Fast R-CNN 相對(duì)于慢速 R-CNN 有幾個(gè)改進(jìn)點(diǎn)：

特征共享：Fast R-CNN 在整個(gè)圖像上只進(jìn)行一次卷積運(yùn)算，而慢速 R-CNN 需要為每個(gè)候選區(qū)域分別進(jìn)行卷積運(yùn)算。這意味著 Fast R-CNN 可以共享卷積層的計(jì)算，從而更高效地提取特征。
單次前向傳播：Fast R-CNN 可以通過單次前向傳播同時(shí)計(jì)算所有候選區(qū)域的特征和分類結(jié)果，而慢速 R-CNN 需要為每個(gè)候選區(qū)域獨(dú)立地進(jìn)行前向傳播，效率較低。
損失函數(shù)：Fast R-CNN 引入了多任務(wù)損失函數(shù)，同時(shí)優(yōu)化目標(biāo)分類和邊界框回歸，而慢速 R-CNN 僅使用分類損失函數(shù)。

Faster R-CNN

參考：一文讀懂Faster RCNN
在結(jié)構(gòu)上，在中間特征層后加入?yún)^(qū)域建議網(wǎng)絡(luò)RPN（Region Proposal Network） 產(chǎn)生候選區(qū)域，其他部分保持與Fast R-CNN一致，即扣取每個(gè)候選區(qū)域的特征，然后對(duì)其進(jìn)行分類。
在這里插入圖片描述

RPN（Region Proposal Network）

在目標(biāo)檢測(cè)任務(wù)中，RPN的作用是在輸入圖像上提出可能包含目標(biāo)的候選框（或稱為候選區(qū)域）。RPN是一個(gè)小型的神經(jīng)網(wǎng)絡(luò)，它以滑動(dòng)窗口的方式在特征圖上滑動(dòng)，并為每個(gè)位置生成多個(gè)不同尺度和長寬比的候選框。

RPN的輸入是經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)（如VGG、ResNet等）提取的特征圖。特征圖具有豐富的語義信息，可以幫助RPN更好地定位目標(biāo)。RPN在特征圖上應(yīng)用一個(gè)小型的卷積滑動(dòng)窗口，并對(duì)每個(gè)窗口位置生成多個(gè)anchors。

對(duì)于每個(gè)anchor，RPN會(huì)通過卷積和全連接層進(jìn)行處理，并輸出兩個(gè)值：
1）表示該anchor是否包含目標(biāo)的概率（通常是二分類問題）；
2）對(duì)應(yīng)目標(biāo)邊界框的修正信息，用于調(diào)整候選框的位置和形狀。

通過這個(gè)過程，RPN能夠生成大量的候選框，并為每個(gè)候選框提供目標(biāo)概率和邊界框的修正信息。然后，根據(jù)這些概率和修正信息，可以對(duì)候選框進(jìn)行篩選和精細(xì)調(diào)整，選出最具有潛力的候選區(qū)域。

RPN所生成的候選區(qū)域隨后被傳遞給后續(xù)的分類器和邊界框回歸器，進(jìn)行目標(biāo)分類和精確定位。

區(qū)域建議（Region Proposal Network）

實(shí)際使用中，對(duì)于每個(gè)特征圖上的每個(gè)位置，我們通常會(huì)采用k個(gè)不同尺寸和分辨率的錨點(diǎn)區(qū)域（anchor boxes）
在這里插入圖片描述

四種損失聯(lián)合訓(xùn)練：
? RPN分類損失(目標(biāo)/非目標(biāo)）
? RPN邊界框坐標(biāo)回歸損失
? 候選區(qū)域分類損失
? 最終邊界框坐標(biāo)回歸損失

運(yùn)行分為兩個(gè)階段

在這里插入圖片描述

第一階段：候選區(qū)域生成

在第一階段，Faster R-CNN使用Region Proposal Network (RPN) 來生成候選區(qū)域。

RPN通過在輸入圖像上滑動(dòng)窗口，并在不同位置和尺度上生成一系列的候選框（也稱為錨框或anchors），這些候選框可能包含目標(biāo)。對(duì)于每個(gè)候選框，RPN預(yù)測(cè)其包含目標(biāo)的概率以及對(duì)應(yīng)目標(biāo)邊界框的修正信息。

第二階段：目標(biāo)分類和邊界框回歸

在第二階段，Faster R-CNN使用先前生成的候選區(qū)域作為輸入，對(duì)這些候選區(qū)域進(jìn)行目標(biāo)分類和邊界框回歸。通常，這個(gè)階段包括一個(gè)用于特征提取的卷積神經(jīng)網(wǎng)絡(luò)（如VGG、ResNet等），以及用于目標(biāo)分類和邊界框回歸的全連接層。這些層將從候選區(qū)域中提取的特征映射與目標(biāo)類別進(jìn)行關(guān)聯(lián)，并對(duì)邊界框進(jìn)行微調(diào)，以更準(zhǔn)確地定位目標(biāo)。

Faster R-CNN速度

在這里插入圖片描述

目標(biāo)檢測(cè): 影響精度的因素 …

在這里插入圖片描述

查看全文

http://www.risenshineclean.com/news/31086.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

佛山優(yōu)化網(wǎng)站排名收費(fèi)關(guān)鍵詞推廣優(yōu)化外包

目錄標(biāo)題

參考

目標(biāo)檢測(cè)定義

深度學(xué)習(xí)對(duì)目標(biāo)檢測(cè)的作用

單目標(biāo)檢測(cè)

多任務(wù)框架

多任務(wù)損失

預(yù)訓(xùn)練模型

姿態(tài)估計(jì)

多目標(biāo)檢測(cè)

問題

滑動(dòng)窗口（Sliding Window）

滑動(dòng)窗口缺點(diǎn)

AdaBoost（Adaptive Boosting）

參考

區(qū)域建議 selective search 思想

慢速R-CNN

慢速R-CNN思路

邊界框回歸（Bbox reg）

慢速R-CNN缺點(diǎn)

Fast R-CNN

改進(jìn)一：先提取特征后區(qū)域建議

改進(jìn)二：全連接神經(jīng)網(wǎng)絡(luò)

改進(jìn)三：裁剪+縮放特征（RoI Pool）

為什么需要RoI Pool？

區(qū)域裁剪

Rol Pool

Rol Align

Fast R-CNN的問題

Fast R-CNN vs 慢速R-CNN

Faster R-CNN

RPN（Region Proposal Network）

區(qū)域建議（Region Proposal Network）

運(yùn)行分為兩個(gè)階段

Faster R-CNN速度

目標(biāo)檢測(cè): 影響精度的因素 …

相關(guān)文章：