當前位置：首頁 > news >正文

新網(wǎng)站做百度推廣收錄百度關(guān)鍵詞查詢排名怎么查

news 2025/7/6 16:27:22

新網(wǎng)站做百度推廣收錄,百度關(guān)鍵詞查詢排名怎么查,網(wǎng)站個人備案企業(yè)備案嗎,政府門戶網(wǎng)站建設(shè)思考框架的主要成分稱為 DEtection TRansformer 或 DETR，是基于集合的全局損失，它通過二分匹配強制進行獨特的預測，以及 Transformer 編碼器-解碼器架構(gòu)。 DETR 會推理對象與全局圖像上下文的關(guān)系，以直接并行輸出最終的預測集。 1. …

框架的主要成分稱為 DEtection TRansformer 或 DETR，是基于集合的全局損失，它通過二分匹配強制進行獨特的預測，以及 Transformer 編碼器-解碼器架構(gòu)。

DETR 會推理對象與全局圖像上下文的關(guān)系，以直接并行輸出最終的預測集。

1.?介紹

對象檢測的目標是預測每個感興趣對象的一組邊界框和類別標簽。

在計算機圖形學和圖像處理中，錨點（Anchor Point）是一個特定的位置，通常用于描述圖像中的特征點或區(qū)域。它可以是單個像素點，也可以是一個更復雜的區(qū)域如矩形或橢圓。錨點的主要作用是為圖像處理和計算機視覺任務提供一個參考點，以便更準確地描述和定位圖像中的特征。在目標檢測任務中，錨點用于預測目標物體的位置和大小；在圖像匹配任務中，它幫助找到圖像中的相似區(qū)域。

DETR 通過將通用 CNN 與 Transformer 架構(gòu)相結(jié)合來直接（并行）預測最終的檢測集。

二分匹配：模型的預測結(jié)果（包括坐標和類別概率）與真實框之間會進行最優(yōu)的一一配對，即每個預測結(jié)果都會與一個真實框（或背景類，如果沒有真實框與之匹配）進行匹配。?

通過將對象檢測視為直接集合預測問題來簡化訓練流程。我們采用基于 Transformer 的編碼器-解碼器架構(gòu)，這是一種流行的序列預測架構(gòu)。 Transformer 的自注意力機制明確地模擬了序列中元素之間的所有成對交互，使這些架構(gòu)特別適合集合預測的特定約束，例如刪除重復的預測。

DEtection TRansformer（DETR）會同時預測所有對象，并使用一組損失函數(shù)進行端到端訓練，該函數(shù)在預測對象和真實對象之間執(zhí)行二分匹配。DETR 通過刪除多個手工設(shè)計的編碼先驗知識的組件（例如空間錨點或非極大值抑制）來簡化檢測流程。

DETR 的主要特征是二分匹配損失和Transformer與（非自回歸）并行解碼的結(jié)合。

2. 相關(guān)工作

我們的工作建立在多個領(lǐng)域的先前工作的基礎(chǔ)上：集合預測的二分匹配損失、基于Transformer的編碼器-解碼器架構(gòu)、并行解碼和對象檢測方法。

2.1 集合預測

基本的集合預測任務是多標簽分類，這些任務中的第一個困難是避免近似重復。當前大多數(shù)檢測器使用非極大值抑制等后處理來解決此問題，但直接集預測無需后處理。他們需要全局推理方案來對所有預測元素之間的交互進行建模，以避免冗余。

后處理主要用于對目標檢測算法的輸出進行調(diào)整和優(yōu)化，以提高檢測結(jié)果的準確性和穩(wěn)定性

損失函數(shù)應該通過預測的排列而保持不變。通常的解決方案是基于匈牙利算法設(shè)計損失，以找到真實值和預測之間的二分匹配。

匈牙利算法https://blog.csdn.net/qq_52302919/article/details/132170356

2.2 Transformer和并行解碼

Transformer，作為機器翻譯的新的基于注意力的構(gòu)建塊。注意力機制是聚合來自整個輸入序列的信息的神經(jīng)網(wǎng)絡(luò)層。 Transformer 引入了自注意力層，與非局部神經(jīng)網(wǎng)絡(luò)類似，它掃描序列的每個元素，并通過聚合整個序列的信息來更新它?；谧⒁饬Φ哪Ｐ偷闹饕獌?yōu)點之一是它們的全局計算和完美的記憶，這使得它們比 RNN 更適合長序列。

RNN循環(huán)神經(jīng)網(wǎng)絡(luò)https://blog.csdn.net/zyf918/article/details/136172798

Transformer 最初用于自回歸模型，遵循早期的序列到序列模型，一一生成輸出標記。結(jié)合了變壓器和并行解碼，以在計算成本和執(zhí)行集合預測所需的全局計算的能力之間進行適當?shù)臋?quán)衡。

Transformer模型中，并行解碼（Parallel Decoding）指的是解碼器（Decoder）部分能夠同時處理多個輸出位置，而不是像傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)（RNN）那樣逐個位置地順序生成輸出。

2.3 對象檢測

大多數(shù)現(xiàn)代物體檢測方法都會根據(jù)一些初始猜測進行預測。在我們的模型中，通過使用絕對框預測直接預測檢測集來簡化檢測過程。輸入圖像而不是錨點。

基于集合的損失

一些物體檢測器使用了二分匹配損失。然而，在這些早期的深度學習模型中，不同預測之間的關(guān)系僅使用卷積層或全連接層進行建模。最近的檢測器使用地面實況和預測之間的非唯一分配規(guī)則以及 NMS（非極大值抑制）。

NMS的主要目的是解決目標檢測算法輸出目標框時的重疊問題。在目標檢測任務中，算法通常會生成多個候選框來表示可能包含目標的區(qū)域。這些候選框往往會有一定的重疊，NMS的作用就是對這些重疊的候選框進行篩選，以保留最優(yōu)的檢測結(jié)果。

可學習的 NMS 方法和關(guān)系網(wǎng)絡(luò)通過注意力顯式地建模不同預測之間的關(guān)系。使用直接設(shè)置損失。然而，這些方法采用額外的手工制作的上下文特征? 來有效地建模檢測之間的關(guān)系，同時我們尋找減少模型中編碼的先驗知識的解決方案。

循環(huán)檢測器

最接近的方法的是對象檢測和實例分割的端到端集合預測。

使用基于 CNN 激活的編碼器-解碼器架構(gòu)的二分匹配損失來直接生成一組邊界框。

3. DETR模型

對于檢測中的直接集合預測來說，有兩個要素至關(guān)重要：

(1) 集合預測損失，強制預測框和真實框之間進行唯一匹配；

(2) 一種能夠（在一次傳遞中）預測一組對象并對其關(guān)系進行建模的架構(gòu)。

3.1?對象檢測集預測損失

DETR 在通過解碼器的單次傳遞中推斷出一組固定大小的 N 個預測，其中 N 設(shè)置為明顯大于圖像中對象的典型數(shù)量。訓練的主要困難之一是根據(jù)真實情況對預測對象（類別、位置、大小）進行評分。我們的損失在預測對象和真實對象之間產(chǎn)生最佳二分匹配，然后優(yōu)化特定于對象（邊界框）的損失。

y 表示對象的真實集合，并且 $\hat{y}=\{\hat{y}_{i}\}_{i=1}^{N}$ ?表示 N 個預測的集合。假設(shè) N 大于圖像中的對象數(shù)量，我們也將 y 視為大小為 N 的集合，并用 $\phi$ ?填充。為了找到這兩個集合之間的二分匹配，我們以最低成本搜索 N 個元素 $\sigma\in\mathfrak{S}_{N}$ 的排列： $\hat{\sigma}=\arg\min_{\sigma\in\mathfrak{S}_N}\sum_i^N\mathcal{L}_{\mathrm{match}}(y_i,\hat{y}_{\sigma(i)})$

其中 $\mathcal{L}_{\mathrm{match}}(y_i,\hat{y}_{\sigma(i)})$ 是真實值 $y_i$ 和索引為 $\sigma (i)$ 的預測之間的成對匹配成本。

匹配成本考慮了類別預測以及預測框和地面實況框的相似性。

真實集的每個元素 i 都可以視為 $y_i = (c_i , b_i)$ ，其中 $c_i$ 是目標類標簽（可能是 $\O$ $\phi$ ）， $b_i\in[0,1]^4$ 是一個向量，定義真實框中心坐標及其相對于圖像大小的高度和寬度。

對于索引為 $\sigma (i)$ 的預測，我們將類 $c_i$ 的概率定義為 $\hat{p}_{\sigma(i)}(c_i)$ ，將預測框定義為 $\hat_{\sigma(i)}$ 。利用這些符號，我們將 $\mathcal{L}_{\mathrm{match}}(y_i,\hat{y}_{\sigma(i)})$ 定義為 $-1_{\{c_i\neq\varnothing\}}\hat{p}_{\sigma(i)}(c_i)+1_{\{c_i\neq\varnothing\}}\mathcal{L}_{\mathrm{box}}(b_i,\hat_{\sigma(i)})$ 。需要找到一對一的匹配來進行直接集預測，而無需重復。

$\mathcal{L}_{\mathrm{Hungarian}}(y,\hat{y})=\sum_{i=1}^{N}\left[-\log\hat{p}_{\hat{\sigma}(i)}(c_{i})+{1}_{\{c_{i}\neq\varnothing\}}\mathcal{L}_{\mathrm{box}}(b_{i},\hat_{\hat{\sigma}}(i))\right]$

邊界框損失

我們的框損失是 $\mathcal{L}_{\mathrm{box}}(b_{i},\hat_{\sigma(i)})$ 定義為： $\lambda_{\mathrm{iou}}\mathcal{L}_{\mathrm{iou}}(b_{i},\hat_{\sigma(i)})+\lambda_{\mathrm{L}1}||b_{i}-\hat_{\sigma(i)}||_{1}$

3.2 DETR架構(gòu)

一個用于提取緊湊特征表示的 CNN 主干、一個編碼器-解碼器 Transformer 以及一個簡單的前饋網(wǎng)絡(luò) (FFN)，該網(wǎng)絡(luò)用于提取緊湊的特征表示。做出最終的檢測預測。

主干

從初始圖像 $x_{\mathrm{img}}\in\mathbb{R}^{3\times H_{0}\times W_{0}}$ 開始，傳統(tǒng)的 CNN 主干網(wǎng)生成較低分辨率的激活圖

$f\in\mathbb{R}^{C\times H\times W}$ ，使用的典型值為 C = 2048 和 $H,W=\frac{H_{0}}{32},\frac{W_{0}}{32}$ 。

Transformer編碼器

首先，1x1 卷積將高級激活圖 f 的通道維度從 C 減少到更小的維度 d。創(chuàng)建新的特征圖

$z_0\in R^{d\times H\times W}$ 。編碼器期望一個序列作為輸入，因此我們將? $z_0$ ?的空間維度折疊為一維，從而產(chǎn)生 d×HW 的特征圖。每個編碼器層都有一個標準架構(gòu)，由多頭自注意力模塊和前饋網(wǎng)絡(luò)（FFN）組成。由于 Transformer 架構(gòu)是排列不變的，我們用固定位置編碼對其進行補充，并將其添加到每個注意層的輸入中。

Transformer解碼器

解碼器遵循 Transformer 的標準架構(gòu)，使用多頭自注意力機制和編碼器-解碼器注意力機制來轉(zhuǎn)換大小為 d 的 N 個嵌入。與原始 Transformer 的區(qū)別在于，我們的模型在每個解碼器層并行解碼 N 個對象，由于解碼器也是排列不變的，因此 N 個輸入嵌入必須不同才能產(chǎn)生不同的結(jié)果。這些輸入嵌入是學習的位置編碼，我們將其稱為對象查詢。

N 個對象查詢被解碼器轉(zhuǎn)換為輸出嵌入。然后通過前饋網(wǎng)絡(luò)將它們獨立解碼為框坐標和類標簽，從而產(chǎn)生 N 個最終預測。利用對這些嵌入的自注意力和編碼器-解碼器注意力，該模型使用它們之間的成對關(guān)系對所有對象進行全局推理，同時能夠使用整個圖像作為上下文。

預測前饋網(wǎng)絡(luò)（FFNs）

最終預測由具有 ReLU 激活函數(shù)和隱藏維度 d 的 3 層感知器以及線性投影層計算。FFN 預測框的標準化中心坐標、高度和寬度。輸入圖像，線性層使用 softmax 函數(shù)預測類標簽。

輔助解碼損失

在每個解碼器層之后添加預測 FFN 和匈牙利損失。所有預測 FFN 共享其參數(shù)。

使用額外的共享層范數(shù)來規(guī)范化來自不同解碼器層的預測 FFN 的輸入。

查看全文

http://www.risenshineclean.com/news/43316.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网