當(dāng)前位置：首頁 > news >正文

網(wǎng)站建設(shè)服務(wù)宗旨代寫文章質(zhì)量高的平臺

news 2025/7/14 14:59:47

網(wǎng)站建設(shè)服務(wù)宗旨,代寫文章質(zhì)量高的平臺,企業(yè)取名字,wordpress管理員登錄目錄 1 研究背景及意義 2 總體設(shè)計 3 方法論 3.1 自適應(yīng)文本區(qū)域表示 3.2 文本建議 3.3 建議改進 4 損失函數(shù) 5 實驗及結(jié)果 1 研究背景及意義現(xiàn)有的場景文本檢測方法使用固定點數(shù)的多邊形來表示文本區(qū)域。例如，水平文本使用2個點(左上/右下)表示文本區(qū)域&…

1 研究背景及意義

2 總體設(shè)計

3 方法論

3.1?自適應(yīng)文本區(qū)域表示

?3.2 文本建議

3.3 建議改進

?4 損失函數(shù)

5 實驗及結(jié)果

1 研究背景及意義

現(xiàn)有的場景文本檢測方法使用固定點數(shù)的多邊形來表示文本區(qū)域。例如，水平文本使用2個點(左上/右下)表示文本區(qū)域，多方向文本用4個點表示文本區(qū)域，對于彎曲文本(CTW1500)使用14個點表示文本區(qū)域。雖然使用固定點數(shù)的方式能很好的適應(yīng)對應(yīng)的實例，但面對復(fù)雜的場景文本時仍然不能很好的表示文本區(qū)域。例如，彎曲的長文本即使是用14個點也不足以表示出文本區(qū)域，而對于定向或多方向文本14個點右顯得很浪費。

針對上面的問題，本文提出了一種針對不同形狀文本使用不同點數(shù)的自適應(yīng)文本區(qū)域表示方法。同時，使用RNN學(xué)習(xí)每個文本區(qū)域的自適應(yīng)表示，使用該表示可以直接標(biāo)記文本區(qū)域，并且不需要逐像素分割。

2 總體設(shè)計

圖1 本文提出的任意形狀文本檢測流程圖，包括文本建議和建議改進兩個階段。

文本建議：Text-RPN 生成圖像的文本建議，同時提取輸入圖像的 CNN 特征圖，用于后面的操作。

建議改進：使用細化網(wǎng)絡(luò)對文本建議進行細化和驗證。其中包括文本/非文本，邊界框回歸和基于 RNN 的自適應(yīng)文本區(qū)域表示。最后，輸出標(biāo)記有自適應(yīng)點數(shù)的多邊形的文本區(qū)域作為檢測結(jié)果。

3 方法論

3.1?自適應(yīng)文本區(qū)域表示

傳統(tǒng)的使用固定點數(shù)的文本區(qū)域表示方法對于復(fù)雜的場景文本并不實用，本文使用自適應(yīng)點數(shù)的多邊形來表示文本區(qū)域，并且這樣才是合理的。

如圖2(a) 所示，文本區(qū)域邊界上的角點可以用于文本區(qū)域的表示，但是這種方法對于點不是按方向排列的，可能很難學(xué)習(xí)表示，同時還可能需要人為矯正來實現(xiàn)精確的分割。在本文中，考慮到文本區(qū)域通常具有近似對稱的上下邊界。使用上下邊界的成對點表示文本區(qū)域似乎更合適，如圖2(b)。并且對這些成對點從一端到另一端的學(xué)習(xí)也會很容易。

圖2

?圖3 (a)由4個點(2對)表示的文本區(qū)域; (b)由6個點(3對)表示的文本區(qū)域;

?3.2 文本建議

Text-RPN 生成文本區(qū)域候選。Text-RPN 與 Faster R-CNN 中的 RPN 相似，骨干網(wǎng)絡(luò)使用 SE-VGG16，如圖4所示。通過將壓縮和激勵塊(SE)添加到 VGG16 而獲得的。SE模塊(圖5)通過顯式建模信道之間的相互依賴性，自適應(yīng)地重新校準(zhǔn)信道特性響應(yīng)，這可以產(chǎn)生顯著的性能改進。FC為全連接層，ReLU 表示矯正線性單位函數(shù)。

?圖4 SE-VGG16網(wǎng)絡(luò)的架構(gòu)

圖5?SE模塊的架構(gòu)

3.3 建議改進

將文本建議模塊中生成的文本區(qū)域候選進行驗證和細化。如圖6所示，一個細化網(wǎng)絡(luò)用于提案細化，它由幾個分支組成：文本/非文本分類、邊界框回歸和基于RNN的自適應(yīng)文本區(qū)域表示。這里，文本/非文本分類和邊界框回歸與其他兩階段文本檢測方法相似，而最后一個分支被提出用于任意形狀的文本表示。

圖6 細化網(wǎng)絡(luò)?

?該分支輸入的是文本提議的特征，輸出的是每個文本區(qū)域邊界上自適應(yīng)成對點數(shù)量和坐標(biāo)。文本提議的特征是通過使用 ROI 池和 SE-VGG16 生成的 CNN 特征圖獲得的。使用長短期存儲(LSTM)學(xué)習(xí)文本區(qū)域表示。LSTM 中每個時間步驟的輸入是相應(yīng)文本提案的 ROI 池特征。

由于不同的文本區(qū)域點數(shù)不同，因此需要停止標(biāo)簽來表示預(yù)測網(wǎng)絡(luò)何時停止。停止標(biāo)簽預(yù)測是分類問題，坐標(biāo)預(yù)測是回歸問題。所以一個 LSTM 有兩個分支：一個用于坐標(biāo)回歸，一個用于停止標(biāo)簽預(yù)測。如果標(biāo)簽繼續(xù)，則在下一時間步驟中預(yù)測另兩個點的坐標(biāo)和新坐標(biāo)。否則，停止預(yù)測，文本區(qū)域用之前預(yù)測的所以成對點表示。

圖7?

?成對邊界點的兩種表示方式：

$\bullet$ ?? $(x_{i}, y_{i}, x_{i+1}, y_{i+1})$ 。通過這種方式，成對點的坐標(biāo)被用作回歸目標(biāo)，如圖7所示。

$\bullet$ ? $(x^{c}_{i}, y^{c}_{i})$ 、? $h_{i}$ ?和? $\theta_{i}$ ?。 $(x^{c}_{i}, y^{c}_{i})$ 為成對邊界點的中心坐標(biāo)， $h_{i}$ ?是到它們的距離， $\theta_{i}$ ?為方向(角度)。

方法2中，角度在某些特殊情況下并不穩(wěn)定，這就使得網(wǎng)絡(luò)很難很好的學(xué)習(xí)角度目標(biāo)。所以，該方法使用點? $(x_{i}, y_{i}, x_{i+1}, y_{i+1})$ ?的坐標(biāo)作為回歸目標(biāo)。

?4 損失函數(shù)

Text-RPN 與 Faster R-CNN 中的 RPN 相似，因此 Text-RPN 的訓(xùn)練損失也以與之相似的方式計算。本文關(guān)注細化網(wǎng)絡(luò)的損失：文本/非文本損失、邊界框回歸損失、邊界點回歸損失和停止/繼續(xù)標(biāo)簽分類損失的總和。 $\lambda _{1}$ ?、 $\lambda _{2}$ ?和? $\lambda _{3}$ ?是控制這些項之間權(quán)衡的平衡參數(shù)，被設(shè)置為1。

?文本/非文本損失: t 是類別標(biāo)簽的指示符。文本: t=1; 非文本: t=0。p = ( $p_{0}, p_{1}$ ) 是 softmax 之后計算的文本和背景類的概率。

?邊界框回歸損失：v = ( $v_{x}, v_{y}, v_{w}, v_{h}$ ) 是包含中心點坐標(biāo)、寬度和高度的真實邊界框回歸目標(biāo)的元組， $v^{*}$ ?= ( $v^{*}_{x}, v^{*}_{y}, v^{*}_{w}, v^{*}_{h}$ ) 是每個文本提案的預(yù)測元組。本文使用 Faster R-CNN 中給出的 v 和? $v^{*}$ ?的參數(shù)化，其中? v 和? $v^{*}$ ?指定了相對于對象建議的比例不變平移和對數(shù)空間高度/寬度偏移。

?邊界點回歸損失： $u = (u_{x_{1}}, u_{y_{1}},...,u_{x_{n}}, u_{y_{n}})$ ?真實邊界點坐標(biāo)的元組； $u = (u^{*}_{x_{1}}, u^{*}_{y_{1}},...,u^{*}_{x_{n}}, u^{*}_{y_{n}})$ ?文本標(biāo)簽的預(yù)測點的元組。為了使所學(xué)習(xí)的點適用于不同尺度的文本，還應(yīng)該處理學(xué)習(xí)目標(biāo)以使它們尺度不變。參數(shù)? $(u^{*}_{x_{i}}, u^{*}_{y_{i}})$ ?處理如下：

其中， $x^{*}_{i}$ ?和? $y^{*}_{i}$ ?表示邊界點的坐標(biāo)， $x_{a}$ ?和? $y_{a}$ ?表示相應(yīng)文本提案的中心點坐標(biāo)， $w_{a}$ ?和? $h_{a}$ ?表示該提案的寬度和高度。

停止/繼續(xù)標(biāo)簽分類損失：設(shè)? $(w, w^{*})$ ?表示 $(v_{i}, v^{*}_{i})$ ?或者? $(u_{i}, u^{*}_{i})$ ， $L_{reg}(w, w^{*})$ ?定義為平滑? $L_{1}$ ?損耗，如 Faster R-CNN所示：