網(wǎng)站建設(shè)服務(wù)宗旨代寫文章質(zhì)量高的平臺
目錄
1 研究背景及意義
2 總體設(shè)計
3 方法論
3.1?自適應(yīng)文本區(qū)域表示
?3.2 文本建議
3.3 建議改進
?4 損失函數(shù)
5 實驗及結(jié)果
1 研究背景及意義
現(xiàn)有的場景文本檢測方法使用固定點數(shù)的多邊形來 表示文本區(qū)域。例如,水平文本使用2個點(左上/右下)表示文本區(qū)域,多方向文本用4個點表示文本區(qū)域,對于彎曲文本(CTW1500)使用14個點表示文本區(qū)域。雖然使用固定點數(shù)的方式能很好的適應(yīng)對應(yīng)的實例,但面對復(fù)雜的場景文本時仍然不能很好的表示文本區(qū)域。例如,彎曲的長文本即使是用14個點也不足以表示出文本區(qū)域,而對于定向或多方向文本14個點右顯得很浪費。
針對上面的問題,本文提出了一種針對不同形狀文本使用不同點數(shù)的自適應(yīng)文本區(qū)域表示方法。同時,使用RNN學(xué)習(xí)每個文本區(qū)域的自適應(yīng)表示,使用該表示可以直接標(biāo)記文本區(qū)域,并且不需要逐像素分割。
2 總體設(shè)計
圖1 本文提出的任意形狀文本檢測流程圖,包括文本建議和建議改進兩個階段。
文本建議:Text-RPN 生成圖像的文本建議,同時提取輸入圖像的 CNN 特征圖,用于后面的操作。
建議改進:使用細化網(wǎng)絡(luò)對文本建議進行細化和驗證。其中包括文本/非文本,邊界框回歸和基于 RNN 的自適應(yīng)文本區(qū)域表示。最后,輸出標(biāo)記有自適應(yīng)點數(shù)的多邊形的文本區(qū)域作為檢測結(jié)果。
3 方法論
3.1?自適應(yīng)文本區(qū)域表示
傳統(tǒng)的使用固定點數(shù)的文本區(qū)域表示方法對于復(fù)雜的場景文本并不實用,本文使用自適應(yīng)點數(shù)的多邊形來表示文本區(qū)域,并且這樣才是合理的。
如圖2(a) 所示,文本區(qū)域邊界上的角點可以用于文本區(qū)域的表示,但是這種方法對于點不是按方向排列的,可能很難學(xué)習(xí)表示,同時還可能需要人為矯正來實現(xiàn)精確的分割。在本文中,考慮到文本區(qū)域通常具有近似對稱的上下邊界。使用上下邊界的成對點表示文本區(qū)域似乎更合適,如圖2(b)。并且對這些成對點從一端到另一端的學(xué)習(xí)也會很容易。
圖2
?圖3 (a)由4個點(2對)表示的文本區(qū)域; (b)由6個點(3對)表示的文本區(qū)域;
(c) 由12個點(6對)表示的文本區(qū)域。
?3.2 文本建議
Text-RPN 生成文本區(qū)域候選。Text-RPN 與 Faster R-CNN 中的 RPN 相似,骨干網(wǎng)絡(luò)使用 SE-VGG16,如圖4所示。通過將壓縮和激勵塊(SE)添加到 VGG16 而獲得的。SE模塊(圖5)通過顯式建模信道之間的相互依賴性,自適應(yīng)地重新校準(zhǔn)信道特性響應(yīng),這可以產(chǎn)生顯著的性能改進。FC為全連接層,ReLU 表示矯正線性單位函數(shù)。
?圖4 SE-VGG16網(wǎng)絡(luò)的架構(gòu)
圖5?SE模塊的架構(gòu)
3.3 建議改進
將文本建議模塊中生成的文本區(qū)域候選進行驗證和細化。如圖6所示,一個細化網(wǎng)絡(luò)用于提案細化,它由幾個分支組成:文本/非文本分類、邊界框回歸和基于RNN的自適應(yīng)文本區(qū)域表示。這里,文本/非文本分類和邊界框回歸與其他兩階段文本檢測方法相似,而最后一個分支被提出用于任意形狀的文本表示。
?
圖6 細化網(wǎng)絡(luò)?
?該分支輸入的是文本提議的特征,輸出的是每個文本區(qū)域邊界上自適應(yīng)成對點數(shù)量和坐標(biāo)。文本提議的特征是通過使用 ROI 池和 SE-VGG16 生成的 CNN 特征圖獲得的。使用長短期存儲(LSTM)學(xué)習(xí)文本區(qū)域表示。LSTM 中每個時間步驟的輸入是相應(yīng)文本提案的 ROI 池特征。
由于不同的文本區(qū)域點數(shù)不同,因此需要停止標(biāo)簽來表示預(yù)測網(wǎng)絡(luò)何時停止。停止標(biāo)簽預(yù)測是分類問題,坐標(biāo)預(yù)測是回歸問題。所以一個 LSTM 有兩個分支:一個用于坐標(biāo)回歸,一個用于停止標(biāo)簽預(yù)測。如果標(biāo)簽繼續(xù),則在下一時間步驟中預(yù)測另兩個點的坐標(biāo)和新坐標(biāo)。否則,停止預(yù)測,文本區(qū)域用之前預(yù)測的所以成對點表示。
?
?
?
圖7?
?成對邊界點的兩種表示方式:
??
。通過這種方式,成對點的坐標(biāo)被用作回歸目標(biāo),如圖7所示。
?
、?
?和?
?。
為成對邊界點的中心坐標(biāo),
?是到它們的距離,
?為方向(角度)。
方法2中,角度在某些特殊情況下并不穩(wěn)定,這就使得網(wǎng)絡(luò)很難很好的學(xué)習(xí)角度目標(biāo)。所以,該方法使用點??的坐標(biāo)作為回歸目標(biāo)。
?
?4 損失函數(shù)
Text-RPN 與 Faster R-CNN 中的 RPN 相似,因此 Text-RPN 的訓(xùn)練損失也以與之相似的方式計算。本文關(guān)注細化網(wǎng)絡(luò)的損失:文本/非文本損失、邊界框回歸損失、邊界點回歸損失和停止/繼續(xù)標(biāo)簽分類損失的總和。?、
?和?
?是控制這些項之間權(quán)衡的平衡參數(shù),被設(shè)置為1。
?文本/非文本損失: t 是類別標(biāo)簽的指示符。文本: t=1; 非文本: t=0。p = () 是 softmax 之后計算的文本和背景類的概率。
?邊界框回歸損失:v = () 是包含中心點坐標(biāo)、寬度和高度的真實邊界框回歸目標(biāo)的元組,
?= (
) 是每個文本提案的預(yù)測元組。本文使用 Faster R-CNN 中給出的 v 和?
?的參數(shù)化,其中? v 和?
?指定了相對于對象建議的比例不變平移和對數(shù)空間高度/寬度偏移。
?邊界點回歸損失:?真實邊界點坐標(biāo)的元組;
?文本標(biāo)簽的預(yù)測點的元組。為了使所學(xué)習(xí)的點適用于不同尺度的文本,還應(yīng)該處理學(xué)習(xí)目標(biāo)以使它們尺度不變。參數(shù)?
?處理如下:
其中,?和?
?表示邊界點的坐標(biāo),
?和?
?表示相應(yīng)文本提案的中心點坐標(biāo),
?和?
?表示該提案的寬度和高度。
停止/繼續(xù)標(biāo)簽分類損失:設(shè)??表示
?或者?
,
?定義為平滑?
?損耗,如 Faster R-CNN所示:
對于停止/繼續(xù)標(biāo)簽分類損失術(shù)語,它也是一種二進制分類,其損失的格式類似于文本/非文本分類損失。
5 實驗及結(jié)果
略