什么網(wǎng)站做的最好寧德市人民政府
概述
OCR技術存在兩個步驟:文字檢測和文字識別,而end-to-end完成這兩個步驟的方法就是text spotter。
文字檢測數(shù)據(jù)集摘要
daaset | 語言 | 體量 | 特色 |
---|---|---|---|
MTWI | 中英文 | 20k | 源于網(wǎng)絡圖像,主要由合成圖像,產(chǎn)品描述,網(wǎng)絡廣告(淘寶) |
MSRA-TD500 | 中英文 | ||
SynthText | 800k img + 8000k text | 合成數(shù)據(jù) | |
CTW1500 | 中文 | 32k | 野外場景 |
ICDAR 2015 | |||
ICDAR 2019-ReCTS | 中文 | 標識牌上的文字(店鋪名等) | |
ICDAR2019-ArT | 中英文 | 組合Total-Text+SCUT-CTW1500+Baidu Curved Scene Text | |
ICDAR2019-LSVT | 中英文 | 30k full annotation + 40k weakly annotation | Large-scale Street View Text with Partial Labeling, |
ICDAR2017-DeText | Text Extraction from Biomedical Literature Figures, 生物醫(yī)學文獻圖形中的文本提取 | ||
ICDAR 2011 (Born-Digital Images)、ICDAR 2017 | 英文 | ||
CurvedSynText150k | 英文 | ||
Total-Text | 英文+少量中文 | 1.5k | 各種形狀的文本,包括水平的,多取向的和彎曲的 |
Lecture Video DB | |||
IMGUR | handwriting | ||
KAIST | |||
ILST | 印度語言 | 三種印度語言(Devanagari 、 Telugu 和Malayalam)的場景文本識別數(shù)據(jù)集 | |
VinText | |||
BID | 巴西身份證件數(shù)據(jù)集 | ||
RCTW | 12k+ | 手機野外拍攝,包括街景、海報、菜單、室內(nèi)場景以及手機應用的截圖 | |
HierText (Google) | 英文 | 自然圖像或者文獻 |
OCR方法
前沿text spotter方法
- PSENet、PAN、PAN++(PAMI 2021)
- DeepSolo (CVPR2023)
方法框架
- mmocr: 集成方法并不是最新的(2022年以前的),其中預訓練方法只支持英文,文字檢測方法還可以檢測出中文,文字識別無法識別中文,text spotter尚未介入到統(tǒng)一的接口中。
Github high star
- tesseract(57.7k star):大概率是文字識別模型,C/C++,提供command line tool。
- PaddleOCR(38.1k star): 80+ language support。提供輕量化、提供在線demo(后面有測試),provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。
- EasyOCR(21.8k star): pytorch based,文字檢測基于CRAFT,識別基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供 在線DEMO。
- tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。
- UniOCR (20.6k star): 提供一個界面。
- OCRmyPDF (11.8k star): 解析pdf圖片,基于tesseract。
PaddleOCR(PP-OCRv4)測試圖如下
(1)弧形分布文字檢測和識別都不準
(2) 放大了也識別不出來,應該和training data相關
Reference
- https://mmocr.readthedocs.io/en/dev-1.x/