概念及挑战
OCR(Optical Character Recognition, 光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息,该技术已经成熟。
场景文字识别(Scene Text Recognition,STR) 指识别自然场景图片中的文字信息。自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:
-
颜色变化
颜色、亮度、对比度 -
几何变化
横向、竖向、弯曲、旋转、扭曲、透视、仿射变换、尺度变化大 - 倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽
- 长文本
-
多语言混合文本
中英混合字体 - 文本密集
-
背景复杂多变
文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。 -
数据标注不一致
字符、词、文本行、标注序列的顺序 -
完整性
完整检测才能识别准确,IOU>0.5是否能检出某个词的所有字符
发展趋势
文本检测算法分类
- 基于回归的方法
- 基于分割的方法
- 混合方法(分割+回归)
-
优缺点
回归方法:对长文本不易检测完整
分割方法:不容易准确区分相邻或重叠文本
解决方案
-
检测模型+识别模型
-
端到端(检测+识别)
端到端检测模型中,检测分支和识别分支能相互监督,相互促进提高彼此精度。
应用场景
图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。
已经有不少服务商在提供图像文字检测和识别服务,这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业,也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务,也可以使用客户提供的数据集训练定制化模型(如票据识别模型),以及提供定制化AI服务系统集成等。
文本检测模型
视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果不理想, 主要原因就在于上述概念与挑战中介绍的内容。
针对存在的挑战,近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。
- CTPN算法中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。
- RRPN等算法中,文本框标注采用BBOX +方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。
- DMPNet等算法中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。
- SegLink算法中,将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。
- TextBoxes等算法中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。
- FTSN算法中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
- WordSup算法中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。
数据集
-
Chinese Text in the Wild(CTW)
该数据集包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。图像大小2048*2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。
CTW文献下载
CTW数据集下载
-
Reading Chinese Text in the Wild(RCTW-17)
该数据集包含12263张图像,训练集8034张,测试集4229张,共11.4GB。大部分图像由手机相机拍摄,含有少量的屏幕截图,图像中包含中文文本与少量英文文本。图像分辨率大小不等。
RCTW-17文献下载
RCTW-17数据集下载
-
ICPR MWI 2018 挑战赛
大赛提供20000张图像作为数据集,其中50%作为训练集,50%作为测试集。主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。文件大小为2GB。
-
Total-Text
该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300。
Total-Text文献下载
Total-Text数据集下载
-
Google FSNS(谷歌街景文本数据集)
该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志,每一张包含同一街道标志牌的不同视角,图像大小为600*150,训练集1044868张,验证集16150张,测试集20404张。
FSNS文献下载
FSNS数据集下载
-
COCO-TEXT
该数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张
COCO-TEXT文献下载
COCO-TEXT数据集下载
-
Synthetic Data for Text Localisation
在复杂背景下人工合成的自然场景文本数据。包含858750张图像,共7266866个单词实例,28971487个字符,文件大小为41GB。该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。
Synthetic Data for Text Localisation文献下载
Synthetic Data for Text Localisation数据集下载
Code英文版
Code中文版
-
Synthetic Word Dataset
合成文本识别数据集,包含9百万张图像,涵盖了9万个英语单词。文件大小为10GB
Synthetic Word Dataset数据集下载
-
Caffe-ocr中文合成数据
数据利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,共360万张图片,图像分辨率为280x32,涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB
Caffe-ocr中文数据集