照片OCR流水线中的组件:滑动窗(sliding windows)的分类器
滑动窗的步骤:
以文字检测为例,文字识别是计算机视觉中的一个非同寻常的问题。取决于你想要找到的文字的长度,这些长方形区域会呈现不同的宽高比
以探测行人为例:照一张相片,然后找出图像中出现的行人。大部分的行人都比较相似,因此可以使用一个固定宽高比的矩形来分离出你希望找到的行人,宽高比就是指的这些矩形的高度和宽度的比值。(但对文字检测的问题,高度和宽度的比值对不同行的文字就是不同的了)
每次滑动一点窗口,把图像块传入分类器,每次滑动窗口的大小是一个参数,通常被称为步长(step size)有时也称为 步幅参数(stride parameter)
先收集一些带标签的训练集包括正样本和负样本,分类器预测这个区域,取出分类器的输出,然后输入到一个被称为"展开器"(expansion operator)。展开器的作用就是取过这张图片对每一个白色的小点都扩展为一块白色的区域,正常的文字区域存在一定的宽高比例,非正常比例的区域舍去。 未舍去的这些图像区域然后应用流水线的后面步骤对文字进行识别。
分割出图像中的单个字符呢?
我们还是使用一种监督学习算法,决定图像中是不是在两个字符之间有一条分界线,正样本这个图片中间似乎就有一条分界线把两个字符分开了。负样本不能在中间画一条分隔线。
照片OCR流水线的文字检测使用滑动窗来检测文字,我们还用了一个一维滑动窗来进行字符的分割,来将图像分割为独立的字符。
流水线的最后一步是字符分类,使用一种标准的监督学习算法,比如神经网络或者其他方法输入这样的图像,然后将图像按字母分类化为26个字母A到Z中的一个,或者我们也可以有36种字符算上数字字符的话。