官方链接:
官方训练教程:https://github.com/tesseract-ocr/tessdoc/blob/master/TrainingTesseract-4.00.md
语言包地址:https://github.com/tesseract-ocr/tessdata_best
4.0 LSTM的训练流程和3.0版本有点像,如下:
- 准备培训文字(txt)。
- 将文本转换为 图像和box文件。
- 制作unicharset文件。
- 根据unicharset和可选的词典数据制作入门级训练数据。
- 运行tesseract以处理图像和 box文件以创建训练数据集。
- 对训练数据集进行训练。
- 合并数据文件。
其区别在于:
1、 3.0版本训练图像文字,需要知道每个要训练的字在其图像中的具体坐标,而4.0版本训练仅需要知道这个字所在行的坐标即可(即不需要逐个字去调试坐标)。
2、3.0版本训练过程中的 .tr文件在4.0版本的训练过程中被替换为.lstmf数据文件。(其他训练教程里面如果出现了.tr文件,那就可以肯定他的教程是3.0版本)
3、 字体可以并且应该自由混合而不是分开。(这段话我看不懂)
4、 3.0版本的聚类步骤(mftraining,cntraining,shapeclustering)在4.0中被替换为一个缓慢的lstmtraining步骤。(即3.0的多个合并步骤在4.0这里只需要一个步骤完成)
5、 4.0的训练需要一气呵成,如果训练中断,重启后很难自动结束。
6、 4.0使用的语言模型、unicharset和3.0版本所使用的语言模型和unicharset不一样(所以不要拿3.0的数据来4.0里面训练)。
训练前准备
写了半天:发现知乎已经有篇现成的了,大家可以参考
https://zhuanlan.zhihu.com/p/58366201?from_voters_page=true