一、Tesseract介绍
Tesseract是一个google开源的OCR引擎,能识别100多种语言,但对手写的识别能力较差。
Mac的开源代码地址:
https://github.com/AngusHardie/TesseractOCR-For-Mac
C++代码开源地址:
https://github.com/tesseract-ocr/tesseract
二、安装Tesseract
brew install tesseract
-
安装截图
三、其他额外安装命令
# 安装tesseract的同时安装训练工具
brew install --with-training-tools tesseract
# 安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择
brew install --all-languages tesseract
# 安装tesseract,并安装训练工具和语言
brew install --all-languages --with-training-tools tesseract
四、下载部署语言库
- 地址
https://github.com/tesseract-ocr/tessdata
-
下载指定语言库
语言库的配置目:
- brew的软件安装的默认位置是:
/usr/local/Cellar
- tesseract语言库路径为:
/usr/local/Cellar/tesseract/4.0.0_1/share/tessdata
-
拷贝下载的语言库到此tesseract的语言库路径
五、简单的识别
-
装备一张文本图片
- 识别指令
tesseract src.png out -l chi_sim
- 识别效果
明 符
唐 代 : 李 竭
的 第 伟 粥 体 , 素 手 王 房 前 。
欲 得 周 邹 颂 , 时 时 请 押 践 。
- 这识别效果😂😂😂😂😂😂😂😂😂
六、说明
-
该ORC库提供训练工具等,训练的过程参考:
这里安装这个工具的主要目的是使用python调用来实现简单的文本识别(该识别算法使用的是长短时记忆神经网络)。