下载地址:https://digi.bib.uni-mannheim.de/tesseract/
下载安装教程
1.path中添加环境变量
C:\Program Files (x86)\Tesseract-OCR(安装目录)
2.勾选了语言包,还需要添加环境变量
TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata
注意
:跟参考文章有区别,需要指定都tessdata路径
3.验证环境变量配置
配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功
4.验证安装
1.CMD控制台测试
测试图片:https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
下载并保存图片,到图片的目录下执行,会在图片当前目录生成result.txt文本
2.中文语言识别
安装的时候勾选了language,所以在tessdata目录下有很多的语言包.如果没有就百度下载吧。
使用 tesseract -h 查看帮助命令
tesseract --list-langs 查看所有语言
tesserct a.png result -l chi_sim 指定中文语言 读取a.png 并保存文字到result
2.pythoncharm中测试
安装 pip install pytesseract
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open("image.png"))
print(text)
提示
解决办法
pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,文件夹中找到pytesseract.py,路径为:虚拟环境\Lib\site-packages\pytesseract,使用notepad之类软件打开pytesseract.py,找到如下两行:
CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'
把tesseract_cmd 值更改如下:
tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
(注意你的安装路径,r表示转义)
在执行就成功了。