这里不讲那些逻辑和原理,反正本人也搞不清,就谈谈自己的安装时候遇到的问题。
系统是win8.1
tesseract
tesseract安装需要到指定链接去下载(https://digi.bib.uni-mannheim.de/tesseract/)
此次选择的
tesseract-ocr-setup-3.05.01.exe
为什么选它,是因为后面tesserocr所要下载的版本必须和tesseract相对应,本来是下载tesseract-ocr-setup-5.0.0.exe的,但是tesserocr没有对应的版本,所以就放弃了,这是其一。
其二,所有含有dev的都是开发版,不带dev的是稳定版,所有选择tesseract-ocr-setup-3.05.01.exe
下载完成之后,选择安装,这个就比较简单了,点击next就行了。
如图2所示,此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。(当然也可以选择指定目录安装)安装时间蛮久的。
然后cmd打开命令行,输入tesseract -v会报错
于是配置两个环境变量,我的电脑——右击——属性——高级系统设置——高级——环境变量——
系统变量——path(输入变量名path,变量值D:\Python3.6.0\pythoncorrelation\Tesseract-OCR,这个值就是Tesseract安装的位置即所在路径)这是其一,其二,系统变量——新建(输入变量名TESSDATA_PREFIX,变量值D:\Python3.6.0\pythoncorrelation\Tesseract-OCR,这个值就是Tesseract安装的位置即所在路径)
cmd打开命令行,输入tesseract -v,正确的应该报
关于配置两个环境变量的问题,有些文章要求有,有些文章要求没有,这里统一记录下来了。
tesserocr
安装tesserocr的时候有遇到很多坑,先是用pip3 install tesserocr或pip3 install tesserocr pillow下载安装均下载失败。
于是转向轮子下载。轮子下载之前,需要知道自己的电脑的python和哪个轮子相配,可以cmd中输入,本电脑是64位,如图10中方框输入。
cmd中输入:python
>>>import pip
>>>import pip._internal
>>>print(pip._internal.pep425tags.get_supported())
查看到对应的版本为cp36,cp36m,win64,下载安装的版本为win_amd64。
下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
【电脑是32位的可以试试这个
import pip
print(pip.pep425tags.get_supported())】
红色方框是tesseract和tesserocr对应关系,蓝底白字是python和tesserocr的对应关系,
但是,到这里悲剧来了,tesserocr不能下载,总是说是网速的问题,内网和外网,大家都懂的,所以请求看到这篇文章的大神,如果备份了
tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
私聊一个,发份给我吧,网上也找不到现成的已经下载好的了。多谢好心人。
(能下载下来的都是一些残片,不能安装,会报错,提示如图4)file is
not a zip file(不是完整的文件)
后续:
如果能下载下来,怎么安装,网上回答也是五花八门的,个人感觉最正确的应该是将tesserocr放入到script包里去安装
小提示:如果使用wheel安装whl文件,必须先安装wheel,直接pip install wheel;如果需要升级pip,直接python -m pip install -- upgrade pip