背景
前几天想用Python模拟登录教务系统,但是我们学校的教务系统做了验证码识别,既然如此,刚好学习一下识别简单验证码
Tesseract
简介
Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体"。不过这里要讲的,是一款以其命名的开源 OCR(Optical Character Recognition, 光学字符识别) 软件。
所谓 OCR 是图像识别领域中的一个子领域,该领域专注于对图片中的文字信息进行识别并转换成能被常规文本编辑器编辑的文本。
在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在现在的免费 OCR 引擎中,其识别精度也仍然是出类拔萃的。因为其免费与较好的效果,许多的个人开发者以及一些较小的团队在使用着 Tesseract ,诸如验证码识别、车牌号识别等应用中,不难见到 Tesseract 的身影。
MacPorts安装
MacPorts是mac上的一个包管理软件,他使得mac用户安装编译软件十分方便,我们打算用MacPorts来安装Tesseract。
在官网上下载MacPorts的pkg,双击即可安装。查看port是否安装成功
~:port version
为了防止出现'commond not found',要把port指令加入环境变量PATH之中
~:where port
/opt/local/bin/port
~:export PATH=/opt/local/bin:/opt/local/sbin:$PATH
在正式使用之前,一定要对MacPorts进行升级,不然找不到很多软件
包
~:sudo port selfupdate
这个过程可能很慢,甚至会因为网路状况失败,多试几次就好
Tesseract安装
Tesseract 的编译需要 automake, autoconf, libtool 支持
~:sudo port install autoconf
~:sudo port install automake
~:sudo port install libtool
当然了, Tesseract 还依赖一些图像库:
~:sudo port install jpeg tiff libpng
Leptonica是Tesseract 的一个比较重要的依赖,而且不同版本的 Tesseract 对 Leptonica 的版本要求也不一样,需要留意包管理器所安装的 Leptonica 版本是否满足要求
~:sudo port install leptonica
最后,安装
sudo port install tesseract
安装完成之后就可以正常运行tesseract了。
一个小插曲,我今天到公司后运行tesseract,输出 commond not found,再输入运行Port,也是commond not found,吓我一跳,以为中了病毒。最后发现原来是他们的运行文件的路径都不在环境变量$PATH中了,赶紧加了进去。
之后我从学校教务处下载了一些验证码
使用tesseract识别
tesseract 1.jpeg ouput
vi output.txt
准备工作已经做好,接下来可以写Python程序了
ok,先上代码
__author__='fanyiting'
#coding=utf-8
import requests
from PIL import Image
import os
vcode_path='http://202.118.31.197/ACTIONVALIDATERANDOMPICTURE.APPPROCESS?id=72.8565560350367'
url='http://202.118.31.197/ACTIONLOGON.APPPROCESS?mode='
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}
my_session=requests.Session()
def down_png(req,img_path):
with open('check.png','wb') as f:
img_stream=req.get(img_path,stream=True)
# print tuple(img_stream.cookies)
for chunk in img_stream.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
f.flush
f.close()
def get_vcode(req,vcode_path):
down_png(req,vcode_path)
os.popen('tesseract check.png check')
vcode=file('check.txt').read().strip()
return vcode
def login(req,code):
payload={'WebUserNO':'20124964','Password':'*****','Agnomen':code,'applicant':'ACTIONQUERYBASESTUDENTINFO','submit7':'%B5%C7%C2%BC'}
r=req.post(url,headers=headers,data=payload)
return r
page=my_session.get(url)
vcode=get_vcode(my_session,vcode_path)
page=login(my_session,vcode)
print page.text