Selenium&Pytesseract模拟登录+验证码识别

https://www.py3study.com/Article/details/id/351.html

验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的.

验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的.

验证码识别涉及到的知识:人工智能,模式识别,机器视觉,图像处理.

主要流程:

1 图像采集:就直接通过HTTP抓HTML,然后分析出图片的url,然后下载保存就可以了

2 预处理: 检测是正确的图像格式,转换到合适的格式,压缩,剪切出ROI,去除噪音,灰度化,转换色彩空间这些

3 检测: 验证码识别呢,主要是找出文字所在的主要区域

4 前处理: 验证码识别,“一般”要做文字的切割

5 训练: 通过各种模式识别,机器学习算法,来挑选和训练合适数量的训练集

6 识别: 输入待识别的处理后的图片,转换成分类器需要的输入格式,然后通过输出的类和置信度,来判断大概可能是 哪个字母

Pytesseract--验证码识别

1 简介

Python-tesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出其中嵌入的文字。Python-tesseract是对Google Tesseract-OCR的一层封装。它也同时可以单独作为对tesseract引擎的调用脚本,支持使用PIL库(Python Imaging Library)读取的各种图片文件类型,包括jpeg、png、gif、bmp、tiff和其他格式,。作为脚本使用它将打印出识别出的文字而非写入到文件。所以安装pytesseract前要先安装PIL和tesseract-orc这俩依赖库

2 安装

**PIL安装 **Python平台的图像处理标准库****

<pre class="brush:python;toolbar:false python hljs">pip3 install pillow</pre>

pytesseract安装,文字识别库

<pre class="brush:python;toolbar:false python hljs">pip3 install pytesseract</pre>

tesseract-ocr安装,识别引擎

windows:

https://digi.bib.uni-mannheim.de/tesseract/

下载

tesseract-ocr-setup-3.05.02 或者 tesseract-ocr-setup-4.0.0-alpha

linux:

github上面下载对应版本

https://github.com/tesseract-ocr/tesseract

遇到问题及解决:

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

解决方法:(我是win环境)

找到tesseract-ocr安装目录,复制路径如: C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

找到pytesseract.py文件,修改tesseract_cmd的路径,如下:

blob.png

环境安装完后,分析目标网站:

华中科技大学 http://www.hust-snde.com/cms/

需求,每天登陆一次保持活跃度

可以看到这个登陆是需要输入验证码的

blob.png

下面将利用Selenium&Pytesseract模拟登陆+验证码识别

完整代码如下:

<pre class="brush:python;toolbar:false python hljs">#!/usr/bin/env python

coding: utf-8

import time
from selenium import webdriver
from PIL import Image
import pytesseract

class LoginSchool(object):
def init(self, username, password, url):
self.username = username
self.password = password
self.url = url
self.browser = self.getbrowser()
self.login_school(self.browser)

def getbrowser(self):
    chrome_options = webdriver.ChromeOptions()
    # 去除警告
    chrome_options.add_argument('disable-infobars')
    # 无头模式
    # chrome_options.set_headless()
    browser = webdriver.Chrome(options=chrome_options,
                               executable_path=r'D:\chromedriver_2.41\chromedriver.exe')
    return browser

def login_school(self, browser):
    browser.get(self.url)
    time.sleep(3)
    # 打开目标网站,并截取完整的图片
    browser.get_screenshot_as_file('login.png')
    # 找到输入账号的input,并输入账号
    browser.find_element_by_id("loginId").send_keys(self.username)
    # 找到输入密码的input,并输入密码
    browser.find_element_by_id("passwd").send_keys(self.password)
    # 找到验证码img标签,切图
    img_code = browser.find_element_by_xpath("//div[@class='logif']//img[@id='imgCode']")
    time.sleep(3)
    # 算出验证码的四个点,即验证码四个角的坐标地址
    left = img_code.location['x']
    top = img_code.location['y']
    right = img_code.location['x'] + img_code.size['width']
    bottom = img_code.location['y'] + img_code.size['height']
    print("验证码坐标::", left, top, right, bottom)
    # 利用python的PIL图片处理库,利用坐标,切出验证码的图
    im = Image.open('login.png')
    im = im.crop((left, top, right, bottom))
    im.save('code.png')
    # 调用图片识别的函数,得到验证码
    code = self.img_to_str()
    # 找到验证码的input,并输入验证码
    browser.find_element_by_id("authCode").send_keys(code)
    # 点击登录按钮
    browser.find_element_by_xpath("//div[@class='loga']/a[text()=' 登 录']").click()
    time.sleep(2)
    try:
        msg = browser.find_element_by_xpath("//div[@class='user_name']").text
        if msg:
            print('登陆成功')
            print(msg)
    except Exception as e:
        print('登陆失败:{}'.format(e))
    finally:
        time.sleep(1)
        browser.quit()

def img_to_str(self):
    # 打开切出的验证码code.png
    img = Image.open('code.png')
    # 利用pytesseract识别出验证码
    # -psm 8 为识别模式
    # -c tessedit_char_whitelist=1234567890  的意思是 识别纯数字(0-9)
    code = pytesseract.image_to_string(img, config='-psm 8 -c tessedit_char_whitelist=1234567890')
    print('验证码识别:{}'.format(code))
    return code

if name == 'main':
username = '账号'
password = '密码'
url = 'http://www.hust-snde.com/center
/left_hydl.jsp?url=www.hust-snde.com:80/sso/login_centerLogin.action'
st = LoginSchool(username=username, password=password, url=url)</pre>

运行程序:

blob.png

当前目录下会生成两个图片文件

login.png 为登陆时的截图

blob.png

code.png是从上面login.png中切出来的验证码图片

blob.png

pytesseract识别简单的验证码成功率还行,如果验证码有干扰线,噪点之类的就需要对验证码图片进行去除噪音,灰度化,转换色彩空间这些处理.

如果验证码有字体样式,或者比较复杂,就需要训练,来提高识别的成功率.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,064评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,606评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,011评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,550评论 1 269
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,465评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,919评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,428评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,075评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,208评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,185评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,191评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,914评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,482评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,585评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,825评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,194评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,703评论 2 339

推荐阅读更多精彩内容