python 调用百度api识别验证码

我为什么不用pytesseract来识别验证码?据各大论坛反映,pytesseract的识别效果很一般。百度云人工智能的技术当然毋庸置疑,识别效果确实很棒。我使用此接口,并不只是识别验证码。我做了什么?

  • 给公司文员写了一个图片转文字的脚步,也就是PDF转Word,效果一级棒,亲测准确率99%,转换之后只需修改格式即可

  • 我自己用来写爬虫程序,有些网站信息是用图片展示的,先爬取图片再识别,几乎无误。

在此,以识别验证码的方式记录下过程。

需求:

识别网站登录的验证码,如:

1592825366923.png

在百度智能云平台,提供许许多多的接口,有兴趣的,自己去看百度智能云https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm

实现步骤:

  • 首先,登录自己的百度账号,或者注册一个,进去后,点击管理控制台

  • 选择产品服务——人工智能——文字识别——应用列表——创建应用,填写相关信息并立即创建

    [图片上传失败...(image-5c25f5-1592829704080)]

  • <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="python" cid="n66" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">应用名称:自己随便写
    应用类型:自己随便写
    接口选择:当然是文字识别
    文字识别包名:看自己,我选择不需要
    应用描述:自己随便写</pre>

  • 在应用列表可以看到自己刚创建的应用了,这里的三个参数:AppID、API Key、Secret Key,正是我们所需要的

  • 下面免费给大家分享,我提交工单,与百度智能云的工程师沟通,在凌晨4点时终于得到亲测无误的python代码,期间花了8个小时时间。

    代码先贴,随后解释

    <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="python" cid="n100" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">def captcha(self, cap):
    app_id = '你的AppID'
    api_key = '你的API Key'
    secret_key = '你的Secret Key'
    client = AipOcr(app_id, api_key, secret_key)

    在上面代码中,常量APP_ID在百度智能云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。

    client.setConnectionTimeoutInMillis(2000)#这两行代码至关重要
    client.setSocketTimeoutInMillis(60000)#8个小时的成果

    def get_file_content(img):
    with open(img, 'rb')as f:
    return f.read()

    try:
    result = client.basicAccurate(get_file_content(cap))#通用识别出来的结果,
    except Exception:
    sleep(0.2)
    self.captcha(cap)
    else:#以下代码根据自己需求来改
    if 'words_result' not in result.keys():
    return self.captcha(cap)
    else:
    text = result['words_result']
    cap_res = ''
    for i in text[0]['words']:
    try:
    int(i)
    except ValueError:
    pass
    else:
    cap_res += i
    return cap_res</pre>

    分析代码:

    1. 首先,安装两个库PIL和aip,并导入。这两个库安装有些特殊,如果使用的python3直接使用pip install PIL或pip install aip是无法安装的。

      • PIL:使用Pillow库来安装

        • <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="python" cid="n149" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">pip install Pillow</pre>

        • PIL(Python Imaging Library)是Python一个强大方便的图像处理库,名气也比较大。不过只支持到Python 2.7。

        • Pillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库

      • aip:我们打开百度智能云的管理控制台后,可以看到技术文档有说明

        • <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="py" cid="n161" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">pip install baidu-aip</pre>
      • <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="py" cid="n194" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">from PIL import Image
        from aip import AipOcr</pre>

    2. <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="py" cid="n200" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">client.setConnectionTimeoutInMillis(2000)#这两行代码至关重要
      client.setSocketTimeoutInMillis(60000)#8个小时的成果</pre>

      • 这里的代码为什么至关重要?

        接口 说明
        setConnectionTimeoutInMillis 建立连接的超时时间(单位:毫秒)
        setSocketTimeoutInMillis 通过打开的连接传输数据的超时时间(单位:毫秒)

        大家看到了吧?一旦超时,就识别不到。我采用的方式:

        对识别内容做判断(识别后返回一个字典格式,当没有键[words_result]时,停顿0.2秒继续识别

    3. 没有异常的正常代码处理:

      需求只是识别,我的处理简单粗暴,对结果进行遍历提取。这里自行打印输出查看

最后,希望我的分享对大家有用!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343