我为什么不用pytesseract来识别验证码?据各大论坛反映,pytesseract的识别效果很一般。百度云人工智能的技术当然毋庸置疑,识别效果确实很棒。我使用此接口,并不只是识别验证码。我做了什么?
给公司文员写了一个图片转文字的脚步,也就是PDF转Word,效果一级棒,亲测准确率99%,转换之后只需修改格式即可
我自己用来写爬虫程序,有些网站信息是用图片展示的,先爬取图片再识别,几乎无误。
在此,以识别验证码的方式记录下过程。
需求:
识别网站登录的验证码,如:
在百度智能云平台,提供许许多多的接口,有兴趣的,自己去看百度智能云https://cloud.baidu.com/doc/OCR/s/Ek3h7xypm
实现步骤:
首先,登录自己的百度账号,或者注册一个,进去后,点击管理控制台
-
选择产品服务——人工智能——文字识别——应用列表——创建应用,填写相关信息并立即创建
[图片上传失败...(image-5c25f5-1592829704080)]
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="python" cid="n66" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">应用名称:自己随便写
应用类型:自己随便写
接口选择:当然是文字识别
文字识别包名:看自己,我选择不需要
应用描述:自己随便写</pre>在应用列表可以看到自己刚创建的应用了,这里的三个参数:AppID、API Key、Secret Key,正是我们所需要的
-
下面免费给大家分享,我提交工单,与百度智能云的工程师沟通,在凌晨4点时终于得到亲测无误的python代码,期间花了8个小时时间。
代码先贴,随后解释
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="python" cid="n100" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">def captcha(self, cap):
app_id = '你的AppID'
api_key = '你的API Key'
secret_key = '你的Secret Key'
client = AipOcr(app_id, api_key, secret_key)在上面代码中,常量APP_ID在百度智能云控制台中创建,常量API_KEY与SECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。
client.setConnectionTimeoutInMillis(2000)#这两行代码至关重要
client.setSocketTimeoutInMillis(60000)#8个小时的成果
def get_file_content(img):
with open(img, 'rb')as f:
return f.read()
try:
result = client.basicAccurate(get_file_content(cap))#通用识别出来的结果,
except Exception:
sleep(0.2)
self.captcha(cap)
else:#以下代码根据自己需求来改
if 'words_result' not in result.keys():
return self.captcha(cap)
else:
text = result['words_result']
cap_res = ''
for i in text[0]['words']:
try:
int(i)
except ValueError:
pass
else:
cap_res += i
return cap_res</pre>分析代码:
-
首先,安装两个库PIL和aip,并导入。这两个库安装有些特殊,如果使用的python3直接使用pip install PIL或pip install aip是无法安装的。
-
PIL:使用Pillow库来安装
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="python" cid="n149" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">pip install Pillow</pre>
PIL(Python Imaging Library)是Python一个强大方便的图像处理库,名气也比较大。不过只支持到Python 2.7。
Pillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库
-
aip:我们打开百度智能云的管理控制台后,可以看到技术文档有说明
- <pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="py" cid="n161" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">pip install baidu-aip</pre>
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="py" cid="n194" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">from PIL import Image
from aip import AipOcr</pre>
-
-
<pre spellcheck="false" class="md-fences md-end-block ty-contain-cm modeLoaded" lang="py" cid="n200" mdtype="fences" style="box-sizing: border-box; overflow: visible; font-family: Monaco, Consolas, "Andale Mono", "DejaVu Sans Mono", monospace; margin-top: 0px; margin-bottom: 20px; background: inherit; font-size: 0.9rem; display: block; break-inside: avoid; text-align: left; white-space: normal; position: relative !important; padding: 10px 30px; border: 1px solid; width: inherit;">client.setConnectionTimeoutInMillis(2000)#这两行代码至关重要
client.setSocketTimeoutInMillis(60000)#8个小时的成果</pre>-
这里的代码为什么至关重要?
接口 说明 setConnectionTimeoutInMillis 建立连接的超时时间(单位:毫秒) setSocketTimeoutInMillis 通过打开的连接传输数据的超时时间(单位:毫秒) 大家看到了吧?一旦超时,就识别不到。我采用的方式:
对识别内容做判断(识别后返回一个字典格式,当没有键[words_result]时,停顿0.2秒继续识别
-
-
没有异常的正常代码处理:
需求只是识别,我的处理简单粗暴,对结果进行遍历提取。这里自行打印输出查看
-
最后,希望我的分享对大家有用!