执行环境
windows 7 64位
node 5.8.0
最近在写有关模拟登录的模块,查了一些资料,很多都没有验证码这部分的处理,总结一下,我认为在写之前要理解爬虫的工作原理,理解了数据如何在浏览器与服务器之间进行交互,实现起来就简单了。
爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。当我们将学号、密码及验证码提交后,浏览器首先通过与服务器进行连接,确认我们填的信息正确后,服务器会生成一个sessionId来表示登陆成功的状态,并返回给浏览器,浏览器接受到SessionId之后,作为cookies值保存在浏览器,之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此,获取cookies值是我们做爬虫很关键一步,这样才可以对登录后的页面数据进行爬虫,找到自己需要的数据。
一、准备工作:
1.安装superagent(一个的请求代理模块api,可处理get,post,put,delete,head请求)
npm install superagent
2.安装cheerio(装载已爬取的html网页,类似jQuery,方便获取网页指定数据。)
npm install cheerio
3.安装nodecr(解析验证码)
npm install nodecr
二:分析网页cookies
首先在浏览器中输入正确的用户和密码进行登录,登录成功后服务器会发送生成的cookie值给浏览器,用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录,还要保存好其发送给我们的cookie值,在之后的请求中将cookie值设置在请求头中进行发送,以获取登录后的其它页面信息。可在控制台中进行查看分析。
三、分析post需要提交的字段
方法一:在同样的控制台页面下面我们可以看到我们需要post提交的字段信息。
方法二:可以查看源码,进行查找相应提交字段。
四、验证码处理
往往很多登录页面都需要验证码,我们该如何获取验证码,并对其进行解析呢?这就需要nodecr(前身为tesseract),它可以解析到验证码中的数字,本文的解析流程,首先获取登录页面的验证码并保存到本地指定目录,然后通过nodecr第三方工具进行解析得到相应验证码,之后与用户名、密码一并提交,进行模拟登录。部分截图如下:
1.保存过程
2.解析登录过程
注:(红色框中输入自己爬取网页的相应字段)
五。转码过程(可选)
有时候我们所要爬取的页面编码为GBK格式则不能正常显示,这时需要进行转码处理
六、登录成功后,这时就该cheerio上场了,cheerio操作类似jquery的用法,先将得到的页面用cheerio进行转载,之后对相应的数据进行处理,取得自己想要的数据。
模拟登录是最基础也最重要的部分,登录之后,我们便可以运用自己的知识对网页进行处理了,比如课表的爬虫,成绩的爬虫等等,你会觉得越来越有意思了。
详细代码:https://github.com/luhongchun/blog/tree/master/node_login