学了大半年 Node.JS 不知道学了点什么,眼看着这学期就快要过去了,即将迎来期末考试的审判,心慌。写几行代码静静,所以这几天用 Node 写了个查成绩系统。等期末考完试就能用自己的程序查自己成绩看看挂了几科,想想也是很刺激的。
查成绩说到底还是爬虫,写爬虫有个趁手的工具还是很方便的,就是这两个:
// 用来发送http请求
const request = require('request');
// 用来用 jquery 语法解析 html 格式文件
const cheerio = require('cheerio');
现在可以发送 http 请求了,那还需要来看一下教务处的路由。
通过观察,首先要登录一下,登录还需要填个二维码。通过观察,验证码请求路径就是这个:
/validateCodeAction.do?random="+Math.random();
验证码这个东西,请求它的时候它还会返回一个 cookie 所以需要把这个 cookie 存一下:
var cookie = res.headers['set-cookie'];
然后还有表单内容:
用户名:zjh
密码:mm
验证码:v_yzm
然后带着 cookie 去 POST 登录表单,就可以登录成功啦,没有 cookie 登录的话会返回服务器繁忙。登录失败!
最后的请求参数:
let opts = {
// 登录路径
url: "http://教务处网址/loginAction.do",
headers: {
'User-Agent': `Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36`,
Cookie: cookie, //这里是请求二维码返回的cookie,(重点)
},
encoding: null, // 关键代码
method: 'POST',
// 携带 cookie 再 POST 表单
form: {
zjh: username, // 学号
mm : password, // 密码
v_yzm : yzm // 验证码
},
};
哦,对了。登录路径是这个:
/loginAction.do
然后就登录成功啦,经过一顿探索发现。得知,查询成绩页面是这个路由:
/gradeLnAllAction.do?type=ln&oper=fa
然后通过 request 请求这个路径,在返回的 body 中得到 html 文件。
这里有一个问题,就是中文乱码问题,这里可以通过设置 request 请求的 encoding 参数设置为 null 返回二进制文件,再通过
const gbk = require('GBK');
这个模块,将二进制文件转为 GBK 编码。
var data = gbk.toString('utf-8',body1);
然后就可以愉快的从文件中获取成绩信息了。先用 cheerio 模块加载 html 文件。
var $ = cheerio.load('data');
然后用 jquery 语法分析
var temp = [];
var data = {
score:[],
};
$(".odd td").each(function(index,el){
temp[index] = $(el).text().trim();
data['score'][index] = temp[index];
})
分析网页源码发现,成绩信息储存在 .odd 下的 td 标签中,遍历 td 标签,trim 方法去掉空格回车将结果储存在 data 对象的 score 数组中。
res.render('score',data);
返回 data 数据。
好啦,后台内容基本就写完。前端接收数据显示即可。
很多学校的教务处可能都是类似的,看了这篇文章相信每个人都可以自己写一个专属的查成绩系统,或者是女朋友私人订制版?