目前该网(戳这里~~)采用较简单的结构:
1,页码递增
2,动态渲染个人页面
好了,跟小编一起分析分析
页面结构
不设置条件点击搜索(这样会出来全部数据,仅对该类站而言)
one
第一页的URL:
http://www.cfw.cn/rencai/search/?keywords=&keyType=1&JobAreaID=&invite_posttimeg=&request_experience=&request_edu=&salaryg=&AreaName=&page=1
发现URL很长,其实存在不必要的参数,点击下一页
第二页URL:
http://www.cfw.cn/rencai/Search?page=2&keytype=1
少了很多,删掉“&keytype=1”刷新,发现网页正常显示,说明必须参数是page=num,
接下来就可以构造每一页的URL了
http://www.cfw.cn/rencai/Search?page=num
按F12,检查一份的简历链接地址
查看简历链接
点开此简历
简历内信息
http://www.cfw.cn/resumes/?ids=id
个人页面内容加载方式
打开个人页面,按F12,查看页面源代码如图
个人的信息并不在页面上,说明这不是一个静态页面,个人信息通过别的方式渲染进来,这就需要自己寻找了
找到一个好朋友~~,小编发现show_resume/这个请求里返回了这份简历的内容
好朋友
那就简单啦,携带参数向请求地址发POST请求就获得了信息,如下图
请求方法
简历信息
返回的信息格式比较简单,json.loads()一下 字典和正则表达式就可以提取了
福利:服务器性能较好,不封ip,不封账号and so on,没有烦人的反爬虫限制着,那玩起来就舒服多啦
若查看个人基本信息不注册即可,联系方式需要开通服务
到此结束,小编要去洗澡了,赶快鞭策你的代码吧,,哈哈哈哈