[TOC]
目标
主流网站招聘信息爬取
爬取并解析,归类,去重,存储招聘信息企业口碑分析
获取企业的评价,进而通过自然语言处理,分析评论的情感满意度监控
待定,暂时不做,初步想法是,爬取微博或者主流论坛,根据关键词,抓取需要的信息进行二次分析数据展示
flask或者别人做
项目概要设计
写招聘网站的爬虫,考虑三步走:
首先,把架子完成,用scrapy写一个可以下载页面,解析静态页面的爬虫,加head
解析,可能用xpath和bs其次,加入高级功能,加入js解析,验证码破解,页面去重,登陆,开始考虑解析出来的数据存储,图片存储,考虑页面更新
js解析,可以考虑Pyv8,PythonWebKit,Selenium,PhantomJS,Ghost.py等
数据存储,考虑用mongodb
去重,考虑用BitVector最后,考虑分布式,数据库存储进一步优化,加入消息队列,加入限速,加入web服务,加入数据虚拟化
分布式管理暂时考虑的是celery
消息队列,考虑用rabbitmq或者redis
web服务考虑scrapy-jsonrpc
portia是个有意思的项目,可以方便的爬取数据,打算试试
可能引入docker做分布式
frontera提供了一个爬虫的前端组件
招聘网站的爬取策略
- 对于第一次爬取
是否需要爬取历史职位?
如果需要,则按职位id依次爬取,需要注意的是,相当数量的职位,已经被删除
- 对于职位更新
职位更新,按更新进度排序,每半天爬取一次,如果频率加快,就适度调整抓取频率