本系列笔记聊一聊,Python爬虫如何进阶,探讨如何系统的完成爬虫进阶。
在正式开篇之前,如果是新手,建议先了解如下内容:
- 通读Python 基础教程
- 阅读《用Python写网络爬虫》
- 了解基础的Http协议、Html、Ajax等内容,推荐ruoob系列。ruoob的教程教浅显,用来了解入门还是不错的。
- 参考Python爬虫学习系列教程中的爬虫实战部分,选择一二动手练习。
如果已经做过爬虫项目,可以直接跳过上述内容。本篇爬虫进阶笔记,计划包括如下内容:
数据获取
- curl的使用
- urlib2探析
- requests探析
- ajax 逆向工程
- javascript页面模拟
- 数据自动上传
- 登陆验证
- IP代理
数据解析
数据存储
反爬及容错攻防
高效的爬虫
工具及通知
本系列笔记,不含具体爬虫项目,具体的项目,会单独成篇。