如果你用Python3写爬虫,强力推荐《Python网络数据采集》这本书,应该是目前最系统最完善介绍python爬虫的书。可以去图灵社区买电子版。
书的内容很新也很系统,从beautifulSoup,requests到ajax,图像识别,单元测试。比起绝大多数blog零散的教程要好的多,看完书后就可以去做些实战项目,这个时候可以去github上找类似的项目借鉴下。
图灵社区: 图书:《Python网络数据采集》
国内也有一本讲爬虫的好书,《自己动手写网络爬虫》,这本书除了介绍爬虫基本原理,包括优先级,宽度优先搜索,分布式爬虫,多线程,还有云计算,数据挖掘内容。只不过用了java来实现,但思路是相同的。
Python爬虫靠系统学习固然好,直接写一个项目出来效果更加简单粗暴!(不过自己现在的水平写出来都是流水一般的面向过程的代码,代码的重复部分太多,正在回过头去学习面向对象编程,学习类和方法的使用。
不过我还是坚定地认为入门的时候应该直接简单粗暴地实践一个项目)3、哪里不会搜哪里!哪里报错改哪里!相信我你遇到的99%的问题都能从网上找到相似的问题,你需要做的就是写代码!搜问题!调BUG!你搜不到解决办法的情况下,80%的情况是你搜索的姿势不对,另外20%可能需要你自己动动脑子,换个思路去做。
说了这么多,要是现在的情况不适合你进行自学:或许是你的自制力不够,或许是你没有足够多的时间自学,或许你需要更专业的课程学习......不管怎样,或许你需要找一家真正靠谱的Python学习班。