大学的时候一个人在宿舍没有点计划好的事情做就会很容易虚度,正好加了学校的互联网社团,社团新手考核有要求爬虫,做不出要被劝退,吓得我赶紧跑去看爬虫。刚开始看爬虫的时候,在网上找了很多资料,好大一部分教程是python2的,还有好大一部分可能是因为我的智商不够不怎么看的懂。东搞西搞搞了好久,看了好多,终于算是有点看懂了,就来写篇文章,算是对自己这段时间学习的总结吧。因为是边学边写,所以有些地方写的可能没有那么有条理,见谅。
首先简单介绍一下什么是爬虫(不想看的可以直接跳过这一段)。这是百度百科的解释:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
说白了就是可以自动帮你获取网页信息的程序,可以用爬虫爬文字,也可以用它实现登录,当然了,老司机最喜欢的就是用它爬岛国小姐姐的照片和电影了。(相信我,我肯定没有这个想法)
我们再来说说为什么用Python3写爬虫。相比于Java,C,C++之类的语言Python确实轻巧方便,适合轻量级工作。而且某种意义上来说确实功能强大。话不多说见下图
至于用3还是用2嘛,这确实是个很难回答的问题,因为Python的2和3并并不兼容,所以必须做个抉择,当然要是大佬的话两个一起给学了也行。Python2现在还是有大量的人在使用,使用的人数还是大超Python3的,但3现在发展也是越来越好使用的人也一直在增加,当然这个选择也有个人原因,并且社团要求是3。这儿也有知乎上的讨论:
应该学习最新版本的 Python 3 还是旧版本的 Python 2?
反正对于新旧技术的选择总是个比较蛋疼的,自己抉择就好。
好了那么我们再来看看学习python前的准备和资料:
1.当然是Python基础了,
用Python写爬虫怎么可以不会Python。个人觉得Python只要学了基础就可以开始写了,遇见其他的可以现学现买。当然了这只是个人的建议。这里有几个个人觉得比较好的学习Python3的学习网址:
廖雪峰官方网址:
廖雪峰python3(廖老师讲得挺好的,挺适合新手的,但说实在的,有些例题和有部分内容跳的挺快的,但总的来说还是比较适合0基础的新人的)
不过说实在的python3的新手入门的书确实比较少,市面上的好多资料都是python2的资料。像什么《笨办法学python》之类的好像基本是讲python2的。
但这里有一本不错的python3的书讲的还挺详细的,和廖雪峰老师讲的可以互补吧。书名叫做《python3基础教程》有兴趣的可以去看看。
2.可以去看知乎上的如何入门爬虫的讨论 :如何入门 Python 爬虫?
3.当然这里还有python的官方原文件,有能力的可以看看:3.3.6Documentation
4.当然还是要推荐一本爬虫书籍的,这本书籍确实不错《python网络数据采集》
这本书是以python3写的可以看看。
5.需要学习一些扩展库
当然了这里除了第一项是学习爬虫的硬性指标外其他都是可以一边学爬虫一边看的。