刚刚学习爬虫时,么有python基础,么有爬虫基础。由于实习需要,踏上了学习爬虫的旅程,本人菜鸟一枚,本博客多为记录本人的学习过程,同时与大家共同学习~~~~
一、关于基础
本想把python学习完了,再进行scrapy的学习,然而时间紧迫,书本比较枯燥,便决定边学习爬虫,边学习python。刚刚开始时读取了知乎的一个帖子--如何入门python爬虫,相信刚刚学习爬虫的人很多都看到了这个帖子,写的很不错,对我启蒙作用也很大。还有一篇很经典的scrapy轻松定制网络爬虫,把爬虫大概的机制讲的很通俗,并让人想跃跃欲试~~~(那就试试吧)
二、何为网络爬虫
度娘解释:一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。既然名为spider,那么运行起来就很像蜘蛛喽~~
网页之间都存在很多链接,指向着其他页面。一只在互联网上爬的蜘蛛,就是按照一定的规则(由你来指定~)来爬向下一个页面,并把你想要的内容抓下来。For example,你想要把某博主的博客内容抓下来。首先,我们要将一只可爱的spider放到该博主博客的某个页面上,然后spider将该网页从头到尾爬一遍,将该网页上所有该博主的其他博客网址存到包包里(聪明的spider会记得该网页自己是否已经爬过了,如果爬过了就丢掉喽,也就是所谓的去重),如果该网页也有你要的博客的内容,它就把博客的内容抄下来交给你。爬完一个页面之后,spider就会从自己的包包里拿出一个网址,继续进行爬取。
三、scrapy安装
网络爬虫有很多种语言和框架来实现,本人主要是使用python和开源的scrapy。简而言之,爬虫主要分为爬和抓,如何进行高效定向的爬网页和如何抓到有效的信息并进行存储。
下面,主要来研究一下window下的scrapy安装。window下的安装时最为繁琐复杂的,let's go~(此部分下次完善)