前面的两个爬虫都是用的requests+beautifulsoup来实现的,今天我们使用python爬虫框架scrapy来实现爬取豆瓣电影top250的小程序。
首先是安装scrapy。我们可以使用pip来安装scrapy,但是这会出现一些坑,解决起来有点繁琐。所以我们使用anaconda来安装。
anaconda是一个集成的python库,好像是包含了800+python的库,主要是用于科学计算,机器学习等。它可以帮你减少很多安装库的麻烦。
你可以到anaconda官网下载安装包,但这样很慢,所以我推荐你到清华镜像去下载。下载后一路next就可以了。不过安装完后可能需要你手动添加anaconda的scripts文件夹到环境变量的path中。
这样你就可以在命令行中通过conda install scrapy命令很简单的安装scrapy了。
安装完scrapy后,在文件管理器中找一个你认为合适的位置,新建一个文件夹,用来存放我们的项目文件。
在文件夹的搜索栏中输入cmd,进去命令行,输入
scrapy startproject douban
这样我们就创建好了名为douban的scrapy爬虫项目。
我们使用pycharm打开这个项目,在File->setting->project Interpreter中修改python解释器为anaconda的解释器。新建一个python文件,输入import scrapy,如果pycharm没有报错的话,就设置成功了。
以上为scrapy的简单安装教程,我指的是我写的很简单,实际上你可能遇到各种问题,不过这些问题都可以通过百度解决,所以有问题就自行百度吧。
安装完后,就是分析网站以及编程实现功能了。