Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结
Scrapy爬虫教程二 浅析最烦人的反爬虫手段
Scrapy爬虫教程三 详细的Python Scrapy模拟登录知乎
Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎
Scrapy爬虫教程五 爬虫部署
现在使用Scrapy进行爬取数据已经轻车熟路了,那这篇文章中就讲述了一下将爬虫部署到生产环境中。scrapy官方提供了爬虫管理工具scrapyd来方便的部署爬虫。
操作环境:
Python 3.6.3
pip 9.0.1
curl 7.57.0
一.scrapyd
1.1使用scrapyd的好处?
最大的好处就是方便使用,我们可以使用它来方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。
1.2.scrapyd工作原理
当在一个服务器上安装并运行scrapyd服务的时候,scrapyd会以守护进程的形式来监听爬虫的运行和请求,然后启动进程来执行爬虫程序。
1.3.scrapyd的使用
1.3.1 scrapyd安装
pip install scrapyd
1.3.2 scrapyd启动
在命令行中敲入以下命令
scrapyd
启动之后的是这样的:
scrapyd 也提供了 web 的接口。方便我们查看和管理爬虫程序。默认情况下 scrapyd 监听 6800 端口,运行 scrapyd 后。在本机上使用浏览器访问http://localhost:6800/地址即可查看到当前可以运行的项目。
二.项目部署
使用scrapyd-client提供的scrapyd-deploy工具进行部署
2.1 原理
scrapyd 是运行在服务器端,而 scrapyd-client 是运行在客户端。客户端使用 scrapyd-client 通过调用 scrapyd 的 json 接口来部署爬虫项目。
2.2 scrapyd-client安装
在命令行中敲入以下命令
pip install scrapyd-client
2.3配置项目的服务器信息
修改工程目录下的scrapy.cfg文件
如果你的服务器上有配置HTTP basic authentication验证的话,那么还需要配置用户名和密 码用来登录服务器
# -*- coding: utf-8 -*-
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.org/en/latest/deploy.html
[settings]default = speechspider.settings
[deploy:server] #为服务器指定的一个名字 这里我指定为server
url = http://localhost:6800/ #部署项目的服务器地址,现在把项目部署到本地,如果部署到其他机器上就需要更改ip
project = speechspider # speechspider为工程名称
username = *******
password = *******
2.4部署爬虫程序
在爬虫根目录下运行以下命令:
scrapyd-deploy <target> -p <project>
target为上一步在配置文件中配置的服务器名称,project为项目名称,拿我这个爬虫程序部署为例,执行的命令如下:
scrapyd-deploy server -p speechspider
部署操作会打包你的当前项目,如果当前项目下有setup.py文件,就会使用它当中的配置,没有就会自动创建一个。(如果后期项目需要打包的话,可以根据自己的需要修改里面的信息,也可以暂时不管它). 从返回的结果里面,我们可以看到部署的状态,项目名称,版本号和爬虫个数,以及当前的主机名称.
运行结果如下:
使用以下命令查看部署结果:
scrapyd-deploy -L 服务器名称
$ scrapyd-deploy -L server
speechspider
default
刷新http://localhost:6800/页面, 也可以看到Available projects:speechspider, default的字样。
三.使用API管理爬虫
scrapyd 的 web 界面比较简单,主要用于监控,所有的调度工作全部依靠接口实现。官方推荐使用 curl 来管理爬虫。
3.1 安装curl
windows 用户可以到该网站https://curl.haxx.se/download.html下载 curl 安装包进行安装。
ubuntu/Mac 用户直接使用命令行安装即可。
3.2 开启爬虫schedule
在项目根目录下运行以下命令来开启爬虫:
3.3 取消爬虫
3.4 列出项目
3.5 列出爬虫、版本、job 信息
3.6 删除爬虫项目
好了,爬虫程序的部署和使用API管理就介绍到这里。