Scrapy爬虫教程五爬虫部署

现在使用Scrapy进行爬取数据已经轻车熟路了，那这篇文章中就讲述了一下将爬虫部署到生产环境中。scrapy官方提供了爬虫管理工具scrapyd来方便的部署爬虫。

操作环境：

Python 3.6.3

pip 9.0.1

curl 7.57.0

一.scrapyd

1.1使用scrapyd的好处？

最大的好处就是方便使用，我们可以使用它来方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。

1.2.scrapyd工作原理

当在一个服务器上安装并运行scrapyd服务的时候，scrapyd会以守护进程的形式来监听爬虫的运行和请求，然后启动进程来执行爬虫程序。

1.3.scrapyd的使用

1.3.1 scrapyd安装

pip install scrapyd

1.3.2 scrapyd启动

在命令行中敲入以下命令

scrapyd

启动之后的是这样的：

scrapyd 也提供了 web 的接口。方便我们查看和管理爬虫程序。默认情况下 scrapyd 监听 6800 端口，运行 scrapyd 后。在本机上使用浏览器访问http://localhost:6800/地址即可查看到当前可以运行的项目。

二.项目部署

使用scrapyd-client提供的scrapyd-deploy工具进行部署

2.1 原理

scrapyd 是运行在服务器端，而 scrapyd-client 是运行在客户端。客户端使用 scrapyd-client 通过调用 scrapyd 的 json 接口来部署爬虫项目。

2.2 scrapyd-client安装

在命令行中敲入以下命令

pip install scrapyd-client

2.3配置项目的服务器信息

修改工程目录下的scrapy.cfg文件

如果你的服务器上有配置HTTP basic authentication验证的话，那么还需要配置用户名和密码用来登录服务器

# -*- coding: utf-8 -*-

# Automatically created by: scrapy startproject

#

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.org/en/latest/deploy.html

[settings]default = speechspider.settings

[deploy:server] #为服务器指定的一个名字这里我指定为server

url = http://localhost:6800/ #部署项目的服务器地址，现在把项目部署到本地，如果部署到其他机器上就需要更改ip

project = speechspider # speechspider为工程名称

username = *******

password = *******

2.4部署爬虫程序

在爬虫根目录下运行以下命令：

scrapyd-deploy <target> -p <project>

target为上一步在配置文件中配置的服务器名称，project为项目名称，拿我这个爬虫程序部署为例，执行的命令如下：

scrapyd-deploy server -p speechspider

部署操作会打包你的当前项目，如果当前项目下有setup.py文件，就会使用它当中的配置，没有就会自动创建一个。(如果后期项目需要打包的话，可以根据自己的需要修改里面的信息，也可以暂时不管它). 从返回的结果里面，我们可以看到部署的状态，项目名称，版本号和爬虫个数，以及当前的主机名称.

运行结果如下：

使用以下命令查看部署结果：

scrapyd-deploy -L 服务器名称

$ scrapyd-deploy -L server

speechspider

default

刷新http://localhost:6800/页面, 也可以看到Available projects:speechspider, default的字样。

三.使用API管理爬虫

scrapyd 的 web 界面比较简单，主要用于监控，所有的调度工作全部依靠接口实现。官方推荐使用 curl 来管理爬虫。

3.1 安装curl

windows 用户可以到该网站https://curl.haxx.se/download.html下载 curl 安装包进行安装。

ubuntu/Mac 用户直接使用命令行安装即可。

3.2 开启爬虫schedule

在项目根目录下运行以下命令来开启爬虫：

3.3 取消爬虫

3.4 列出项目

3.5 列出爬虫、版本、job 信息

3.6 删除爬虫项目

好了，爬虫程序的部署和使用API管理就介绍到这里。

最后编辑于：2017.12.04 10:19:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

Scrapy爬虫教程五爬虫部署

Scrapy爬虫教程五爬虫部署

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五爬虫部署

一.scrapyd

1.1使用scrapyd的好处？

1.2.scrapyd工作原理

1.3.scrapyd的使用

二.项目部署

2.1 原理

2.2 scrapyd-client安装

2.3配置项目的服务器信息

2.4部署爬虫程序

三.使用API管理爬虫

3.1 安装curl

3.2 开启爬虫schedule

3.3 取消爬虫

3.4 列出项目

3.5 列出爬虫、版本、job 信息

3.6 删除爬虫项目

推荐阅读更多精彩内容

Scrapy爬虫教程五 爬虫部署

Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结

Scrapy爬虫教程二 浅析最烦人的反爬虫手段

Scrapy爬虫教程三 详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程四 Scrapy+Selenium有浏览器界面模拟登录知乎

Scrapy爬虫教程五 爬虫部署

一.scrapyd

1.1使用scrapyd的好处？

1.2.scrapyd工作原理

1.3.scrapyd的使用

二.项目部署

2.1 原理

2.2 scrapyd-client安装

2.3配置项目的服务器信息

2.4部署爬虫程序

三.使用API管理爬虫

3.1 安装curl

3.2 开启爬虫schedule

3.3 取消爬虫

3.4 列出项目

3.5 列出爬虫、版本、job 信息

3.6 删除爬虫项目

推荐阅读更多精彩内容

Scrapy爬虫教程五爬虫部署

Scrapy爬虫教程二浅析最烦人的反爬虫手段

Scrapy爬虫教程三详细的Python Scrapy模拟登录知乎

Scrapy爬虫教程五爬虫部署