一、Redis安装
1.1在Liunx环境下安装Redis
以ubuntu为例:
1.安装:sudo apt-get install redis-server
2.卸载:sudo apt-get purge --auto-remove redis-server
3.启动:redis安装完成后,默认会自动启动,可以通过ps aux|grep redis
查看状态
手动启动:sudo service redis-server start
4.停止:sudo service redis-server stop
1.2在Windows环境下安装Redis
以win7为例:
1.下载与安装:redis官方是不支持windows操作系统的。但是微软的开源部门将redis移植到了windows上。因此下载地址不是在redis官网上。而是在github上:https://github.com/MicrosoftArchive/redis
选择合适系统的版本下载,打开文件安装完成即可
2.运行:进入到redis安装所在的路径然后执行
redis-server.exe redis.windows.conf
就可以运行了。3.连接:redis和mysql以及mongo是一样的,都提供了一个客户端进行连接。输入命令redis-cli(前提是redis安装路径已经加入到环境变量中了)就可以连接到redis服务器了。
二、虚拟机(其他机器)访问本机Redis服务器
想要让其他机器访问本机的redis服务器。那么要修改redis.windows-service.conf的配置文件,将bind改成bind [自己的ip地址或者0.0.0.0],其他机器才能访问。
注:bind绑定是本机网卡的ip地址,如果有多块网卡,可以绑定多个ip地址,绑定为0.0.0.0 意味着其他机器可以通过本机所有ip地址进行访问。
我的本机ip只有一个,所以0.0.0.0就是只包括了下面这一个ip地址
虚拟机(其他机器)连接时执行
redis-cli -h 服务器的ip地址 -p 6379
三、在Linux上安装Scrapy
2.1在windows上安装Scrapy(略)
本文默认项目Scrapy项目已经在windows上开发完成
2.2在ubuntu上安装Scrapy之前,需要先安装以下依赖
sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
cd到项目目录下,pip freeze > requirements.txt
生成项目开发环境所需要的包,
将requirements.txt发送给服务器
先进入一个文件夹“文档”,在这个文件夹下使用
rz
命令来读取本文件pip install -r requirements.txt
安装开发环境所需要的包
四、改写Scrapy-Redis分布式爬虫:
要将一个Scrapy
项目变成一个Scrapy-redis
项目只需修改以下三点就可以了:
- 将爬虫的类从
scrapy.Spider
变成scrapy_redis.spiders.RedisSpider
;或者是从scrapy.CrawlSpider
变成scrapy_redis.spiders.RedisCrawlSpider
。 - 将爬虫中的
start_urls
删掉。增加一个redis_key="xxx"
。这个redis_key
是为了以后在redis
中控制爬虫启动的。爬虫的第一个url,就是在redis中通过这个发送出去的。 - 在配置文件中增加如下配置:
# Scrapy-Redis相关配置
# 确保request存储到redis中
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 确保所有爬虫共享相同的去重指纹
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 设置redis为item pipeline
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 300
}
# 在redis中保持scrapy-redis用到的队列,不会清理redis中的队列,从而可以实现暂停和恢复的功能。
SCHEDULER_PERSIST = True
# 设置连接redis信息
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
五、运行爬虫:
1. 在爬虫服务器上。进入爬虫文件所在的路径,然后输入命令:`scrapy runspider [爬虫名字]`。
2. 在`Redis`服务器上,推入一个starturl链接:`redis-cli> lpush [redis_key] start_url`开始爬取。