项目过程
1.云服务器配置
2.Scrapy爬虫撸代码
3.ProxyPool动态IP代理池
4.云服务器调度
工具
- Pycharm
- Xshell
- Python 3.6
- 阿里云Centos 7
4.云服务器配置调度
前3步都完成后 进行最后一步服务器配置调度 激动人心!
配置文件scrapy.cfg
切换到命令行模型 切到相应文件目录
scrapyd-deploy AliCloud -p 爬虫项目名
记得安全组开放6800端口
就可以在网页看到爬虫已上传成功
运行调度爬虫curl命令
可在网页Jobs中查看到相应日志 和本地控制台输出的log一模一样
curl http://XXX.XXX.XXX.XXX:6800/schedule.json -d project=爬虫项目名
-d spider=爬虫Spider名
最后一步 就是定时调度crontab
具体怎么用 还是自行百度
xshell连接服务器 输入如下样式命令
crontab -e
:wq
退出这里的意思是每天2点、11点、20点各执行一次
然后就可以喝着快乐肥宅水 享受云端自动调度的快感
到此爬虫&云服务器定时调度(以京东零食为例)项目结束
整个过程涉及到的细(坑)节 特别多 特别碎
值得好好消化
授人以鱼不如授人以渔