最近公司要搞爬虫的项目,本来我打算用python的Scrapy框架来搞,手上也有Scrapy的一些资料-------但领导让用一个叫pyspider的框架,因为他很多年前用过,一查这个是国人写的框架,但github上2年都没有更新了,而且fork数量挺高的3.6k,感觉不靠谱,但领导说...让用;那就搞吧
但开始搞之后遇到一些问题,仅仅让这东西运行起来都浪费了很多时间;这个项目要求Python环境必须是3.6版本的.现在苹果macOS已经装不上Python3.6了,起码我的M1版本环境这废了很大的劲,最终决定用docker搞吧
顺便以后方便迁移部署
具体遇到的坑就不赘述了
正题
使用步骤
拉取镜像:
https://hub.docker.com/repository/docker/dh68/pyspider
docker push dh68/pyspider:0.0.1
运行镜像:
docker run -d -p 5001:5000 --name spider dh68/pyspider:0.0.1 pyspider
如果 要持久化存储数据 -v 挂载一个本地路径
docker run -d -p 5001:5000 --name spider -v /Users/zkfc-dh/Documents/spider_data:/pycthon_projects/ dh68/pyspider:0.0.1 pyspider
mac系统不能用5000端口了,已经被系统AirPlay占用,其他系统可以把5001改回5000
- 浏览器打开
http://localhost:5001/
点击'Create'创建项目,创建修改列表列'Status'改为'RUNNING'
然后点击actions的 RUN运行.
- 点上面的run开始调试
- 此时下面发follows会出现①提示,点follows
-
点三角形 运行按钮逐步调试
具体使用教程可以参考:
https://github.com/binux/pyspider
http://docs.pyspider.org/en/latest/#pyspider
镜像说明:
镜像中已装好 PhantomJS.方便更深入的使用探索
已装好网络库有:
flask==1.0.2
requests==2.26.0
方便自己的服务调取
Request文档直达