进入创建的虚拟环境
(比如我的为 /Users/summerchaser/Desktop/pyenv/all_article)
python virtualenv虚拟环境安装配置 可见 :
https://www.jianshu.com/p/6d72cd0ae827
创建scrapy项目
终端运行
scrapy startproject ArticleSpider
再通过pychrame导入新建的项目
完整工程目录结构如下 :
- setting :存放基本配置
SPIDER_MODULES = ['ArticleSpider.spiders']
NEWSPIDER_MODULE = 'ArticleSpider.spiders'
- pipeline : 数据处理相关文件
- spider文件夹 : 存放爬虫文件
- items :类似django的form,定义爬取的字段
# define the fields for your item here like:
# name = scrapy.Field()
- middleware :中间层处理函数
创建通用模板的爬虫文件
cd到项目文件夹下
终端运行
- scrapy genspider 爬虫文件名 允许的域名
scrapy genspider spider_article blog.jobbole.com
会在ArticleSpider文件夹下创建spider_article.py
成功信息
Created spider 'spider_article' using template 'basic' in module:
ArticleSpider.spiders.spider_article
基本框架已经为我们写好了
class SpiderArticleSpider(scrapy.Spider):
name = 'spider_article'
allowed_domains = ['blog.jobbole.com'] # 允许搜索的域名
# 起始url - 所有文章列表页
start_urls = []
def parse(self, response):
pass
设置里更改为虚拟环境下的python解释器,比如我的是
/Users/summerchaser/Desktop/pyenv/all_article/bin/python
apply