1.新建一个爬虫项目
可以使用 scrapy startproject 项目名称
2.创建一个自己的爬虫文件
scrapy genspider 文件名字+目标网站的域名
3.在items文件中定义自己要爬取的字段
字段的名字自己定义
4.在自己创建的爬虫文件夹下编写爬虫代码
这个自动生成的类中有一个parse方法,这个方法中有自带的response对象(可以直接使用xpath语法),只需要在这个方法中编写自己的爬虫,然后导入自己在items中创建的字段类,把获取到的数据保存到这些字段当中,最后用yield函数返回数据到管道(pipelines)当中
5.在管道中对获取到的数据进行持久化操作
如果保存数据库的话可以在settings文件中提前设置号各个数据库要用到的变量,然后导入这些数据库的信息,构建连接数据库的方式,最后插入数据
6.进入自己创建的爬虫目录下
使用(scrapy crawl +自己爬虫文件的名称)来进行项目的运行