Python的Scrapy框架

前言

image.png

我建议新手都从Python3开始学习,可以不去学习Python2了,毕竟以后一定会被Python3代替,当然,也有一些库它现在只兼容Python2,那我们就再考虑了,我的Python版本是Python3.5.2

推荐一个基础教程,廖雪峰老师的Python入门教程

安装Scrapy

先要确定自己的Python版本 配置好环境变量,在cmd中输入python命令

image.png

同时也需要配置好pip命令

image.png

Scrapy框架是基于twisted的异步架构的,所以我们安装Twisted
下载对应版本的.whl文件先安装twisted库,当然你也需要选择适合自己的版本下载
下载地址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

image.png

安装twisted

打开命令提示符窗口,输入命令:pip install (下载好的twisted模块的whl文件路径)

安装scrapy

twisted库安装成功后,就可以安装scrapy了,在命令提示符窗口直接输入命令:
pip install scrapy回车

安装关联模块pypiwin32,在命令提示符窗口直接输入命令: pip install pypiwin32 回车

Scrapy测试,生成一个Scrapy框架

创建项目

运行命令:

scrapy startproject p1(your_project_name)

自动创建目录的结果:

image.png

文件说明:

  • scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)

  • items.py 设置数据存储模板,用于结构化数据,如:Django的Model

  • pipelines 数据处理行为,如:一般结构化的数据持久化

  • settings.py 配置文件,如:递归的层数、并发数,延迟下载等

  • spiders 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

scrapy终端常用命令

可用scrapy命令

在终端中输入以下命令,查看scrapy有哪些命令语法

scrapy -h
image.png

scrapy的命令有两种分类-全局命令与项目命令

比如我们在命令行直接输入scrapy startproject myproject这个命令,实际上是在全局环境中使用的。

而当我们运行爬虫时候输入scrapy crawl myspider时,实际上是在项目环境内运行的。

#全局变量
startproject
runspider
shell
fetch



#项目命令
crawl
parse
genspider

创建项目

全局命令。使用scrapy第一步是在命令行中,创建爬虫项目。

语法: scrapy startproject <projectname>

在 当前目录下创建一个名为 projectname 的Scrapy项目。

scrapy startproject myproject

目录结构如下

scrapy.cfg
projectname/
    __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
        __init__.py
        myspider.py

创建好项目后,将当前工作目录切换到项目目录中。使用

cd myproject

之后就可以使用scrapy的项目命令操作scrapy项目了。

生成spider

项目命令。创建spider。一般创建的spider名字是跟域名一样的,比如www.baidu.com,我们穿件的爬虫命令

scrapy genspider baidu baidu.com

一般规律如下

scrapy genspider spidername domain.com

爬取

项目命令。 语法:scrapy crawl <spider>

fetch

全局命令。语法:scrapy fetch <url>

使用本语句下载指定的url,并将获取到的内容返回为scrapy中的response对象。

scrapy fetch https://i.meituan.com

shell

全局命令。语法:scrapy shell [url]

Scrapy shell是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码,用来测试提取数据的代码。该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 免去了每次修改后运行spider的麻烦。

scrapy shell运行后,就会有以下对象,可以进行方便的调试。

scrapy shell https://www.baidu.com/

parse

项目命令。语法: scrapy parse <url> [options]

获取给定的URL并使用相应的spider分析处理。如果您提供 --callback 选项,则使用spider的该方法处理,否则使用 parse。

--spider=SPIDER: 跳过自动检测spider并强制使用特定的spider
--a NAME=VALUE: 设置spider的参数(可能被重复)
--callback or -c: spider中用于解析返回(response)的回调函数
--pipelines: 在pipeline中处理item

runspider

全局命令语法:scrapy runspider

在未创建项目的情况下,运行一个编写在python脚本中的spider。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容