爬虫入门：Firefox 结合 Scrapy Shell 爬取网页数据

image

阅读本篇大概需要 4 分钟。

本来这篇是要接着之前 Python 基础的，但由于基础讲的太多，真的会很累。所以先暂停一两篇关于 Python 基础的分享。这篇分享一些有意思的东西。

今天我在 Github 上创建了一个组织，名叫「SpiderMan」

image

这个组织的目的是玩转 Python 爬虫，目前其中有一个项目就是昨天我提到的 “什么值得买” 这个平台的爬虫。

目前有三个读者联系到我了，我初步了解了下有一个是爬虫高手 A，另外两个 B 和 C 是有一定 Python 基础，但在爬虫方面还是初次。不过我对他们都是同样的看待，我们建了一个微信群他们有问题都会抛出来。其次我也会去主动问他们某个知识点是否了解，比如今天要提到的 Scrapy Shell。除了刚才提到的 A 会， B 和 C 对这个只是听到过。所以我就把这个知识点在这里安利下。（当然，有兴趣加入组织的可以在后台或者 Github Issues 里面联系我）

Scrapy Shell 是什么？

你可以把这个理解为 Python 爬虫的一个测试工具。提到爬虫，我们最常见就是提取 HTML 中某个标签下的数据，但在提取之前我们需要找到这个标签位置，这个位置在学术上就是 XPath。

大家都知道 HTML 的页面是 XML 格式的，在 XML 中需要定位到某个标签的话就需要有个路径。所以你就可以把 XPath 理解为 XML 中某个标签的路径，比如从 html 标签到 a 标签的内容。

举个实际的简单例子，我们来找找 “什么值得买” 官网页面的 Logo 所在的 Xpath 路径：

1.在 FireFox 中打开“什么值得买”的官网

image

2.在当前页面点击鼠标右键，并选中 “查看元素”

image

3.选中之后，会展示如下界面，然后选中工具栏的左上角箭头按钮，选中之后就可以用鼠标点击页面上的任意内容，比如我这里点击 Logo

image

看到图片最底部会出现一个路径，这就是 Logo 在 xml 中的路径。可以看到 html->body......-> img 就是这个 Logo 的 XPath。其中每个路径主要分为三段，第一段是标签名，第二段 # 后面的是当前标签的 id ，第三段 . 后面的是标签的 class 名。那么这个 XPath 就可以这么写：

image

有了这个 Xpath，我们就可以通过写 Python 的代码去拿到这个标签的数据，一般我们会用到 Scrapy 框架来做这件事。这篇文章暂不分享 Scrapy 框架，不了解的可以看

用 Scrapy 从零写一个爬虫。

那么，我们如何在不写代码的情况下去校验这段 XPath 是否能拿到标签数据呢？

这时候我们就需要用到 Scrapy Shell 来测试这个 XPath 路径到底能不能拿到这个 Logo 图片的地址。

命令:

scrapy shell 'url 地址'

➜ /Users/xiyouMc > scrapy shell 'https://www.smzdm.com'>>> response.xpath('/html/body/header[@id="header"]/div[@id="global-search"]/div[@class="search-inner z-clearfix"]/h1[@id="logo"]/a/img/@src')[<Selector xpath='/html/body/header[@id="header"]/div[@id="global-search"]/div[@class="search-inner z-clearfix"]/h1[@id="logo"]/a/img/@src' data=u'https://res.smzdm.com/pc/v1.0/dist/img/a'>]

(看不清的，可以在浏览器打开)

然后我们通过 reponse.xpath() 来拿到这个路径下的标签数据。不过这时候拿到的还是一个 Selector 对象,要拿到准确的数据我们在后面加上 extract()

>>> response.xpath('/html/body/header[@id="header"]/div[@id="global-search"]/div[@class="search-inner z-clearfix"]/h1[@id="logo"]/a/img/@src').extract()[u'https://res.smzdm.com/pc/v1.0/dist/img/activity/17double11/double11gif.gif']>>>

这样我们就通过Scrapy Shell 来拿到了 XPath 的标签数据。当然，这只是爬虫的第一步，不过这也算是爬虫中最关键的一步。

预告下，下周我可能会在某天晚上直播一场从零开始的一个爬虫项目，敬请期待。

有兴趣加入这个组织的可以加我微信 'mcx1469' ，也可以在我的 Github 仓库的 Issues 中提一些，地址:

https://github.com/xiyouMc/SmzdmSpider

最后编辑于：2017.12.11 12:54:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,319评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,801评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,567评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,156评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,019评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,090评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,500评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,192评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,474评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,566评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,338评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,212评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,572评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,890评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,169评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,478评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,661评论 2赞 335

爬虫入门：Firefox 结合 Scrapy Shell 爬取网页数据

推荐阅读更多精彩内容