爬虫课堂（十八）|编写Spider之使用Selector提取数据

上个章节说到从Spider的角度来看，爬取的运行流程如下循环：

以初始的URL初始化Request，并设置回调函数。当该Request下载完毕并返回时，将生成Response，并作为参数传给该回调函数。
在回调函数内分析返回的（网页）内容，返回Item对象或者Request或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数（函数可相同）。
在回调函数内，可以使用选择器(Selectors) 来分析网页内容，并根据分析的数据生成Item。
最后，由Spider返回的Item将被存到数据库或存入到文件中。

可以看出来使用Selector来分析提取网页内容是在编写Spider中必不可少，同时也是最重要的工作之一，这一章节我们就来学习使用Selector如何提取网页数据。
一、选择器（Selectors）介绍
当抓取网页时，做的最常见的任务是从HTML源码中提取数据。在Python中常用以下库处理这类问题：

BeautifulSoup
BeautifulSoup是在程序员间非常流行的网页分析库，它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，API简洁易用，但解析速度较慢。
lxml
lxml是一个基于 ElementTree (不是Python标准库的一部分)的Python化的XML解析库（也可以解析HTML），它解析速度较快，API较复杂。

Scrapy结合上面两者优点自己实现了提取数据的一套机制，它们被称作选择器（seletors）。Scrapy选择器构建于 lxml 库之上，并简化了API接口。
Scrapy选择器包括XPath和CSS两种。XPath是一门用来在XML文件中选择节点的语言，也可以用在HTML上。CSS 是一门将HTML文档样式化的语言。
二、XPath选择器介绍及使用
关于XPath选择器的介绍和使用详见之前写的文章：爬虫课程（八）｜豆瓣：十分钟学会使用XPath选择器提取需要的元素值
三、CSS选择器介绍及使用
3.1、CSS选择器介绍
和XPath选择器比起来，CSS选择器的语法比XPath更简单一些，但功能不如XPath强大。相对来说，前端工程师可能会更加喜欢使用CSS选择器，同时它的使用方式跟写.css时方法基本一样。
CSS的基本语法如下表所示：

选择器	例子	例子描述
*	*	选择所有元素
#id	#container	选择id=“container”的所有元素
.class	.container	选择class=“container”的所有元素
element	p	选择所有 <p> 元素。
element,element	div,p	选择所有 <div> 元素和所有 <p> 元素
element element	li a	选择 <li> 元素内部的所有 <a> 元素
element>element	div>p	选择父元素为 <div> 元素的所有 <p> 元素
element+element	div+p	选择紧接在 <div> 元素之后的所有 <p> 元素
[attribute]	[target]	选择带有 target 属性所有元素
[attribute=value]	[target=_blank]	选择 target="_blank" 的所有元素
[attribute~=value]	[title~=flower]	选择 title 属性包含单词 "flower" 的所有元素
[attribute\|=value]	[lang\|=en]	选择 lang 属性值以 "en" 开头的所有元素
:link	a:link	选择所有未被访问的链接
:first-child	p:first-child	选择属于父元素的第一个子元素的每个 <p> 元素
element1~element2	p~ul	选择前面有 <p> 元素的每个 <ul> 元素
[attribute^=value]	a[src^="https"]	选择其 src 属性值以 "https" 开头的每个 <a> 元素
[attribute$=value]	a[src$=".pdf"]	选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素
[attribute*=value]	a[src*="abc"]	选择其 src 属性中包含 "abc" 子串的每个 <a> 元素
:empty	p:empty	选择没有子元素的每个 <p> 元素（包括文本节点）
:nth-child(n)	p:nth-child(2)	选择属于其父元素的第二个子元素的每个 <p> 元素
:nth-last-child(n)	p:nth-last-child(2)	同上，从最后一个子元素开始计数
::text	p::text	选择<P>元素的文本节点（Text Node）

3.2、CSS选择器使用
还是以提取豆瓣读书书籍信息为例：

豆瓣读书书籍信息

我要选择<ul>元素并且class=“cover-col-4 clearfix”下的li元素。
使用XPath为：
book_list = sel.xpath('//ul[@class="cover-col-4 clearfix"]/li')
使用CSS为：
book_list = sel.css('ul.cover-col-4.clearfix li')

其他的更多使用方式，我在后面的实战章节详细讲解下。
四、其他
有兴趣的可以查看下Selector对象源码。

Selector对象的源码

从源码中，发现当调用Selector对象的CSS方法时，在其内部会将CSS选择器表达式翻译成XPath表达式，然后调用Selector对象的XPath方法。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

爬虫课堂（十八）|编写Spider之使用Selector提取数据

推荐阅读更多精彩内容