正则表达式——re模块

正则表达式的常用符号：

1 一般符号

. 匹配任意单个字符（不包括换行符\n），如a.b可以匹配的结果为abc、aic、a&c等

\ 转义字符

[...] 字符集。对应字符集中的任意字符，如a[bcd],匹配的结果为ab、ac和ad

2 预定义字符集

\d 匹配一个数字字符，等价于[0-9]

\D 匹配一个非数字字符，等价于[^0-9]

\s 匹配任何空白字符，包括空格、制表符、换行符等，等价于[\f\n\r\t\v]

\S 匹配任何非空白字符，等价于[^\f\n\r\t\v]

\w 匹配包括下划线的任何单词字符，等价于[A-Za-z0-9]

\W 匹配任何非单词字符，等价于[^A-Za-z0-9]

3 数量词

* 匹配前一个字符0或无限次

+ 匹配前一个字符1或无限次

？匹配前一个字符0或1次

{m} 匹配前一个字符m次

{m,n} 匹配前一个字符m至n次

4 边界匹配

^ 匹配字符串开头，如^abc匹配abc开头的字符串

$ 匹配字符串结尾，如abc$匹配abc结尾的字符串

\A 仅匹配字符串开头，如\Aabc。

\Z 仅匹配字符串结尾，如abc\Z。

边界匹配在爬虫实战中使用较少，因为爬虫提取的数据大部分为标签中的数据，边界匹配在这里没有任何作用。

最后介绍爬虫实战中常用的(.?),“()”表示括号的内容作为返回结果，“.?”是非贪心算法，匹配任意的字符。例如，字符串"xxIxxddsgxxlovexxghhfgxxPythonxxsfsd",可以通过'xx(.*?)xx'匹配符合这种规则的字符串，代码如下：

import re

a = "xxIxxddsgxxlovexxghhfgxxPythonxxsfsd"

info = re.findall('xx(.*?)xx', a)

print(info)

运行结果如下：

re模块及其方法：

（1）search()函数

匹配并提取第一个符合规律的内容，返回一个正则表达式对象，语法如下：

re.search(pattern, string, flags=0)

（2）sub()函数

用于替换字符串中的匹配项，语法如下：

re.sub(pattern, repl, string, count=0, flags=0)

sub()函数类似于字符串中的replace()函数，但sub()函数更加灵活。在爬虫实战中，sub()函数的使用也是极少的。

（3）findall()函数

匹配所有符合规律的内容，并以列表的形式返回结果。

在实战中，findall()函数的使用频率最多。以爬取北京地区短租房的价格为例，示例代码如下：

import re

import requests

r = requests.get('http://bj.xiaozhu.com/')

prices = re.findall('<span class="result_price">¥<i>(.*?)</i>',r.text) #此处采用非贪婪匹配所有的字符，并返回结果列表

for price in prices:

print(price)

运行结果如下：

re模块修饰符

re模块包含一些可选的标志修饰符，用来控制匹配的模式，如下：

re.I 使匹配对大小写不敏感

re.L 做本地化识别(local-aware)匹配

re.M 多行匹配，影响 ^ 和 $

re.S 使匹配包括换行符在内的所有字符

re.U 根据Unicode字符集解析字符。这个标志影响\w,\W,\b,\B

re.X 该标志通过给予更灵活的格式，以便将正则表达式写得更易理解

在爬虫中，re.S是最常用的修饰符，它能够换行匹配。举个例子：

例如提取<div>指数</div>中的文字，可以通过以下代码实现：

import re

a = '<div>指数</div>'

word = re.findall('<div>(.*?)</div>', a)

print(word)

>>>['指数']

但，如果字符串是下面这样的多行字符串：

a = '''<div>指数

</div>'''

通过上面的代码则匹配不到div标签中的文字信息，结果如图。

这是因为findall()函数是逐行匹配的，当第1行没有匹配到数据时，就会从第2行开始重新匹配，这样就没法匹配到div标签中的文字信息，这时便可通过re.S来进行跨行匹配。

import re

a = '''<div>指数

</div>'''

word = re.findall('<div>(.*?)</div>', a, re.S)

print(word)

运行结果如下：

最后编辑于：2018.11.13 09:52:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342

正则表达式——re模块

正则表达式的常用符号：

最后介绍爬虫实战中常用的(.*?),“()”表示括号的内容作为返回结果，“.*?”是非贪心算法，匹配任意的字符。例如，字符串"xxIxxddsgxxlovexxghhfgxxPythonxxsfsd",可以通过'xx(.*?)xx'匹配符合这种规则的字符串，代码如下：

re模块及其方法：

在实战中，findall()函数的使用频率最多。以爬取北京地区短租房的价格为例，示例代码如下：

re模块修饰符

推荐阅读更多精彩内容

最后介绍爬虫实战中常用的(.?),“()”表示括号的内容作为返回结果，“.?”是非贪心算法，匹配任意的字符。例如，字符串"xxIxxddsgxxlovexxghhfgxxPythonxxsfsd",可以通过'xx(.*?)xx'匹配符合这种规则的字符串，代码如下：