正则表达式——re模块

正则表达式的常用符号:

1 一般符号

.         匹配任意单个字符(不包括换行符\n),如a.b可以匹配的结果为abc、aic、a&c等

\         转义字符

[...]        字符集。对应字符集中的任意字符,如a[bcd],匹配的结果为ab、ac和ad

2 预定义字符集

\d                匹配一个数字字符,等价于[0-9]

\D                匹配一个非数字字符,等价于[^0-9]

\s                 匹配任何空白字符,包括空格、制表符、换行符等,等价于[\f\n\r\t\v]

\S                 匹配任何非空白字符,等价于[^\f\n\r\t\v]

\w                  匹配包括下划线的任何单词字符,等价于[A-Za-z0-9]

\W                 匹配任何非单词字符,等价于[^A-Za-z0-9]

3 数量词

*                    匹配前一个字符0或无限次

+                    匹配前一个字符1或无限次

?                  匹配前一个字符0或1次

{m}                 匹配前一个字符m次

{m,n}              匹配前一个字符m至n次

4 边界匹配

^                匹配字符串开头,如^abc匹配abc开头的字符串

$                匹配字符串结尾,如abc$匹配abc结尾的字符串

\A                仅匹配字符串开头,如\Aabc。

\Z                仅匹配字符串结尾,如abc\Z。

边界匹配在爬虫实战中使用较少,因为爬虫提取的数据大部分为标签中的数据,边界匹配在这里没有任何作用。

最后介绍爬虫实战中常用的(.*?),“()”表示括号的内容作为返回结果,“.*?”是非贪心算法,匹配任意的字符。例如,字符串"xxIxxddsgxxlovexxghhfgxxPythonxxsfsd",可以通过'xx(.*?)xx'匹配符合这种规则的字符串,代码如下:

import re

a = "xxIxxddsgxxlovexxghhfgxxPythonxxsfsd"

info = re.findall('xx(.*?)xx', a)

print(info)

运行结果如下:


re模块及其方法:

(1)search()函数

匹配并提取第一个符合规律的内容,返回一个正则表达式对象,语法如下:

re.search(pattern, string, flags=0)        

(2)sub()函数

用于替换字符串中的匹配项,语法如下:

re.sub(pattern, repl, string, count=0, flags=0)

sub()函数类似于字符串中的replace()函数,但sub()函数更加灵活。在爬虫实战中,sub()函数的使用也是极少的。

(3)findall()函数

匹配所有符合规律的内容,并以列表的形式返回结果。

在实战中,findall()函数的使用频率最多。以爬取北京地区短租房的价格为例,示例代码如下:

import re

import requests

r = requests.get('http://bj.xiaozhu.com/')

prices = re.findall('<span class="result_price">&#165;<i>(.*?)</i>',r.text)        #此处采用非贪婪匹配所有的字符,并返回结果列表

for price in prices:

    print(price)

运行结果如下:


re模块修饰符

re模块包含一些可选的标志修饰符,用来控制匹配的模式,如下:

re.I                使匹配对大小写不敏感

re.L                做本地化识别(local-aware)匹配

re.M                多行匹配,影响 ^ 和 $

re.S                使匹配包括换行符在内的所有字符

re.U                根据Unicode字符集解析字符。这个标志影响\w,\W,\b,\B

re.X                该标志通过给予更灵活的格式,以便将正则表达式写得更易理解

在爬虫中,re.S是最常用的修饰符,它能够换行匹配。举个例子:

例如提取<div>指数</div>中的文字,可以通过以下代码实现:

import re

a = '<div>指数</div>'

word = re.findall('<div>(.*?)</div>', a)

print(word)

>>>['指数']

但,如果字符串是下面这样的多行字符串:

a = '''<div>指数

</div>'''

通过上面的代码则匹配不到div标签中的文字信息,结果如图。


这是因为findall()函数逐行匹配的,当第1行没有匹配到数据时,就会从第2行开始重新匹配,这样就没法匹配到div标签中的文字信息,这时便可通过re.S来进行跨行匹配

import re

a = '''<div>指数

</div>'''

word = re.findall('<div>(.*?)</div>', a, re.S)

print(word)

运行结果如下:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容