re

python模块之re

re:官方文档是最好的模块表达说明。

Regular expression operations

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。

正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为"元字符")组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

1、正则语法

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

非打印字符 描述
\f 匹配一个换页符。等价于\x0c和\cL。
\n 匹配一个换行符。等价于\x0a和\cJ。
\r 匹配一个回车符。等价于\x0d和\cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等。等价于[\f\n\r\t\v]。
\S 匹配任何非空白字符。等价于[^\f\n\r\t\v]。
\t 匹配一个制表符。等价于\x09和\cI。
\v 匹配一个垂直制表符。等价于\x0b和\cK。
\d 匹配ASCII数字,等价[0-9]。
\D 匹配非ASCII数字,等价[^0-9]。
\u 匹配十六进制数****指定的unicode字符。
\w 匹配ASCII字符组成的单词,等价[a-zA-Z0-9]。
\W 匹配非ASCII字符组成的单词,等[^a-zA-Z0-9]。

特殊字符,就是一些有特殊含义的字符。如上面说的"*.txt"中的*,简单的说就是表示任何字符串的意思。如果要查找文件名中有*的文件,则需要对*进行转义,即在其前加一个\。ls *.txt。

许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符 (\) 放在它们前面。

特别字符 描述
$ 匹配输入字符串的结尾位置。如果设置了RegExp对象的Multiline属性,则$也匹配'\n'或'\r'。要匹配$字符本身,请使用$。
() 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用\(和\)。
* 匹配前面的子表达式零次或多次。要匹配*字符,请使用\*。
+ 匹配前面的子表达式一次或多次。要匹配+字符,请使用\+。
. 匹配除换行符\n之外的任何单字符。要匹配.,请使用\.。
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配?字符,请使用?。
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如,'n'匹配字符'n'。'\n'匹配换行符。序列'\'匹配"",而'\('则匹配"("。
^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配字符本身,请使用\
{ 标记限定符表达式的开始。要匹配{,请使用\{。
[ 标记一个中括号表达式的开始。要匹配[,请使用\[。
竖线 指明两项之间的一个选择。要匹配‘竖线’,请使用‘\竖线’。

tip:markdown语法问题,上面竖线表示‘|’字符。

限定符,用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。

限定符 描述
* 匹配前面的子表达式零次或多次。例如,zo能匹配"z"以及"zoo"。等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,'zo+'能匹配"zo"以及"zoo",但不能匹配"z"。+等价于{1,}。
? 匹配前面的子表达式零次或一次。例如,"do(es)?"可以匹配"do"或"does"中的"do"。?等价于{0,1}。
{n} n是一个非负整数。匹配确定的n次。例如,'o{2}'不能匹配"Bob"中的'o',但是能匹配"food"中的两个o。
{n,} n是一个非负整数。至少匹配n次。例如,'o{2,}'不能匹配"Bob"中的'o',但能匹配"foooood"中的所有o。'o{1,}'等价于'o+'。'o{0,}'则等价于'o*'。
{n,m} m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,"o{1,3}"将匹配"fooooood"中的前三个o。'o{0,1}'等价于'o?'。请注意在逗号和两个数之间不能有空格。

定位符用来描述字符串或单词的边界。^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。

定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。

定位符 描述
^ 匹配输入字符串开始的位置。如果设置了RegExp对象的Multiline属性,^还会与\n或\r之后的位置匹配。
$ 匹配输入字符串结尾的位置。如果设置了RegExp对象的Multiline属性,$还会与\n或\r之前的位置匹配。
\b 匹配一个字边界,即字与空格间的位置。
\B 非字边界匹配。

修饰符用以说明高级匹配的规则。

修饰符 描述
I 匹配时不区分大小写。
M 多行匹配模式。
S 使‘.’可以匹配所有空白字符,包括换行。

分组选择:用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。

分组 描述
(?P<name>) 分组,除了原有的分组再额外指定一个别名。
(?P=name) 引用别名为<name>分组匹配到的字符串。
(?<number>) 引用别名为<number>分组匹配到的字符串。
(?:...) 不捕获分组,后面可用‘竖线’或数量词。
(?#...) #之后的内容将被忽略。
(?=...) 之后的内容需要匹配表达式才能匹配。
(?!...) 之后的内容不匹配表达式才能成功。
(?<=...) 之前的内容需要匹配表达式才能匹配。
(?<!=...) 之前的内容不匹配表达式才能成功。
(?(id/name)Y竖线N) 编号为id或别名为name的组匹配到字符串,则匹配Y的表达式,否则匹配N的表达式,N可忽略。

tip:markdown语法问题,上面竖线表示‘|’字符。

表达式前缀,在原始字符串表达式的前面有时会加上前缀,代表其特殊的额意义。

前缀 描述
r r后的表达式字符串,为普通字符,不做转义
u u后的表达式字符串,为unicode编码字符

参阅链接图示同模块说明。

2、re模块介绍

python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。

2.1 Pattren对象

Pattern对象是一个编译好的正则表达式,通过Pattern的一系列方法可以对文本进行匹配查找。它不能直接实例化,必须通过re.compile()进行构造得到。

这个对象提供了几个可读属性用于获取表达式的相关信息,当然它还有其它方法供匹配字符串用。

  • pattren:编译时用的表达式字符串。
  • flags:编译时用的匹配模式,即之前的修饰符。
  • groups:编译时表达式中分组的数量。
  • groupindex:编译时表达式中有别名的组的别名为键、以该组对应的编号为值的字典,没有别名的组不包含在内。

演示代码:

import re
p = re.compile(r'(\d)(\w)(?P<sign>.*)', re.S)
print('p.pattern :  %s' % p.pattern)
print('p.flags :  %s' % p.flags)
print('p.groups :  %s' % p.groups)
print('p.groupindex : %s' % p.groupindex)

其运行结果如下:

p.pattern :  (\d)(\w)(?P<sign>.*)
p.flags :  48
p.groups :  3
p.groupindex : {'sign': 3}

2.2 Match对象

Match对象是一次匹配的结果,即引用re的相关方法后生成的结果即Match对象的实例。其包含了很多关于此次匹配的信息,可以下面的属性或方法获取相关信息。

属性:

  • string:匹配时使用的文本。
  • re:匹配时使用的Pattern对象。
  • pos:文本中正则表达式开始搜索的索引。
  • endpos:文本中表达式结束搜索的位置。
  • lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。
  • lastgroup:最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。

方法:

  • group([group1, …]): 获得一个或多个分组截获的字符串;指定一个直接字符串返回,指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。
  • groups([default]):以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。
  • groupdict([default]): 返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。
  • start([group]):返回指定的组截获的子串在string中的起始索引(子串第一个字符的索引)。group默认值为0。
  • end([group]): 返回指定的组截获的子串在string中的结束索引(子串最后一个字符的索引+1)。group默认值为0。
  • span([group]): 返回(start(group), end(group))。
  • expand(template):将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组,但不能使用编号0。\id与\g<id>是等价的;但\10将被认为是第10个分组,如果你想表达\1之后是字符'0',只能使用\g<1>0。

测试代码:

m = re.match(r'(\w+)\s(\w+)(?P<sign>.*)', 'hello python!')

print('m.string : %s' % m.string)
print('m.re : %s' % m.re)
print('m.pos : %s' % m.pos)
print('m.endpos : %s' % m.endpos)
print('m.lastindex : %s' % m.lastindex)
print('m.lastgroup : %s' % m.lastgroup)

print('m.group(1, 2) : ', m.group(1, 2))
print('m.groups() :  ', m.groups())
print('m.groupdict() :  ', m.groupdict())
print('m.start(2) :  ', m.start(2))
print('m.end(2) :  ', m.end(2))
print('m.span(2) :  ', m.span(2))
print(r"m.expand(r'\2 \1 \3') : ", m.expand(r'\2 \1 \3'))

运行结果:

m.string : hello python!
m.re : re.compile('(\\w+)\\s(\\w+)(?P<sign>.*)')
m.pos : 0
m.endpos : 13
m.lastindex : 3
m.lastgroup : sign

m.group(1, 2) :  ('hello', 'python')
m.groups() :   ('hello', 'python', '!')
m.groupdict() :   {'sign': '!'}
m.start(2) :   6
m.end(2) :   12
m.span(2) :   (6, 12)
m.expand(r'\2 \1 \3') :  python hello !

2.3 re模块方法(Pattern实例方法)

re提供了众多方法用于完成正则表达式的功能。这些方法可以使用Pattern实例的相应方法替代,唯一的好处是少写一行re.compile()代码,但同时也无法复用编译后的Pattern对象。

看几行re.py的源码,当我们调用match方法时:

def match(pattern, string, flags=0):
    """Try to apply the pattern at the start of the string, returning
    a match object, or None if no match was found."""
    return _compile(pattern, flags).match(string)

它是先将原始字符串编译成pattern对象,然后再利用其方法进行匹配字符串。

所以re模块的使用(即其方法的使用)要和Pattern实例方法一起介绍。

2.3.1 compile

re.compile(strPattern[, flag]): Pattern类的构造方法,用于将字符串形式的正则表达式编译成Pattern对象,第二个参数flag是匹配模式,取值时可以使用按位或运算符‘|’表示同时生效,即‘re.I|re.M’;或者直接在字符串中执行模式,re.compile('(?im)pattern')等同re.compile('pattern', re.I|re.M)。

  • re.I(re.IGNORECASE): 忽略大小写。
  • re.M(re.MULTILINE): 多行模式,改变'^'和'$'的行为。
  • re.L(re.LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定。
  • re.U(re.UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性 。
  • re.X(re.VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。以下两个正则表达式是等价的:

演示代码:

import re
p = re.compile(r'(\d)(\w)(?P<sign>.*)', re.S)
print('p.pattern :  %s' % p.pattern)
print('p.flags :  %s' % p.flags)
print('p.groups :  %s' % p.groups)
print('p.groupindex : %s' % p.groupindex)

其运行结果如下:

p.pattern :  (\d)(\w)(?P<sign>.*)
p.flags :  48
p.groups :  3
p.groupindex : {'sign': 3}

2.3.2 match

re.match(pattern, string[, flags]) | pattern.match(string[, pos[, endpos]]):从string的pos下标处尝试匹配pattern,如果pattern介绍仍可匹配,则返回一个Match对象,如果匹配不成功或匹配没结束就到达endpos,则返回None。

  • pos和endpos的默认值为0和len(string);
  • re.match()无法直接指定两个参数,参数flags用于编译pattern时指定匹配模式。

测试代码:

m = re.match(r'(\w+)\s(\w+)(?P<sign>.*)', 'hello python!')

print('m.string : %s' % m.string)
print('m.re : %s' % m.re)
print('m.pos : %s' % m.pos)
print('m.endpos : %s' % m.endpos)
print('m.lastindex : %s' % m.lastindex)
print('m.lastgroup : %s' % m.lastgroup)

print('m.group(1, 2) : ', m.group(1, 2))
print('m.groups() :  ', m.groups())
print('m.groupdict() :  ', m.groupdict())
print('m.start(2) :  ', m.start(2))
print('m.end(2) :  ', m.end(2))
print('m.span(2) :  ', m.span(2))
print(r"m.expand(r'\2 \1 \3') : ", m.expand(r'\2 \1 \3'))

运行结果:

m.string : hello python!
m.re : re.compile('(\\w+)\\s(\\w+)(?P<sign>.*)')
m.pos : 0
m.endpos : 13
m.lastindex : 3
m.lastgroup : sign

m.group(1, 2) :  ('hello', 'python')
m.groups() :   ('hello', 'python', '!')
m.groupdict() :   {'sign': '!'}
m.start(2) :   6
m.end(2) :   12
m.span(2) :   (6, 12)
m.expand(r'\2 \1 \3') :  python hello !

2.3.3 search

re.search(pattern, string[, flags]) | pattern.search(string[, pos[, endpos]]):用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern,若匹配结束仍可匹配,则返回一个Match对象,若无法匹配则pos+1再次匹配,直到pos=endpos时仍无法匹配返回None。

测试代码:

pattern = re.compile(r'py\w{2,}?', re.I)
match = pattern.search('hello python', 2, 11)
print(match)
if match :
    print(match.group())

运行结果:

<_sre.SRE_Match object; span=(6, 10), match='pyth'>
pyth

2.3.4 split

re.split(pattern, string[, maxsplit]) | pattern.split(string[, maxsplit]):按照能够匹配的子串将string分割后返回列表,如果不能匹配,则会将整串字符串以唯一元素的列表形式返回。maxsplit用于指定最大的分割次数。

测试代码:

pattern = re.compile(r'\d+', re.I)
match = pattern.split('abc1efg2ijk3mno4rst', 3)
print(match)

pattern = re.compile(r'\d{2}', re.I)
match = pattern.split('abc1efg2ijk3mno4rst', 3)
print(match)

运行结果:

['abc', 'efg', 'ijk', 'mno4rst']
['abc1efg2ijk3mno4rst']

2.3.5 findall

re.findall(pattern, string[, flags]) | pattern.findall(string[, pos[, endpos]]):搜索string,以列表形式返回全部匹配的子串。搜索不到返回空的列表。

测试代码:

pattern = re.compile(r'\d+', re.I)
match = pattern.findall('abc1efg2ijk3mno4rst', 3, 10)
print(match)

pattern = re.compile(r'\d+', re.I)
match = pattern.findall('abc1efg2ijk3mno4rst', 18)
print(match)

运行结果:

['1', '2']
[]

2.3.6 finditer

re.finditer(pattern, string[, flags]) | pattern.finditer(string[, pos[, endpos]]):搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。

测试代码:

pattern = re.compile(r'\d+', re.I)
match = pattern.finditer('abc1efg2ijk3mno4rst', 3, 15)
for item in match :
    print(item.group())

运行结果:

<_sre.SRE_Match object; span=(3, 4), match='1'>
1
<_sre.SRE_Match object; span=(7, 8), match='2'>
2
<_sre.SRE_Match object; span=(11, 12), match='3'>
3

2.3.7 sub

re.sub(pattern, repl, string[, count]) | pattern.sub(repl, string[, count]):使用repl替换string中每一个匹配的子串后,返回替换后的字符串。

  • 当repl是一个字符串时,可以使用\id、\g<id>或\g<name>引用分组,但不能使用编号0.
  • 当repl是一个方法时,这个方法应当只接收一个参数(Match对象),并返回一个用于替换的字符串。
  • count用于指定替换次数,不指定时替换全部。

测试代码:

pattern = re.compile(r'(\w+)\s(\w+)', re.I)
string = 'Daocoder say : hello Python'
print(pattern.sub(r'\2 \1', string, 2))

def upper_first_letter(match) :
    return match.group(1).title() + ' ' + match.group(2).title()

print(pattern.sub(upper_first_letter, string, 2))

运行代码:

say Daocoder : Python hello
Daocoder Say : Hello Python

2.3.8 subn

re.subn(pattern, repl, string[, count]) | pattern.subn(repl, string[, count]):返回结果为(re.sub(pattern, repl, string[, count]), 替换次数),即元组展示的上方法结果和替换次数。

测试代码:

pattern = re.compile(r'(\w+)\s(\w+)', re.I)
string = 'Daocoder say : hello Python'
print(pattern.subn(r'\2 \1', string, 2))

def upper_first_letter(match) :
    return match.group(1).title() + ' ' + match.group(2).title()

print(pattern.subn(upper_first_letter, string, 2))

运行结果:

('say Daocoder : Python hello', 2)
('Daocoder Say : Hello Python', 2)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容

  • re模块手册 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以...
    喜欢吃栗子阅读 3,949评论 0 13
  • re模块 开始使用re Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串...
    Alex陌阅读 1,273评论 0 0
  • 使用 Python 模块 re 实现解析小工具 孙 翎, 贺 皓, 和 张 晗 2011 年 4 月 12 日发布...
    种花家LY阅读 3,494评论 0 21
  • 为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将...
    彡廿阅读 860评论 0 1
  • 啤酒的气泡 躁动出一座城市 夏季压缩 变成十字路 // 我在晚上背离她 一个有风的晚上 走进峡谷 // 摇晃的吊桥...
    黄筱雨1987阅读 409评论 0 0