正则表达式

“正则表达式”是可以匹配文本片段的模式。用来匹配、提取、或替换文本或字符串中的片段、子串。

1. 字符 => 匹配单个字符

字符	说明	示例	匹配结果
普通字符	匹配自身	abc	abc
.	匹配除换行符 \n 外的任意一个字符(在DOTALL模式中也能匹配换行符)	a.c	abc acc a1c ... 其中之一都能匹配
\	转义字符，使特殊字符的行为与普通字符一样，匹配本身	a\.c	a.c

1）. 与除换行符外的任意字符都能匹配，因此被称为通配符；

2）正则表达式中可以使用转义字符转义特殊字符，然而要表示正则表达式中要求的单个反斜杠，书写模式时要写两个反斜杠(python\\.org)。因为python解释器遇到反斜杠也会执行转义。也就是说正则表达式中的转义包含两层转义：解释器的转义和正则表达式的转义。

2.字符集 => 匹配单个字符

字符集	说明	示例	匹配结果
[]	自定义字符集。在其中添加字符，创建字符集，能够匹配其中包含的任一字符	[pc]ython	python 或cython
\d	数字字符集：[0-9]	a\dc	a1c
\D	非数字字符集：[^0-9]	a\Dc	abc
\w	单词数字字符集：[A-Za-z0-9_]	a\wc	a_c
\W	非单词数字字符集：[^A-Za-z0-9_]	a\Wc	a c
\s	空白字符集：[<空格>\t\r\n\f\v]	a\sc	a c
\S	非空白字符集：[^<空格>\t\r\n\f\v]	a\Sc	a2c

字符集是一些字符的集合，正则匹配时能够匹配字符集中任意一个字符；

[]：称为自定义字符集；

其他字符集称为预定义字符集；

3. 重复运算符 => 重复运算单个字符

字符	说明	示例	匹配结果
*	匹配前一个字符0次或无限次	abc*	ab或abc或abccccccc...
+	匹配前一个字符1次或无限次	abc+	abc或abcc或abccccccc...
？	匹配前一个字符0次或一次	abc?	ab或abc
{m}	匹配前一个字符m次	abc{3}	abccc

{m, n}：表示匹配前一个字符m次到n次；

{m,}：表示匹配前一个字符至少m次；

{, n}：表示匹配前一个字符最多n次

4. 特殊字符

字符	说明	示例	匹配结果
^	用在字符最前，匹配字符串的开头	^a*	只能匹配以“a”开头的字符串
$	用在字符最后，匹配字符串的结尾	.*?c$	匹配以“c”结尾的字符串

“^”放在字符集([^...])前表示匹配指定字符集外的字符；

5. 二选一和子模式

1）二选一：管道字符，“|”

字符	说明	示例
\|	管道字符。具有“或”的作用，匹配在其左右的任意一个字符串	‘python\|jave’

2）子模式——分组匹配

字符	说明	示例
()	括号中的字符被正则表达式视为一个分组，也可以称为一个子模式	(ab)
\num	引用子模式num匹配到的字符串；num为子模式的编号.
(?P<name>)	为子模式设置别名name	(?P<t1>ab)
(?P=name)	引用名称为name的子模式匹配到的字符串

管道符号：| 能够与“子模式”配合使用，’’p(ython|ear)‘’ => 匹配python或pear；

子模式编号：整个正则表达式作为一个模式编号为“0”，其余子模式从左至右从 1 - 99 依次编号，最大编号为99；

子模式与重复运算符共用：它们两者共用时，子模式被视为一个整体。(ab)? => 表示ab出现0次或1次；

6. 贪婪模式与非贪婪模式

字符	说明	示例
字符集/通配符 + 重复运算符	贪婪模式，匹配尽可能多的内容，能匹配多少就匹配多少	r'\(.+)\' => 能匹配 abab
字符集/通配符 + 重复运算符 + “?”	非贪婪模式，匹配较少的内容，一旦匹配成功即退出匹配	r'\(.+)?\' => 只能匹配 ab*

重复运算符默认是贪婪模式的；重复运算符 + ? 能够将重复运算符指定为非贪婪模式的。

7. python标准正则表达式模块 `re`

re 模块是python中标准的能够进行正则表达式运算的模块，其中有一些重要的函数：

1）基本方法

方法	说明	示例
re.compile(pattern[, flags])	对正则表达式进行编译构建匹配模式对象，能够避免多次重复编译，提升效率	pattern = re.compile(r’表达式’)

直接使用re中的匹配方法，如 re.match(r’表达式’，‘string’) ，这样使用如果存在循环，将每次都对r’表达式’进行编译；不如先编译 pattern = re.compile(r’表达式’)，pattern.match(‘string’) => 一次编译，多次使用。

flags：能够设置编译时的模式，re.DOTALL == re.S == re.RegexFlag.DOTALL == re.RegexFlag.S的DOTALL模式，表示让 . 符号匹配任何字符包括换行符；re.IGNORECASE == re.I == re.RegexFlag.IGNORECASE == re.RegexFlag.I 表示匹配时忽略大小写；

re.RegexFlag.IGNORECASE | re.DOTALL => 同时支持两种模式。

2）四大检索方法

方法	说明
re.match()	从开头进行匹配，并且只匹配一次
re.search()	全局进行匹配，并且只匹配一次
re.findall()	匹配所有符号条件的数据，返回是结果列表
re.finditer()	也是在全局匹配，匹配所有，但是返回迭代对象，迭代 Match 对象，匹配一个，返回一个

3）分组和替换方法

a. 分组：通过给定字符串对数据进行分组，re.split()

#!/usr/bin/python3
# -*- coding: utf-8 -*-

import re
string = "a;dj jkl,jj; j;sd"
# split 分组
pattern = re.compile(r'[; ,]+')
result = pattern.split(string)
print(result)

>>>
['a', 'dj', 'jkl', 'jj', 'j', 'sd']

即使用正则表达式匹配到的字符分割字符串

b. 替换：通过给定的正则表达式和替换字符进行替换，re.sub()

import re

# sub 交换
string = "hello world"
# 带 空格的词组替换成 #
pattern = re.compile(r'(\w+) (\w+)')

# 把 空格的词组 进行交换
result = pattern.sub(r"\2 \1",string)

print(result)

>>>
world hello

先匹配string，然后通过re.sub中指定的模式进行替换

8. 提取匹配结果

re.match和re.search匹配后得到的是 RE_Match 对象(re.findall得到匹配后的列表，re.finditer得到迭代器)

得到RE_Match对象后，可以使用 obj.group() 可以得到具体的匹配结果。

obj.group()默认获取编号为0 的模式即整个正则表达式匹配的结果，可以指定子模式编号以获取哪个子模式匹配的结果。

最后编辑于：2021.03.21 16:27:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345