正则表达式

“正则表达式”是可以匹配文本片段的模式。用来匹配、提取、或替换文本或字符串中的片段、子串。

1. 字符 => 匹配单个字符
字符 说明 示例 匹配结果
普通字符 匹配自身 abc abc
. 匹配除换行符 \n 外的任意一个字符(在DOTALL模式中也能匹配换行符) a.c abc
acc
a1c
...
其中之一都能匹配
\ 转义字符,使特殊字符的行为与普通字符一样,匹配本身 a\.c a.c

1). 与除换行符外的任意字符都能匹配,因此被称为通配符

2)正则表达式中可以使用转义字符转义特殊字符,然而要表示正则表达式中要求的单个反斜杠,书写模式时要写两个反斜杠(python\\.org)。因为python解释器遇到反斜杠也会执行转义。也就是说正则表达式中的转义包含两层转义:解释器的转义和正则表达式的转义。

2.字符集 => 匹配单个字符
字符集 说明 示例 匹配结果
[] 自定义字符集。在其中添加字符,创建字符集,能够匹配其中包含的任一字符 [pc]ython python
或cython
\d 数字字符集:[0-9] a\dc a1c
\D 非数字字符集:[^0-9] a\Dc abc
\w 单词数字字符集:[A-Za-z0-9_] a\wc a_c
\W 非单词数字字符集:[^A-Za-z0-9_] a\Wc a c
\s 空白字符集:[<空格>\t\r\n\f\v] a\sc a c
\S 非空白字符集:[^<空格>\t\r\n\f\v] a\Sc a2c

字符集是一些字符的集合,正则匹配时能够匹配字符集中任意一个字符;

[]:称为自定义字符集;

其他字符集称为预定义字符集

3. 重复运算符 => 重复运算单个字符
字符 说明 示例 匹配结果
* 匹配前一个字符0次或无限次 abc* ab或abc或abccccccc...
+ 匹配前一个字符1次或无限次 abc+ abc或abcc或abccccccc...
匹配前一个字符0次或一次 abc? ab或abc
{m} 匹配前一个字符m次 abc{3} abccc

{m, n}:表示匹配前一个字符m次到n次;

{m,}:表示匹配前一个字符至少m次;

{, n}:表示匹配前一个字符最多n次

4. 特殊字符
字符 说明 示例 匹配结果
^ 用在字符最前,匹配字符串的开头 ^a* 只能匹配以“a”开头的字符串
$ 用在字符最后,匹配字符串的结尾 .*?c$ 匹配以“c”结尾的字符串

“^”放在字符集([^...])前表示匹配指定字符集外的字符;

5. 二选一和子模式

1)二选一:管道字符,“|”

字符 说明 示例
| 管道字符。具有“或”的作用,匹配在其左右的任意一个字符串 ‘python|jave’

2)子模式——分组匹配

字符 说明 示例
() 括号中的字符被正则表达式视为一个分组,也可以称为一个子模式 (ab)
\num 引用子模式num匹配到的字符串;num为子模式的编号.
(?P<name>) 为子模式设置别名name (?P<t1>ab)
(?P=name) 引用名称为name的子模式匹配到的字符串

管道符号:| 能够与“子模式”配合使用,’’p(ython|ear)‘’ => 匹配python或pear;

子模式编号:整个正则表达式作为一个模式编号为“0”,其余子模式从左至右从 1 - 99 依次编号,最大编号为99;

子模式与重复运算符共用:它们两者共用时,子模式被视为一个整体。(ab)? => 表示ab出现0次或1次;

6. 贪婪模式与非贪婪模式
字符 说明 示例
字符集/通配符 + 重复运算符 贪婪模式,匹配尽可能多的内容,能匹配多少就匹配多少 r'\*(.+)*\*' =>
能匹配 *ab*ab*
字符集/通配符 + 重复运算符 + “?” 非贪婪模式,匹配较少的内容,一旦匹配成功即退出匹配 r'\*(.+)*?\*' =>
只能匹配 *ab*

重复运算符 默认是贪婪模式的;重复运算符 + ? 能够将重复运算符指定为非贪婪模式的。

7. python标准正则表达式模块 re

re 模块是python中标准的能够进行正则表达式运算的模块,其中有一些重要的函数:

1)基本方法

方法 说明 示例
re.compile(pattern[, flags]) 对正则表达式进行编译构建匹配模式对象,能够避免多次重复编译,提升效率 pattern = re.compile(r’表达式’)

直接使用re中的匹配方法,如 re.match(r’表达式’,‘string’) ,这样使用如果存在循环,将每次都对r’表达式’进行编译;不如先编译 pattern = re.compile(r’表达式’),pattern.match(‘string’) => 一次编译,多次使用。

flags:能够设置编译时的模式,re.DOTALL == re.S == re.RegexFlag.DOTALL == re.RegexFlag.S的DOTALL模式,表示让 . 符号匹配任何字符包括换行符;re.IGNORECASE == re.I == re.RegexFlag.IGNORECASE == re.RegexFlag.I 表示匹配时忽略大小写;

re.RegexFlag.IGNORECASE | re.DOTALL => 同时支持两种模式。

2)四大检索方法

方法 说明
re.match() 从开头进行匹配,并且只匹配一次
re.search() 全局进行匹配,并且只匹配一次
re.findall() 匹配所有符号条件的数据,返回是 结果列表
re.finditer() 也是在全局匹配,匹配所有,但是返回迭代对象,迭代 Match 对象,匹配一个,返回一个

3)分组和替换方法

a. 分组:通过给定字符串对数据进行分组,re.split()

#!/usr/bin/python3
# -*- coding: utf-8 -*-

import re
string = "a;dj jkl,jj; j;sd"
# split 分组
pattern = re.compile(r'[; ,]+')
result = pattern.split(string)
print(result)

>>>
['a', 'dj', 'jkl', 'jj', 'j', 'sd']

即使用正则表达式匹配到的字符分割字符串

b. 替换:通过给定的正则表达式和替换字符进行替换,re.sub()

import re

# sub 交换
string = "hello world"
# 带 空格的词组替换成 #
pattern = re.compile(r'(\w+) (\w+)')

# 把 空格的词组 进行交换
result = pattern.sub(r"\2 \1",string)

print(result)

>>>
world hello

先匹配string,然后通过re.sub中指定的模式进行替换

8. 提取匹配结果

re.match和re.search匹配后得到的是 RE_Match 对象(re.findall得到匹配后的列表,re.finditer得到迭代器)

得到RE_Match对象后,可以使用 obj.group() 可以得到具体的匹配结果。

obj.group()默认获取 编号为0 的模式 即整个正则表达式匹配的结果,可以指定子模式编号以获取哪个子模式匹配的结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容

  • Python中的正则表达式(re) import rere.match #从开始位置开始匹配,如果开头没有则无re...
    BigJeffWang阅读 7,053评论 0 99
  • #首先,python中的正则表达式大致分为以下几部分: 元字符 模式 函数 re 内置对象用法 分组用法 环视用法...
    mapuboy阅读 1,599评论 0 51
  • re模块手册 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以...
    喜欢吃栗子阅读 3,981评论 0 13
  • 元字符 注意匹配时要匹配原始字符串,避免发生冲突 用 r” . ^ $ * + ? {} [] () \ | .匹...
    鏡澤阅读 1,336评论 0 1
  • 搞懂Python 正则表达式用法 Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一...
    厦热阅读 1,568评论 0 2