Re库正则表达式，知识点，

regular expression regex RE 正则表达式

定义：用来简洁表达一组字符串的表达式

"PN"

"PYN""PYTN" 正则表达式表达这则数据:

"PYTHN" P(Y|YT|YTH|YTHO)?N

"PYTHON"

正则表达式的优势：简洁（非常简单的表达字符串的特征，一行胜千言）

"PY"

"PYY"

"PYYY" 正则表达式表示：（表示无穷多个）"PYYYY" PY+

......"PYYYYYY......"

某种特点的字符串

"PY"开头：

后续存在不多于10个字符串，正则表达式表示：

后续字符不能是"P"或"Y" PY[^PY]{0,10}"PYABC" √ "PYKXYZ" ×

正则表达式是通用的字符串表达框架

简洁表达一组字符串的表达式

针对字符串表达“简洁”和“特征”思想的工具

判断某字符串的特征归属

在文本处理中十分常用（主要应用于字符串匹配中）

表达文本类型的特征（病毒，入侵等）

同时查找或替换一组字符串

正则表达式的使用：编译：将符合正则表达式语法的字符串转换成正则表达式特征

"PN"

"PYN""PYTN" 正则表达式表达这则数据:

"PYTHN" regex= P(Y|YT|YTH|YTHO)?N"PYTHON" 编译（特征）：p = re.compile(regex)

语法：正则表达式语法由字符和操作符构成

常见操作符

表示任何单个字符

[ ]

字符集，对单个字符给出取值范围

[abc]表示a,b,c,

[a-z]表示a到z的单个字符[^ ]

非字符集，对单个字符给出排除范围

[^abc]表示非a或b或c的单个字符

前一个字符0次或无限次扩展

abc*表示ab，abc，abcc，abccc等

前一个字符1次或无限次扩展

abc+表示abc，abcc，abccc等

？

前一个字符0次或1次扩展（匹配）

abc？表示ab，abc

左右表达式任意一个

abc|def表示abc，def

{m}

扩展前一个字符m次（仅一个字符）

ab{2}c表示abbc

{m,n}

扩展前一个字符m至n次（含n）

ab{1,2}c表示abc，abbc

^匹配字符串开头

^abc表示abc且在一个字符串的开头

匹配字符串结尾

abc$表示abc且在一个字符串的结尾

( )

分组标记，内部只能使用 | 操作符

(abc)表示abc,(abc|def)表示abc,def

数字等价于|0-9|

匹配任意非数字

单词字符，等价于|A-Za-z0-9_|

匹配字母数字下划线

匹配非字母数字下划线

匹配任意空白字符，等价于[\t\n\r\f]

匹配任意非空字符

匹配字符串开始

匹配字符串结束，如果存在换行，只匹配到换行前的结束字符串

匹配字符串结束

正则表达式实例：对应字符串

PY[TH]ON "PYTON","PYHON"

PY[^TH]?ON "PYON","PYaON","PYbON","PYcON"...

PY{:3}N (对大括号签的字符重复0-3次） "PN","PYN","PYYN""PYYYN"

经典正则表达式实例

^[A_Za-z]+$

由26个字母组成的字符串

^[A-Za-z0-9]+$

由26个字母和数字组成的字符串

^-?\d+$

整数形式的字符串

^[0-9]*[1-9][0-9]*$

正整数形式的字符串

[1-9]\d{5}

中国境内邮政编码，6位

[\u4e00-\u9fa5]

匹配中文字符

\d{3}-\d{8}|\d{4}-\d{7}

国内电话号码，010-68913536

匹配IP地址的正则表达式

IP地址字符串形式的正则表达式

（IP地址分四段，每段0-255）

\d+.\d+.\d+.\d+

\d{1,3}.\d{1.3}.\d{1,3}.\d{1,3}

精确表示：

0-99 ： [1-9]?\d 100-199:1\d{2}

200-249 :2[0-4]\d 250-255: 25[0-5]

(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5].){3}(1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

RE库的基本使用

Re库是Python的标准库

import re

正则表达式的表示类型：

raw string 类型（原生字符串类型：不包含转义符的字符串）（原生字符串与字符串

的不同是在字符串前面+小写的r）

re库采用raw string类型表示正则表达式，表示为：r"text"

例如：邮编：r "[1-9]\d{5}"

注意：当正则表达式包含转义符时：使用raw string

re.search()

在一个字符串中搜索匹配正则表达式的第一位置，返回match对象

re.match()

从一个字符串的开始位置起匹配正则表达式，返回match对象

re.findall()

搜索字符串，以列表类型返回全部能匹配的子串

re.split()

讲一个字符串按照正则表达式匹配结果进行分割，返回列表类型

re.finditer()

搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

re.sub()

在一个字符串中替换所有匹配正则表达式的子串，返回替代后的字符串

re.search(pattern,string,flags=0)在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象pattern：正则表达式的字符串或原生字符串表示

string：待匹配字符串

flags：正则表达式使用时的控制标记

常用标记

说明

re.l

忽略正则表达式的大小写，[A-Z]能够匹配小写字符，

又叫：re.IGNORECASE

re.M

正则表达式中^操作符能够将给定的每行当作匹配开始

又叫：re.MULTILINE

re.s

正则表达式中的 . 操作符能够匹配所有字符，默认匹配除换行外的所有字符

又叫：re.DOTALL

import re

match = re.search(r"[1-9]\d{5}","BIT 100081")

if match:

print(match.group(0)) #打印出匹配的结果

# 输出：

100081

re.match(pattern,string,flags=0)

从一个字符串的的开始位置起匹配正则表达式，返回match对象（参数与search相同）

import re

#match = re.match(r"[1-9]\d{5}","BIT 100081")

#print(match.group(0)) #从开始匹配并不是我们所要求的的，单单输出，会报错

match = re.match(r"[1-9]\d{5}","100081 BIT")

if match:

print(match.group(0))

re.findall (pattern,string,flags=0)

搜索字符串，以列表类型返回全部能匹配的子串 # 类型与上面一样

import re

Is =re.findall(r"[1-9]\d{5}","BIT100081 YSU100084")

print(Is)

# 输出：

['100081', '100084']

re.split(pattern,string,maxsplit=0,flags=0)

将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

其中三项与其它相同（匹配的部分去掉）

maxsplit ：最大分割数，剩余部分作为最后一个元素输出

import re

Is = re.split(r"[1-9]\d{5}","BIT100081 TSU100084")

print(Is)

# 输出：

['BIT', ' TSU', '']

# 对上式子加入maxsplit

import re

Is = re.split(r"[1-9]\d{5}","BIT100081 TSU100084",maxsplit=1)

print(Is) #当maxsplit等于，只是将第一个给分割了

#输出：

['BIT', ' TSU100084']

re.finditer(pattern,string,flags=0)

搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

（参数和第一个一样）

import re

for m in re.finditer(r"[1-9]\d{5}","BIT100081 TSU100084"):

if m:

print(m.group(0))

# 输出：

100081

100084

re.sub(pattern.repl,string,count=0,flags=0)

在一个字符串中替换所有匹配正则表达式的子串，返回替代换后的字符串（用一个新的字符串取代正则表达式匹配的字符串，并与原来的字符串相组合，返回一个新的字符串组合）

repl: 替换匹配字符串的字符串

count：匹配的最大替换次数

import re

Is =re.sub(r"[1-9]\d{5}",":zipcode","BIT100081 TSU100084")

print(Is)

# 输出：

BIT:zipcode TSU:zipcode

re库的另一种等价用法

rst = re.search(r"[1-9]\d{5}","BIT 100081")

函数式用法：一次性操作

面向对象用法：编译后的多次操做

pat = re.compite(r"[1-9]\d{5}")

rst = pat.search("BIT 100081")

(通过一次编译，当多次使用时，加快运行速度）

regex = re.compile(pattern,flags=0)

将正则表达式的字符串形式编译成正则表达式对象

（regex才是正则表达式的表示）

regex.search (）# 这样引用时，将参数去去掉

match对象

属性

说明

.string

待匹配的文本

.re

匹配时使用pattern对象

.pos

正则表达式搜索文本的开始位置

.endpos

正则表达式搜索文本的结束位置

import re

match = re.search(r"[1-9]\d{5}","BIT 100081")

if match:

print(match.group(0))

# 使用type来检查type的类型

print(type(match))

# 输出：

100081

match对象的方法：

方法

说明.group(0)

获得匹配后的字符串

.start()

匹配字符串在原始字符串的开始位置

.end()

匹配字符串在原始字符串的结束位置

.span()

返回（.start(), .end()）元组类型，包含两个元素

import re

m= re.search(r"[1-9]\d{5}","BIT 100081 TSU100084")

print(m.string)

print(m.re)

#输出：

BIT 100081 TSU100084

re.compile('[1-9]\\d{5}') # 这代表在内部只有经过compile之后的表达式才是正则表达式

import re

m= re.search(r"[1-9]\d{5}","BIT 100081 TSU100084")

print(m.string)

print(m.re)

print(m.pos)

print(m.endpos) #最开始的位置到最后的位置

print(m.group(0)) # match对象只包含一次对象的结果，返回的是第一次匹配的结果

print(m.start()) # 一个对象的起始位置

print(m.end())

# 输出：

BIT 100081 TSU100084

re.compile('[1-9]\\d{5}')

100081

Re库的贪婪匹配和最小匹配

import re

m= re.search(r"PY.*N","PYANBNCNDN")

print(m.group()) # 根据不同长度，会有4种结果

# 输出

PYANBNCNDN # 默认贪婪匹配

贪婪匹配：

Re库默认采用贪婪匹配，即输出匹配最长的子串

最小匹配：生成最小匹配

import re

m= re.search(r"PY.*？N","PYANBNCNDN")

print(m.group()) # 根据不同长度，会有4种结果

# 输出

PYAN

操作符

说明

*？

前一个字符0次或无限次扩展，最小匹配

+？

前一个字符1次或无限次扩展，最小匹配

？？

前一个字符0次或1次扩展，最小匹配

{m,n}?

扩展前一个字符m至n次（含n），最小匹配

想要了解更多：您可以关注微信公众号：foryouos

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342

Re库正则表达式，知识点，

推荐阅读更多精彩内容