2018-09-11 day17 正则表达式

1.正则表达式

正则表达式就是用来检测字符串是否满足某种规则的工具
例如:1.账号是手机号/邮箱/多少位由什么组成等...
2.可厉害奇偶is发到空间撒个,弄iu闪避授课计划如何.好搜和好贵is和oil看?
3.脏话替换成*等....

1.正则语法
2.python对正则表达式的支持,提供了了一个内置模块:re
fullmatch(正则表达式,字符串):判断整个字符串是否符合正则表达式规则

单个字符

# 1) . 匹配任意字符
# 匹配一个字符串,只有一位字符,并且这个字符是任意字符
re_str = r'.'
result = fullmatch(re_str,'an')
print(result)
# 匹配一个字符串,只有两位字符,并且每个字符是任意字符
re_str = r'..'
result = fullmatch(re_str,'an')
print(result)
# 匹配一个字符串,前三位分别是abc,最后一位是任意字符
re_str = r'abc.'
result = fullmatch(re_str,'abcw')
print(result)
输出结果:
None
<_sre.SRE_Match object; span=(0, 2), match='an'>
<_sre.SRE_Match object; span=(0, 4), match='abcw'>

# 2)\w 匹配 字母 数字 下划线
# 匹配一个字符串,前三位分别是abc,最后两位是字母数字下划线
re_str = r'abc\w\w'
result = fullmatch(re_str,'abc1_')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 5), match='abc1_'>

# 3) \s 匹配空白字符(空白指空格,制表符和回车等所有能产生空白的字符)
# 匹配一个字符串,前三位是字母数字下划线第四位是一个空白字符,最后一位是任意字符
re_str = r'\w\w\w\s.'
result = fullmatch(re_str,'h2_ 9')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 5), match='h2_ 9'>

# 4) \d 匹配一个数字字符
re_str = r'\d\d\d.'
result = fullmatch(re_str,'666j')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 4), match='666j'>

# 5) \b 检测是否是单词边界(单词的开头,单词的结尾,单词和单词之间的标点空格等)
#注意:正则中遇到\b,匹配的时候先不管他,匹配成功后再回头看\b位置是否是单词边界
# 匹配一个字符串是前四位是when,第五位是空白,空白后面是where,并且第四位n的后面是个边界
re_str = r'when\b\swhere'
result = fullmatch(re_str,'when where')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 10), match='when where'>

# 6)^ 检测字符串是否以给定的正则表达式开头
re_str = r'^\d\d'
result = fullmatch(re_str,'23')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 2), match='23'>

# 7).$ 检测字符串是否以给定的正则表达式结束
# 匹配一个字符串a数字,并且a数字是字符串的结尾
re_str = r'a\d$'
result = fullmatch(re_str,'a2')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 2), match='a2'>

# 8) \W 匹配一个非字母,数字,下划线的字符
re_str = '\W\w'
result = fullmatch(re_str,'!a')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 2), match='!a'>

# 9) \S 匹配非空白字符
re_str = r'\S\w\w\w'
result = fullmatch(re_str,'@123')
print(result)
# 10) \D 匹配一个非数字字符
# 11) \B 检测非单词边界
输出结果:
<_sre.SRE_Match object; span=(0, 4), match='@123'>

匹配次数

# 1) [] 匹配中括号中出现的任意字符
# 注意:一个中括号只匹配一个字符
# 匹配一个三位的字符串,第一位是a或者b或者c,后两位是数字
re_str = r'[abc]\d\d'
result = fullmatch(re_str,'a67')
print(result)
# -(减)号 在正则中的中括号中的应用:如果将减号放到两个字符的中间代表的是谁是谁.如果想要表示'-'符号本身,就放在开头或结尾
# 要求一个字符串中的第一位是1到8中的一个,后面两位是小写字母
# [1-8]:代表的字符集是:12345678
# [-18]或者[18-]:代表的字符串是'-', '1', '8',和'1','8','-'
re_str = r'[1-8][a-z][a-z]'
result = fullmatch(re_str,'8jx')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 3), match='a67'>
<_sre.SRE_Match object; span=(0, 3), match='8jx'>


# 2)[^字符集]匹配不在[]字符集中的任意一个字符
# 匹配一个四位的字符串,第一位不是大写字母,后三位是abc
re_str = r'[^A-Z]abc'
result = fullmatch(re_str,'aabc')
print(result)
输出结果:
<_sre.SRE_Match object; span=(0, 4), match='aabc'>

# 3) * 匹配0次或者多次
# 匹配一个字符串,最后一位是b,b的前面有0个或者多个a
re_str = r'a*b'   # 'b','ab','aab','aaab'
print(fullmatch(re_str,'b'))
输出结果:
<_sre.SRE_Match object; span=(0, 1), match='b'>

# 4) + 匹配1次或者多次(至少一次)
# 判断一个字符串是否是无符号的整数
re_str = r'[1-9]+\d*'
print(fullmatch(re_str,'001'))

# 5) ? 匹配0次或者一次
re_str = r'@?\d+'
print(fullmatch(re_str,'@6666'))

# 判断一个字符串是否是整数(包括正整数和负整数)
re_str = r'[+-]?[1-9]+\d*'
print(fullmatch(re_str,'200'))

# 6) {N} 匹配N次
# re_str = r'\d{3}'
re_str = r'[a-zA-Z]{3}'
print(fullmatch(re_str,'ahH'))

# 7) {N,} 至少匹配N次
re_str = r'\w{4,}'
print(fullmatch(re_str,'hahj123_sd'))
print('==========================')
# 8){,N}最多匹配N次
# 9){M,N}匹配至少M次,最多N次(N>M)
# 注意:次数相关的操作,都是约束的次数符号前的前一个字符
输出结果:
None
<_sre.SRE_Match object; span=(0, 5), match='@6666'>
<_sre.SRE_Match object; span=(0, 3), match='200'>
<_sre.SRE_Match object; span=(0, 3), match='ahH'>
<_sre.SRE_Match object; span=(0, 10), match='hahj123_sd'>
==========================

分支和分组

# 1) | 分支(相当于逻辑运算中的or)
# 匹配一个字符串是三个字母或者是三个数字
re_str = r'[a-zA-Z]{3}|\d{3}'
print(fullmatch(re_str,'123'))

#注意: 正则中的分支有短路操作:如果使用|去连接多个条件,前面的条件已经匹配出结果,那么就不会使用后面的条件再去匹配了
# 练习:写一个正则表达式,能够匹配出字符串中所有的数字(包括整数和小数)

re_str = r'\d+[.]\d+|[1-9]\d*'
print(findall(re_str,'abc12.5hhh60,30.2kkk9nn0.12'))


#2)分组
# a.分组
# 通过加()来对正则条件进行分组
# 两位数字两位字母出现三次
re_str = r'([a-z]{2}\d{2}){3}'
print(fullmatch(re_str,'ac23bn45hj34'))

# 匹配一个字符串,按照一个数字一个字母的规律出现一次或者多次
re_str = r'(\d[a-z])+'
print(fullmatch(re_str,'2a3a'))

#b.重复
# 可以通过\数字来重复匹配前面的括号中匹配的结果.数字的值代表前面的第几个分组
re_str = r'(\d{2}[A-Z])=\1'
print(fullmatch(re_str,'23B=23B'))

re_str = r'(\d{3})-(\w{2})\1\2'
print(fullmatch(re_str,'222-as222as'))

# c.捕获
# 按照完整的正则表达式去匹配,只捕获()中的内容.只有在findall中有效
re_str = r'a(\d{3})b'
print(fullmatch(re_str,'a786b'))
print(findall(re_str,'a786b'))
输出结果:
<_sre.SRE_Match object; span=(0, 3), match='123'>
['12.5', '60', '30.2', '9', '0.12']
<_sre.SRE_Match object; span=(0, 12), match='ac23bn45hj34'>
<_sre.SRE_Match object; span=(0, 4), match='2a3a'>
<_sre.SRE_Match object; span=(0, 7), match='23B=23B'>
<_sre.SRE_Match object; span=(0, 11), match='222-as222as'>
<_sre.SRE_Match object; span=(0, 5), match='a786b'>
['786']

练习:
用户名必须由字母,数字或下划线,构成且长度在6-20个字符之间
QQ号是5-12的数字且首位不能为0

user_name = input('请输入用户名(数字,字母下划线,6-20字符):')
num = input("请输入qq号(5-12):")
re_str = r'\w{6,20}'
re_str1 = r'[1-9]\d{4,11}'
result = fullmatch(re_str,user_name)
if result == None:
    print('用户名不合法')
else:
    print('用户名合法')
if fullmatch(re_str1,num):
    print('qq号合法')
else:
    print('qq号不合法')
输出结果:
请输入用户名(数字,字母下划线,6-20字符):123456
请输入qq号(5-12):123456
用户名合法
qq号合法

2.正则中的转义

正则表达式中的转义和字符串中中的转义字符没有任何关系.
在python中的字符串前加r阻止的是字符串转义,不能阻止正则表达式的转义

在正则表达式中,可以通过在有特殊意义的符号前加\来表示符号本身
+ . * ? \ ( ) [ ] ^ $ |

注意:
a.-号只有在中括号中的两个字符之间才有特殊的意义
b.如果特殊符号放到中括号中作为字符集的内容,那么除了 - 在两个字符之间一位其他的都不需要转义
c.\ 不管在哪里都需要转义,^放在中括号的最前面需要转义

re_str = r'a\+'
print(re.fullmatch(re_str,'a+'))

re_str = r'\\w-a'
print(re.fullmatch(re_str,'\w-a'))

re_str = r'\(\d{3}\)'
print(re.fullmatch(re_str,'(234)'))

re_str = r'[.?*\\]mbc'
print(re.fullmatch(re_str,'\\mbc'))

re_str = r'a*?b'
print(re.findall(re_str,'aabab'))
输出结果:
<_sre.SRE_Match object; span=(0, 2), match='a+'>
<_sre.SRE_Match object; span=(0, 4), match='\\w-a'>
<_sre.SRE_Match object; span=(0, 5), match='(234)'>
<_sre.SRE_Match object; span=(0, 4), match='\\mbc'>
['aab', 'ab']

3.re模块

# 1.complie(正则表达式):将正则表达式转换成正则表达式对象
re_str = r'\d+'
re_object = re.compile(re_str)
print(re_object)

#不转车对象,调用相应的函数
re.fullmatch(re_str,'78hj')
# 转换成对象,调用相应的方法
re_object.fullmatch('78hj')
输出结果:
re.compile('\\d+')
```python
# 2.match(正则表达式,字符串)和fullmatch
# match:判断字符串的开头是否能够和正则表达式匹配
# fullmatch:判断整个字符串是否能够和正则表达式匹配
# 返回值都是匹配结果,如果匹配成功返回匹配对象,否则返回None
re_str = r'abc\d{3}'
match1 = re.match(re_str,'abc234abcdef')
match2 = re.fullmatch(re_str,'abc234')
print(match1)
print(match2)

# a.匹配到的范围.匹配结果字符的下标范围
print(match2.span())
# 获取起点
print(match1.start())
# 获取终点
print(match1.end())

# 注意:group参数,用来指定分组对应的相应的结果
re_str = r'(\d{3})\+([a-z]{2})'
match1 = re.match(re_str,'234+hj')
print(match1)
print(match1.span())
# 在匹配结果中,获取第一个分组的返回
print(match1.span(1))
# 在匹配结果中,获取第二个分组的范围
print(match1.span(2))
# 在匹配结果中,获取第二个分组的起始下标
print(match1.start(2))

# b.获取匹配结果对应的字符串
print(match1.group())
print(match1.group(1))
print(match1.group(2))

#c 获取被匹配的原字符串
print(match1.string)
输出结果:
<_sre.SRE_Match object; span=(0, 6), match='abc234'>
<_sre.SRE_Match object; span=(0, 6), match='abc234'>
(0, 6)
0
6
<_sre.SRE_Match object; span=(0, 6), match='234+hj'>
(0, 6)
(0, 3)
(4, 6)
4
234+hj
234
hj
234+hj

# 3.search(正则表达式,字符串)
#在字符串中去查找第一个满足正则表达式要求的子串,如果找到了就返回匹配对象,找不到返回None
search1 = re.search(r'\d+aa','hello 78aabc hhh')
print(search1)
if search1:
    print(search1.span())
输出结果:
<_sre.SRE_Match object; span=(6, 10), match='78aa'>
(6, 10)

练习: 使用search将一个字符串中所有的数字字符串全部找到...
'工资是10000元,年龄是18岁,身高是:180,颜值100分'

str1 = '工资是10000元,年龄是18岁,身高是:180,颜值100分'
re_str = r'[1-9]\d*'
search1 = re.search(re_str,str1)

while search1:
    print(search1.group())
    end = search1.end()
    str1 = str1[end:]
    search1 = re.search(re_str,str1)
输出结果:
10000
18
180
100

# 4.split(正则表达式,字符串)
# 按满足正则表达式的子串去切割字符串
# 返回值是列表
str1 = '床前明月光,疑是地上霜.举头望明月,低头思故乡!'
result = re.split(r'[,。，！!.]',str1)
result1 = re.split(r'\W+',str1)
print(result)
print(result1)
输出结果:
['床前明月光', '疑是地上霜', '举头望明月', '低头思故乡', '']
['床前明月光', '疑是地上霜', '举头望明月', '低头思故乡', '']

# 5.sub(正则表达式,替换字符串,被替换的字符串)
# 返回值是新的字符串
word = '你丫是傻叉吗?我操你大爷的.Fuck you'
result = re.sub(r'傻叉|操|Fuck|煞笔','*',word)
print(result)
输出结果:
你丫是*吗?我*你大爷的.* you

# 6.findall(正则表达式,字符串)
# 获取字符串中所有满足正则表达式的子串
# 返回值是列表
# 注意:
result = re.findall(r'\d([a-z]+)','四川省1xaidc,0and你好北京ghj')
print(result)
输出结果:
['xaidc', 'and']

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345