2018年7月3日【Python学习笔记】

一、正则表达式

正则表达式主要用于字符串查找‘匹配、分割

import re

match(正则表达式字符串,需要匹配的字符串)

1.不带任何正则字符的正则表达式

str1 = 'abc'
print(re.match('abc', str1))

2.点号. -->匹配任意的字符

r'a.c':匹配一个字符串第一个字符是'a',第二个字符是任意字符,第三个字符是'c'的字符

str1 = 'a^ch'  # 只会匹配a-c,c后面写在多都没用
print(re.match(r'a.c', str1))

写一个正则表达式,可以匹配一个字符串第一个字符是g中间是两个任意字符,然后一个d

str2 = 'good'
print(re.match(r'g..d', str2))

3.\w:匹配字母、数字、下划线

str1 = 'good'
print(re.match(r'g\w\wd', str1))

4.\s:匹配空白字符(空格(\r)、制表符(\t)、回车(\n)等)

写一个正正则表达式,匹配第一个字符是数字、字母或者下划线,第二个字母是a,第三个字符是空白

str1 = '1a '
print(re.match(r'\wa\s', str1))

5.\d:匹配数字

匹配前两位必须是数字的字符串

print(re.match(r'\d\d', '14522'))

6.\b:匹配单词的边界

边界:字符串的开始和结束、空格、标点符号、括号、波浪号、回等
注意:\b是不能匹配出结果的,只是对对需要出现边界的要求
(遇到\b的时候,一定要注意\b后边的要求的字符必须是单词的边界才会成功)

re_str = r'\bhow\b'
print(re.match(re_str, 'how,are'))

7.^:匹配开头

^the --->匹配以the开头的字符

print(re.match(r'^the', 'theabc'))

8.$:匹配字符串结束

'the$'-->匹配字符串以'the结束'

print(re.match(r'the$', 'the'))

9.\大写字母 -->与相应的小写字母的功能相反

10.[]:匹配[]号任意的一个字符,可以是具体的字符也可以是正则符号,一个[]只能匹配一位的字符

re_str = r'[abc]123'   # 匹配第一个字符是'a'或者'b'或者'c',后面是的字符串
print(re.match(re_str, 'a123'))

re_str = r'abc[\da]'
print(re.match(re_str, 'abc2'))

11.[^]:匹配不在[]中的任意的一个字符

re_str = r'[^abc]123'   # 匹配一个字符不是a或者b或者c,后面是123的字符串
print(re.match(re_str, '@123'))

12.*:匹配0次或者多次

r'a' -->匹配第一个字符是0个'a'或者多个'a';'cc','abc','aaabc'
r'\d
' -->匹配第一个字符是0个或者多个数字;'cc','abc','123abc'
r'[abc]*-->'cc','abckk'

print(re.match(r'a*', 'aaacc'))

13.+:匹配1次或者多次

r'a+' -->匹配第一个字符串开头是一个a或者多个a:'acc', 'aacc', 'aaadjk'
r'\w+'-->前面是一个或多个字母数字下划线

print(re.match(r'a+', 'abnd'))

14.?:匹配0次或者1次

r'a?123' -->匹配一个字符串'123'前面有一个a或者没有字符

print(re.match(r'a?123', '123'))

15.{n}:匹配n次

写一个正则表达式,完全匹配一个11位的数字字符串

print(re.match(r'\d{11}$', '12345678912'))

写一个正则表达式匹配第一位是1,第二位是3,5,7,8其他九位是任意数字

str1 = r'1[3578]\d{9}$'
print(re.match(str1, '13562348397'))

16.{n,}:匹配至少n次

r'\d{3,}-->匹配字符串开始是三个或者三个以上的数字;'123abc','12345ab'

print(re.match(r'\d{3,}', '12345abc'))

17.{m,n}:匹配至少m次,最多n次

要求密码是6-16位,由字母数字下划线组成

str1 = r'\w{6,16}'
print(re.match(str1, 'abnf123__'))

判断一个字符串是否是标识符(字母数字下划线,数字不开头)

a-z:是字母a-z中的任意一个,这是小写,大写也可以这么写;同理1-9

str2 = r'[a-zA-Z_]\w*$'
print(re.match(str2, 'A2hdj'))

18.|:分子(相当于逻辑运算符中的or)

r'(a|b)abc'-->匹配第一个字符是a或者b,后面是abc
r'\d{3}|([a-zA-Z]{3}) -->匹配开头是3个数字或者是3个字母

print(re.match(r'(a|b)abc', 'aabc'))
print(re.match(r'\d{3}|([a-zA-Z]{3})', '231cvd'))

19.*?:匹配0次或多次,但尽可能少的匹配

print(re.match(r'a*?', 'aabc'))

20.+?:重复一次或者多次,尽可能少的匹配

print(re.match(r'a+?', 'aabc'))

总结?:就是在重复多次的匹配中如何后面加?,匹配的时候以能匹配的最少次数去匹配

用户名必须是由字母数字下划线构成的长度为6-20个字符之间,QQ号是5-12个的数字组成,首位不能为0

str1 = r'\w{6, 20}'
str2 = r'[1-9]\d{4, 11}'

二、内置函数

1.compile方法

将正则表达式编译成正则对象(就可以去调用相关的正则表达式对象方法)

result = re.compile(r'\d{2}[a-zA-Z]{2}')
print(type(result))

2.match方法

a.match(正则表达式字符串/对象,要匹配的字符串)
用指定的正则表达式和指定的字符串进行匹配,如果匹配成功,就返回匹配对象,否则就返回None
b.正则表达式对象.match(要匹配的字符串)

result = re.match(r'a\dd.', 'a5dl5dg')
print(result)
# 获取匹配结果在原字符串中的范围
print(result.span())   # (0, 4)
# 可以获取匹配开始的位置和结束的位置
print(result.start(), result.end())  # 0 4
# 获取匹配的结果
print(result.group())   # a5dl
# 获取原字符串
print(result.string)    # a5dl5dg

3.search

a. re.search(指定的正则表达式/对象,指定的字符串)
b. 正则对象.search(指定的字符串)
在指定的字符串中,去查找第一个(只查找第一个)指定正则表达式匹配的字符串,
如果找到了就返回匹配对象,没有就返回None

result = re.search(r'a\dc', 'ioja3clma6cj')
print(result)

4.findall

re.findall(指定的正则表达式/对象,指定的字符串)
获取指定字符串中,所有满足正则表达式的子串,返回值是一个列表。如果没有就返回一个空列表

result = re.findall(r'a\dc', 'ioja3clma6cj')
print(result)   # ['a3c', 'a6c']

练习:获取一个字符串中,所有以ing结束的单词
'I love singing dan dancing aingc'

result = re.findall(r'\b[A-Za-z]*ing\b', 'I love singing dan dancing aingc')
print(result)

5.split

re.split(指定的正则表达式/对象,指定的字符串,最大的拆分数(默认是 0,全部拆分))
正则对象.split(指定的字符串)

result = re.compile('[,\s]').split('abc,bcd,amn,ssdf oopp oplk')
print(result)

'窗前明月光,疑是地上霜,举头望明月,低头思故乡。'

result = re.split(r'[,。]', '窗前明月光,疑是地上霜。举头望明月,低头思故乡。')
del result[-1]
print(result)

6.sub

re.sub(正则表达式/对象,替换字符串,原字符串)替换后原字符串不变,返回一个新的字符串
将指定字符串中的指定的子串替换成其他的字符串

练习:删除字符串成'andd anbsbabbssasbad'中的'a'和'b'

result = re.sub(r'[ab]', '', 'andd anbsbabbssasbad')
print(result)

练习:将脏话替换成

result = re.sub(r'[妈挂操艹]|智障|sB', '*', '你挂机了?')
print(result)

补充:正则表达式中中文的判断

判断是否有中文,如果有就打印不合格,没有就合格
使用中文的unicode编码范围:\u4e00-\u9fa5(正则表达式中Unicode前面需要加'\u')

result = re.search(r'[\u4e00-\u9fa5]', 'jisd好dfs')
print(result)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容