re模块操作
在Python中需要通过正则表达式对字符串进行匹配的时候,要用到一个模块,名字为re
1.re模块的使用过程
导入re模块
import re
使用match方法进行匹配
result=re.match('正则表达式','要匹配的字符串')
如果上一步匹配到数据的话,可以使用group方法来提取数据
result.group
2.re模块示例
import re
result = re.match('baidu','baidu.com')
print(result.group())
表示字符
<colgroup><col style="width: 385px;"><col style="width: 385px;"></colgroup>
示例一:.
import re
匹配任意一个字符
ret=re.match('.','a')
print(ret.group())
示例二:[]
import re
如果hello的首字母小写,那么正则表达式需要小写的h
ret=re.match('h','hello python')
print(ret.group())
如果hello的首字符大写,那么正则表达式需要大写的H
ret=re.match('H','hello python')
print(ret.group())
大小写都可以的情况
ret= re.match('[hH]','hello python')
ret2=re.match('[hH]','hello python')
print(ret.group())
print(ret2.group())
匹配0-9的第一种方法
ret=re.match([0123456789],'7hello python')
print(ret.group())
匹配0-9的第二种方法
ret=re.match([0-9],'7hello python')
print(ret.group())
示例三 \d
import re
普通的匹配方式
ret=re.match('天空1号','天空1号发射成功')
print(ret.group())
使用\d进行匹配
ret=ret.match('天空\d号','天宫1号发射成功')
原始字符串
[图片上传失败...(image-60efdd-1523883048420)]
match里面4个反斜杠输出一个反斜杠,前两个\和后两个\分别用于在编程语言里转化成一个\,之后在正则表达式里转化为一个\
表示数量
匹配多个字符的相关格式
<colgroup><col style="width: 130px;"><col style="width: 278px;"></colgroup>
|
示例1 *****
匹配出一个字符串第一个为大写字母,后面都是小写字母。并且这些字符串可有可无
[图片上传失败...(image-d45570-1523883048418)]
示例2:?
需求:匹配出,0-99之间的数字
[图片上传失败...(image-525e8a-1523883048419)]
示例3:{m}
需求:匹配出,8到20位的密码,可以是大小写英文字母、英文字母,下划线
[图片上传失败...(image-755a8e-1523883048419)]
表示边界
<colgroup><col style="width: 385px;"><col style="width: 385px;"></colgroup>
示例 |
ret = re.match("[1-9]?\d$|100","8")
ret.group()
ret = re.match("[1-9]?\d$|100","78")
ret.group()
ret = re.match("[1-9]?\d$|100","08")
ret.group()
ret = re.match("[1-9]?\d$|100","100")
ret.group()
示例2()
ret = re.match("\w{4,20}@163.com", "test@163.com")
ret.group()
ret = re.match("\w{4,20}@(163|126|qq).com", "test@126.com")
ret.group()
ret = re.match("\w{4,20}@(163|126|qq).com", "test@qq.com")
ret.group()
ret = re.match("\w{4,20}@(163|126|qq).com", "test@gmail.com")
ret.group()
示例3\
ret = re.match("<[a-zA-Z]>\w</[a-zA-Z]*>", "<html>hh</html>")
ret.group()
re模块的高级用法
search 需求:匹配出文章阅读的次数 (匹配单次)[图片上传失败...(image-60b654-1523883048420)]
findall 需求:统计出Python、c、c++相应文章阅读的次数(可以匹配多次)
[图片上传失败...(image-5a0bf0-1523883048420)]
sub 将匹配到的数据进行替换
需求:将匹配的阅读次数加1
方法1:
import re
ret= re.sub(r"\d+","python=997")
print ret
方法2:
import re
def add(temp):
strnum = temp.group()
num = int(strnum)+1
return str(num)
ret = re.sub(r"\d+",add,"python=997")
print ret
ret = re.sub(r"\d+",add,"python=99")
print ret
split 根据匹配进行切割字符串,并返回一个列表
需求:切割字符串"info:xiaozhang 33 shandong"
ret = re.split(r":|","info:xiaozhang 33 shandong")
print ret
python正则表达式贪婪和非贪婪模式
贪婪:总是尝试匹配尽可能多的字符,Python里的数量词默认是贪婪的
非贪婪:总是尝试着匹配尽可能少的字符。
在"*","?","+","{m,n}"后面加上?,是贪婪变成非贪婪。
s="This is a number 234-235-22-423">>> r=re.match(".+(\d+-\d+-\d+-\d+)",s)
r.group(1)
'4-235-22-423'>>> r=re.match(".+?(\d+-\d+-\d+-\d+)",s)
r.group(1)
'234-235-22-423'
re.match(r"aa(\d+)","aa2343ddd").group(1)
'2343'>>> re.match(r"aa(\d+?)","aa2343ddd").group(1)
'2'>>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1)
'2343'>>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
'2343'