正则表达式由四部分组成,分别是
- 定界符
- 元字符
- 量词
- 模式修正符
定界符
一般用两个斜线 //,也可以用两个井号##
元字符
指的是想要筛选的内容
例如 /e/就表示要筛选e这个字母
除了使用一个字母表示要筛选的字符外,正则表达式还提供了一些特殊符号表示筛选范围中的一个
- 转义字符
\w 表示字母数字下划线中的任意一个
\W表示\w的反义词,即补集
\d表示0-9中的任意一个
\D表示除了数字以外的任意一个字符
\s表示空格
\S表示除空格之外的任意字符
\b表示单词的边界
例如'/\bis\b/'可以匹配this is phone 中间的is
- 集合
表示集合中的任意一个字符
[a-z]表示a到z中任何一个字符
[abc]表示abc这三个字母中的任意一个
[^abc]表示除了abc这三个字母中的任意一个
[\x{4e00}-\x{9fa5}]表示中文中的第一个中文到最后一个中文 例如
/[\x{4e00}-\x{9fa5}]/u (u的意思是将待匹配的字符串按照utf8转码)
- 语义字符
.点号可以匹配除了换行符之外的任意字符(换行符指的是\n而不是回车)
|表示或者的意思 red|blue
量词
默认情况下正则表达式采用的贪婪模式,即尽可能多的匹配
量词表示元字符的数量,也就是筛选内容的长度
{m} 表示m个
{n,m}表示最小n个,最多m个
{n,}表示最少n个,最多无穷个
/.{5,10}/ 匹配除了换行符以外的任意字符,最少5个,最多10个,默认贪婪所以会匹配10个
\* 表示0个或多个
\+ 表示至少一个
? 表示0个或1个
/.*/ 匹配除了换行符以外的任意字符,任意几个,默认贪婪所以会匹配最多的
问号有一个特殊用法,写在元字符后边表示量词0个或1个,写在量词后边表示将贪婪模式转化为懒惰模式,也就是尽可能少的去匹配
小技巧
在正则表达式里加上括号(),可以把括号里的内容单独匹配,例如
//
可以把图片的src地址单独匹配出来
^在[ ]外边表示匹配字符串开始的位置
$在[ ]外边表示匹配字符串结束的位置
模式修正符
模式修正符是对正则表达式进行模式修饰,写在正则表达式的定界符后边
例如 /a/i 可以匹配大写和小写的a
i 忽略大小写
u utf8编码处理字符串
U 将贪婪模式转换为懒惰模式(在量词后边加?仅对当前量词进行懒惰处理,U则是将整个正则表达式转换为懒惰模式)
s 万能点模式,可以使 . 匹配任意字符
m 多行模式,指将字符串中每个换行看作一个新的字符串进行匹配