普通字符匹配
不含特殊字符的直接匹配,如'abc'。
特殊字符
特殊字符有(、[、$、^、?、\、|、{等等,要匹配这些字符本身,在特殊字符前面加\,如\(。
几种匹配模式
()
子表达式,产生的结果可以被后面所引用,如$1。
[]
用来表示范围比较多,如[a-z]代表小写字母,这里的范围或者说顺序是按Unicode,如a一定在z的前面才可以这么表达。或者[0-9],匹配任意数字,注意这里是一位数字。
{}
一般用来表示具体匹配多少次,也叫限定表达式。{n},n为非负整数,表示匹配n次。{n,},至少匹配n次。{n,m},匹配n到m次。
限定符
* 表示前面的子表达式匹配0次或多次,相当于{0,}
+ 表示前面的子表达式匹配1次或多次,相当于{1,}
? 表示前面的子表达式匹配0次或1次,相当于{0,1}
| 表示选择任意一个
需要特别注意的是,如果()或者[]表达式后面没有限定符,则表示匹配一次,特别是[],虽然表示范围,但同时也表示匹配这范围里的一次。
如[1-9][0-9]*匹配任意数字,没有位数限制,但必须有一位,且第一位不为0。
?也是非贪婪匹配符,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do"。“ro*?”匹配的是"roooooo"中的"roo"。而"ro*"会匹配"roooooo"。
定位符
用来对位置做限定
^ 表示一行的开头,写在表达式前
$ 表示一行的结尾,写在表达式后
\b 单词的边界
\B 非单词边界
如^Chan,匹配在行开头处的"Chan"。
如果^出现在[]中则表示'非'。
缓存
()产生的结果是会被缓存起来的,使用如\1进行访问,从1到99最多会捕获99个。而使用?:、?=、?!等产生的结果不会被缓存。这三种非捕获源一般放在()中使用。
?: 匹配不获取,'industr(?:y|ies)相当于 'industry|industries'
?= 正向肯定预查,与前者的区别是它匹配的是'industr'不带括号里面的字符,后面类似
?! 正向否定预查
?<= 反向肯定预查,如<标识的方向,一般放在固定字符串的前面
?<! 反向否定预查
常见的特殊字符
. 匹配非换行符的任意字符
\d 匹配一个数字,\D匹配一个非数字
\n 换行符
\w 匹配一个字母、数字、下划线,相当于[A-Za-z0-9_]。
\具体数字 引用缓存,如\1,'(.)\1' 匹配两个连续的相同字符,\1指的是第一个子表达式(.)。
运算符优先级
转义字符>括号>限定符>位置符>'|'