正则表达式是用于匹配字符串的模板.正则表达式就是创建一个特殊的字符串模板.支持的合法字符如表:
String类提供了对正则表达式的支持.
public void strRegexTest(){
String strContent = "dogdcgdbg";
//判断 strContent支付串是否匹配指定的正则表达式 dog
strContent.matches("dog");
//将字符串中所有匹配 dbg的子串替换成 dog
strContent.replaceAll("dbg","dog");
//将字符串中第一个匹配正则表达式的子串dbg替换成dog
strContent.replaceFirst("dbg","dog");
//String[] split(String regex)以 regex 表示的内容为分隔符,将字符串分割成多个子串.
}
正则表达式支持的合法字符表
字符 | 解释 |
---|---|
x | 字符 x 代表任何合法字符 |
\0mnn | 八进制数0mnn所表示的字符 |
\xhh | 十六进制 hh表示的字符 |
\uhhhh | 十六进制0xhhhh 表示的 Unicode字符 |
\t | 制表符('\u0009') |
\n | 换行符('\u000A') |
\r | 回车符('\u000D') |
在定义一个正则表达式模板的时候,如果想要匹配一个一个字符串中是否有换行符 ,则正则表达式可以定义为 String regex ="\n"; 如果一个正则表达式regex ="\u0041",当使用正则表达式进行对字符串进行匹配的时候,会检查字符串中是否有 Unicode 码('\u0041')所表示的字符.
特殊字符
在 java字符串两个反斜杠(\\)相当于一个反斜杠(). 正则表达式中两个反斜杠(\)表示字符串中的一个反斜杠(),因此匹配字符串中的"\\" ,正则表达式为"\\\\".
特殊字符 | 说明 |
---|---|
$ | 匹配一行的结尾,要匹配$字符本身,需要使用 \$ |
^ | 匹配一行的开头,如果需要匹配本身,需要使用\ |
() | 标记子表达式的开始和结束 |
[] | 匹配内容开始和结束. |
{} | 标记前面只表达式出现的频度 |
* | 标记前面的子表达式可以出现零次或者多次 |
+ | 前面的表达式何以出现一次或者多次 |
? | 前面的表达式可以出现一次或者零次 |
. | 匹配除了换行符之外的任何当个字符 |
转义字符 | |
指定两者之间选一个 |
\u0041\\\\ 匹配 A
(dog)+ 能够匹配连续的多个 dog 字符串
\\?\\] 匹配?]
通配符
通过上面介绍的正则表达式,如果想利用正则表达式匹配字符串中是否有数字的正则表达式为 [0123456789]*.
如果匹配一个英文字符串则需要将每个字符都定义一下,这样未免太过笨重.这些问题可以通过正则表达式提供的通配符解决
通配符 | 说明 |
---|---|
. | 匹配匹配任何字符 |
\d | 匹配任何数字 |
\D | 匹配任何非数字 |
\w | 匹配所有的字符,字符数字下划线_ |
\W | 与\w 相反 |
\s | 匹配所有的空白字符,包括空格,换行,回车符等 |
\S | 匹配所有的非空白字符 |
通过通配符使用正则表达式匹配一些字符串则会比较简单.
\\d* 匹配一串数字 ,数字的长度为0或者多个
c\\wt 匹配任何 c*t 形式的字符串例如 cat c0t等
方括号表达式
在一些情况下,如果只想匹配 a~f 或者 ab 之外的小写字母,通配符就无能为力了,此时需要方括号表达式,这些需要在方括号中使用,方括号表达式有一下几种形式.
方括号表达式 | 说明 |
---|---|
表示中任意一个 | [123]表示123中的任意一个字符 |
表示范围: - | [a-f]表示 a~f范围内的任意字符,[a-fx-z]表示 a~f x~z 范围内的任意字符 |
^表示求否 | [^abc]非 abc 的任意字符,[^a-f]非 a~f 任意字符 |
&& | [a-z&&[def]] ,求交集,表示只能匹配 d,e,f |
表示并运算 | a-d[e-f]即匹配范围为[a-de-f] |
使用方括号表达式要灵活很多,中文字符的 Unicode 值都是连续的,所以只需要找出最小的和最大的Unicode值,就可以利用上面的形式来匹配所有的中文字符[\u0041-\u0056]就可以匹配所有的中文字符.
圆括号表达式
圆括号中可以使用圆括号表达式或运算符(|).例如((com)|(cn)|(org))用于访问字符串之一.
边界匹配符
边界匹配符 | 说明 |
---|---|
^ | 行的开头 |
$ | 行的结尾 |
\b | 单词的边界 |
\B | 非单词的边界 |
\A | 输入的开头 |
\G | 前一个匹配的结尾 |
\Z | 输入的结尾,仅用于最后的结束符 |
\z | 输入的结尾 |
正则表达式支持的数量标识符的几种模式:
1.Greedy (贪婪模式):贪婪模式表达式会一直匹配下去只到无法匹配为止
2.Reluctant(勉强模式):用问号(?)后缀表示,通常只会匹配最少字符.也成为最小匹配模式.
public static void regexGreep(){
//贪婪模式,尽量匹配最多
String regex ="\\w+";
String targetStr = "Hello World";
Pattern pattern =Pattern.compile(regex);
Matcher matcher = pattern.matcher(targetStr);
if(matcher.find()){
System.out.println("贪婪模式"+matcher.group(0));
}
//勉强模式,匹配最少
String regexGreep ="\\w+?";
Pattern patternGreep =Pattern.compile(regexGreep);
Matcher matcherGreep = patternGreep.matcher(targetStr);
if(matcherGreep.find()){
System.out.println("勉强模式:"+matcherGreep.group(0));
}
}
//贪婪模式Hello
//勉强模式:H