简介
对于一些文本操作,正则表达式提供了强有力的辅助,它允许我们通过带有描述性性质的描述语言,得到我们需要的文本数据。
java正则表达式功能类简介
对于java而言,其在java.util.regex
包中给我们提供了正则表达式功能,该包结构如下图所示:
可以看到,
regex
包下包含一个接口MatchResult
,两个类Pattern,Matcher
,以及一个异常类PatternSyntaxException
。其中:
MatchResult
:代表匹配操作的结果,该接口提供了查询方法用来检测匹配器匹配正则表达式的结果。通过MatchResult,可以查看匹配边界,匹配组合以及组边界,但是不能进行修改。
Pattern
:正则表达式的编译表现形式。指定为正则表达式的字符串必须首先被编译成此类的实例,然后,可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。
Matcher
:执行由Pattern解释的字符串序列操作引擎。Matcher
实现了MatchResult
。
PatternSyntaxException
:当正则表达式解析出错时抛出该异常。
通配符简介
java正则表达式的全部通配符介绍可以在官网API中查看,下面主要介绍其中一些比较常用的:
字符类 | |
---|---|
[abc] | 匹配a或者b或者c |
[^abc] | 除了a,b,c以外的字符都匹配 |
[a-zA-Z] | a-z,A-Z任意一个字符都匹配 |
[a-d[m-p]] | a-d或者m-p中任意一个字符都匹配 |
[a-z&&[def]] | 同时满足a-z和d,e,f中的一个则匹配(并集) |
[a-z&&[^bc]] | a-z任意一个字符都匹配,除了b和c |
ab|cd | 或匹配器,匹配 ab 或 cd |
预定义字符类 | |
---|---|
. | 任意字符 (与<u>行结束符</u>可能匹配,也可能不匹配) |
\d | 数字 [0-9] |
\D | 非数字 [^0-9] |
\s | 空白字符 [ \t\n\x0B\f\r] |
\S | 非空白字符 [^\s] |
\w | 字符类型 [a-zA-Z_0-9] |
\W | 非字符类型 [^\w] |
边界匹配器 | |
---|---|
^ | 行开头 |
$ | 行结尾 |
\b | 单词边界 |
\B | 非单词边界 |
Greedy 数量词 | |
---|---|
X? | X,一次或一次也没有 |
X* | X,零次或多次 |
X+ | X,一次或多次 |
X{n} | X,恰好n次 |
X{n,} | X,至少n次 |
X{n,m} | X,至少n次,但不超过m次 |
例子
正则表达式对文本的操作总结起来为:匹配,切割,替换,获取。
- 匹配
判断给定字符串是否符合QQ号码格式。
(QQ号码格式规范:
1.全部为数字
2.起码6位数字以上,不超过15位数;
3.第一个数字不能为0;)
String str = "23453463456";
Pattern pattern = Pattern.compile("[1-9]\\d{5,15}");
Matcher matcher = pattern.matcher(str);
boolean bMatch = matcher.matches();
System.out.println("match="+bMatch);
- 切割
对给定字符串,按空格进行切割。
String str="first second third ";
Pattern pattern = Pattern.compile("\\s+");//或者“ ”+
String[] splits = pattern.split(str);
for(int i = 0 ; i < splits.length ; ++i){
System.out.println("splits["+i+"]="+splits[i]);
}
- 替换
对给定字符串,按叠词进行替换,将叠词数量保留一位。
String str="abb3dadadfa333aaaaaaaa";
Pattern pattern = Pattern.compile("(.)\\1+");
Matcher matcher = pattern.matcher(str);
String replaceStr = matcher.replaceAll("$1");
System.out.println("replaceStr="+replaceStr);
注: 此处使用了组概念,用符号()表示一个组,正则表达式"(.)\1+"表达的意思是:任意字符,\1表示引用第一组的结果,也就是(.)的字符,所以这句话的意思就是第一个字符是任意字符,后面一个字符跟前一个一致,有一个或一个以上。
“$1"表示引用第一个组的内容。
- 获取
对给定字符串,取出大括号{}内的字符串。
String str = "users/{user}/repos/{page}/";
Pattern pattern = Pattern.compile("\\{([a-zA-Z][a-zA-Z0-9_-]*)\\}");
Matcher matcher = pattern.matcher(str);
while(matcher.find()){
String findstr = matcher.group();
System.out.println("findstr="+findstr);
}
最后,网上有很多可以直接对正则进行验证的在线工具,大家可以去找找看。