本文主要讲一下什么是正则表达式,正则表达式的一些常用语法,以及我们项目中用到的一些正则表达式.
定义
首先,正则表达式是一种强大而灵活的文本处理工具,使得我们能够以编程的方式,构造复杂的文本模式,对输入的字符串进行搜索,一旦找到了匹配这些模式的分,你就能够随心所欲地对它们进行处理.因此,正则表达式提供的是一种完全通用的方式,能够解决各种字符串处理相关问题:匹配、选择、编辑以及验证.
注:正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别。
语法
在其他语言中,\ 表示:我想要在正则表达式中插入一个普通的(字面上的)反斜杠,请不要给它任何特殊的意义。
在 Java 中,\ 表示:我要插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义。
所以,在其他的语言中,一个反斜杠\就足以具有转义的作用,而在正则表达式中则需要有两个反斜杠才能被解析为其他语言中的转义作用。也可以简单的理解在正则表达式中,两个 \ 代表其他语言中的一个 \,这也就是为什么表示一位数字的正则表达式是 \d,而表示一个普通的反斜杠是 \\。
普通字符
包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
非打印字符
特殊字符
限定符
边界符
以上图片来自菜鸟教程.
这些字符构成了我们书写正则表达式的要素.比如写一个匹配六位数字的表达式为\d{6},可以根据自己的需求查阅表格,书写自己的正则表达式.
String中的正则表达式
应用正则表达式最简单的途径,就是使用String类的内建功能.
matches()
检查一个String是否匹配所给的正则表达式.split()
split()方法的功能是"将字符串从正则表达式匹配的地方切开", 组装到一个数组中去.第一个用的普通字符作为正则表达式,即使用空字符来划分,第二个和第三个都用到了'//W' ,意思是非单词字符(可以去上面找一下该字符的说明),它将标点删掉了通过例子二可以看出来.第三个表示"字母e后面跟着一个或多个非单词字符".可以看到,在原始字符串中,与正则表达式匹配的部分,在输出的结果中都不存在了.
String.split()还有一个重载版本,它允许你限制字符串分割次数.
replaceXXX()
String类自带的最后一个正则表达式工具是"替换",可以只替换正则表达式第一个匹配的子串,或是替换所有匹配的地方.第一个表达式要匹配的是以字母o开头,后面跟一个或多个字母(这里是小写的w),并且只替换掉第一个匹配的部分,"oh"被换成了"gogogo".
第二个是匹配两个单词中的任意一个,竖线表示或,并且替换所有匹配部分.
创建正则表达式
一般来说,比起功能有限的String类,我们更愿意构造功能强大的正则表达式.因此我们需要用到java.util.regex 包中的三个类:
Pattern 类:
pattern 对象是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式作为它的第一个参数。
Matcher 类:
Matcher 对象是对输入字符串进行解释和匹配操作的引擎。与Pattern 类一样,Matcher 也没有公共构造方法。你需要调用 Pattern 对象的 matcher 方法来获得一个 Matcher 对象。
PatternSyntaxException:
PatternSyntaxException 是一个非强制异常类,它表示一个正则表达式模式中的语法错误。
当然Pattern和Matcher中还有很多的方法,譬如find(),start(),end(),reset()这里就不展开了,还会再写一篇来具体介绍这些方法.
项目中用到的一些正则表达式
1.验证手机号格式是否正确:
/**
* 大陆手机号码11位数,匹配格式:前三位固定格式+后8位任意数
* 此方法中前三位格式有:
* 13+任意数
* 15+除4的任意数
* 18+除1和4的任意数
* 17+除9的任意数
* 147
*/
public static boolean isChinaPhoneLegal(String str) throws PatternSyntaxException {
String regExp = "^((13[0-9])|(15[^4])|(18[0,2,3,5-9])|(17[0-8])|(147))\\d{8}$";
Pattern p = Pattern.compile(regExp);
Matcher m = p.matcher(str);
return m.matches();
}
/**
* 香港手机号码8位数,5|6|8|9开头+7位任意数
*/
public static boolean isHKPhoneLegal(String str)throws PatternSyntaxException {
String regExp = "^(5|6|8|9)\\d{7}$";
Pattern p = Pattern.compile(regExp);
Matcher m = p.matcher(str);
return m.matches();
}
2.验证邮箱
/**
* 是否是邮箱
* @param string
* @return
*/
public static boolean isEmail(String string) {
Pattern p = Pattern
.compile("^([a-z0-9A-Z]+[-|\\\\.]?)+[a-z0-9A-Z]@([a-z0-9A-Z]+(-[a-z0-9A-Z]+)?\\\\.)+[a-zA-Z]{2,}$");
Matcher m = p.matcher(string);
return m.matches();
}
3.在文字中匹配出六位数的股票代码
/**
* 匹配股票代码(查到一个就停止)
* @param stirng
* @return
*/
public static String matchStocks(String stirng) {
String pStr = "(?<=\\D)([0123569]\\d{5})(?=\\D)|^([0123569]\\d{5})(?=\\D)|^([0123569]\\d{5})$|(?<=\\D)([0123569]\\d{5})$";
Pattern pattern = Pattern.compile(pStr);
Matcher matcher = pattern.matcher(stirng);
String str = "";
if (matcher.find()) {
str = matcher.group(0);
}
return str;
}
ps:参考书籍<<Thinking in Java>>.