JavaScript的正则表达式语法是Perl15的正则表达式语法的大型子集。
正则表达式的创建
像创建对象一样,正则表达式的创建也可以通过2种方式进行定义:直接量创建、RegExp()构造函数创建。
直接量创建
正则表达式直接量为包含在一对斜杠(/)之间的字符。
var pattern = /s$/;
在ECMAScript5中,正则表达式直接量的每次运算都会返回新对象。
RegExp()构造函数创建
同创建对象一样,通过new来调用RegExp()构造函数。
var pattern = new RegExp("s$");
RegExp()的第2个参数是可选的,表示正则表达式的修饰符(g,i,m)。
如果待创建的正则表达式的字符串是由用户输入的,就必须使用RegExp()构造函数在程序运行时创建。
正则表达式的规则
直接量字符
- 正则表达式中的所有字母和数字都是按照字面含义进行匹配的。
- 非字母的字符匹配需要通过反斜线()作为前缀进行转义,如下所示:
字符 | 匹配 |
---|---|
\o | NUL字符(\u0000) |
\t | 制表符(\u0009) |
\n | 换行符(\u000A) |
\v | 垂直制表符(\u000B) |
\f | 换页符(\u000C) |
\r | 回车符(\u000D) |
\xnn | 由十六进制数nn指定的拉丁字符,例如,\x0A等价于\n |
\uxxxx | 由十六进制数xxxx指定的Unicode字符,例如,\u0009等价于\t |
\cX | 控制字符^X,例如,\cJ等价于换行符\n |
- 许多标点符号具有特殊的含义,它们是
^ $ . * + ? = ! : | \ / ( ) [ ] { }
关于控制字符,由于无法直接打印出来,可以通过下面的代码将其escape()编码后显示编码结果,如下:
var str = ''; // 用于存放 \x00-\xff 这256个字符
for(var i=0; i<=255; i++) {
str += String.fromCharCode(i); // 填充字符
}
var c='', // 存放转码后的字符
re, // 存放动态生成的表达式
m; // 存放匹配结果
for(var i=65; i<=90; i++) { // ascii 65-90 分别对应字符 A-Z
c = String.fromCharCode( i ); // 转为字符 A-Z
re = RegExp('\\c'+c); // 生成正则表达式 \cA-\cZ
m = str.match(re); // 进行匹配
if(m) { // 如果匹配到了就输出
console.log(i, re, escape(m[0]) ); // 输出 ascii码, 正则, 匹配到的字符(无法直接输出显示,需要编码后显示)
}
}
更多请参考:
js正则之控制字符 \cX
php_js_escaping
ASCII码对照表
字符类 []
- 将直接量字符单独放进方括号内就组成了字符类(character class),一个字符类可以匹配它所包含的任意字符。
如,/[abc]/
可以和字母"a"、"b"、"c"中的任意一个都匹配。 - ""符号可以否定字符类,将""作为左方括号内的第一个字符。
如,/^[abc]/
匹配的是"a"、"b"、"c"之外的所有字符。 - 字符类可以使用连字符(-)表示字符范围。
如,/[a-zA-Z0-9]/
可以匹配任意字母的数字。
以下列出正则表达式的字符类匹配:
字符 | 匹配 |
---|---|
[...] | 方括号内的任意字符 |
[^...] | 不在方括号内的任意字符 |
. | 除换行符和其他Unicode行终止符之外的任意字符 |
\w | 任意ASCII字符组成的单词,等价于[a-zA-Z0-9] |
\W | 任意非ASCII字符组成的单词,等价于[^a-zA-Z0-9] |
\s | 任意Unicode空白符 |
\S | 任意非Unicode空白符的字符,注意\W和\S的不同 |
\d | 任意ASCII数字,等价于[0-9] |
\D | 任意非ASCII数字的任何字符,等价于[^0-9] |
[\b] | 退格直接量(特例) |
注意: 在正则表达式中的特殊字符,在字符类中不再表示原有的含义。
如,"^"符号不再表示匹配开关,而是否定含义。"\b"符号不再表示匹配边界,而是表示退格符。
重复 {}
根据之前的规则,可以使用/\d\d/匹配两位数,/\d\d\d\d/匹配四位数。为了方便匹配,可以使用重复语法。
字符 | 含义 |
---|---|
{n,m} | 匹配前一项至少n次,但不能超过m次 |
{n,} | 匹配前一项n次或者更多次 |
{n} | 匹配前一项n次 |
? | 匹配前一项0次或者1次,等价于{0,1} |
+ | 匹配前一项1次或者多次,等价于{1,} |
* | 匹配前一项0次或者多次,等价于{0,} |
注意:由于"?"、""可以匹配0次,因此它们允许什么都不匹配。如,/a/实际可以匹配"bbbb",因为字符串含有0个a。
非贪婪的重复
上面使用的重复原则,都会在匹配时尽可能多地匹配,而非贪婪的重复则表示尽可能少的匹配。
非贪婪的重复只需要在重复匹配符后添加一个"?"符号。如,"??"、"+?"、"*?"或"{1,5}?"。
对于字符串"aaa",使用/a+/
匹配结果是"aaa",而使用/a+?/
的匹配结果则是第1个"a"。
选择 |
字符"|"用于分隔供选择的字符。
如:/\d{3}|[a-z]{4}/
表示匹配的是3位数字或者4个小写字母。
分组和引用 ()
正则表达式中的圆括号有多种作用:
- 把单独的项组合成子表达式,以便可以像处理一个独立的单元那样对单元内的项进行处理。
如,/(ab|cd)+|ef/
可以匹配"ef",也可以匹配字符串"ab"或"cd"的一次或多次重复。 - 可以定义子模式,以便在后部进行引用匹配的文本(不是引用模式表达式),通过\n对第n个括号中的匹配文件进行引用。
如,/['"][^'"]['"]/
表示匹配以单引号或双引号开始或结束的字符串,但是开始和结束的引用并不一定相同。
如果想要匹配开始与结束相同引号,则可以写成/(['"])[^'"]\1/
。
注意:使用括号进行匹配时,结果将返回一个数组,而不是单独的匹配结果。
如果返回数组a,那么a[0]存放的是完整匹配,a[1]存放的是与第1个括号匹配的子串,以此类推。
var str = "Java: The Definition";
var re = new RegExp("(Java: )([A-Z])");
var m = str.match(re);
if(m) {
console.log(m); // => ["Java: T", "Java: ", "T"],注意:返回数组
}
同时,JavaScript也支持不带数字编码的分组,不再以"("和")"进行分组,而是以"(?:"和")"进行分组。
如,/([Jj]ava(?:[Ss]cript)?)\sis\s(fun\w*)/
,其中(?:[Ss]cript)
仅用于分组,\2将引用与(fun\w*)
匹配的文本,而不是与(?:[Ss]cript)
匹配的文本。
指定位置匹配 ^ & $
正则表达式中不是匹配实际的字符,而是字符之间的位置,我们称这些元素为正则表达式的锚。
常用的锚元素如下:
字符 | 含义 |
---|---|
^ | 匹配字符串的开头,在多行检索(添加m修饰符)中,匹配一行的开头 |
$ | 匹配字符串的结尾,在多行检索(添加m修饰符)中,匹配一行的结尾 |
\b | 匹配一个单词的边界,也就是位于字符\w和\W之间的位置,或位于字符\w和字符串的开头或者结尾之间的位置 |
\B | 匹配非单词边界的位置 |
(?=p) | 零宽正向先行断言,要求接下来的字符都与p匹配,但是匹配结果不包含p,只作为判断 |
(?!p) | 零宽负向先行断言,要求接下来的字符不与p匹配 |
如,如果想匹配单词"Java",可使用正则表达式/\bJava\b/
。
零宽正向先行断言:
var str = "Java: The Definition";
var re = new RegExp("Java(?=\:)(\:)");
var m = str.match(re);
if(m) {
console.log(m); // => ["Java:", ":"],注意:匹配结果不包含先行断言
}
零宽负向先行断言:
var str = "JavaBeans";
var re = RegExp("Java(?!Script)([A-Z]\w*)");
var m = str.match(re);
if(m) {
console.log(m); // => ["Java", "B"]
}
更多请参考:
Regular Expression Lookaround Demystified
修饰符 g & i & m
修饰符是放在"/"符号之外的,即第二条斜线之后。
- 修饰符"i",用以说明匹配不区分大小写。
- 修饰符"g",用以说明匹配应该是全局的,即检索出字符串中的所有匹配。
- 修饰符"m",用以在说明不仅匹配全文,还要匹配每行的文本。如,
/java$/m
不仅可以匹配"java",也可以匹配"java\nis fun"。
用于模式匹配的String方法
search()方法
"JavaScript".search(/script/i);
如果search()的参数不是正则表达式,则首先会通过RegExp构造函数将它转换成正则表达式。
注意:search()方法不支持全局检索,因为它忽略修饰符g。
replace()
// 将所有不区分大小写的javascript都替换成正确的JavaScript
text.replace(/javascript/gi, "JavaScript");
同时,replace()中可以使用引用"$n":
// 一段引用文本起始于引号,结束于引号
// 中间的内容区域不能包含引号
var quote = /"([^"]*)"/g;
// 用中文半角引号替换英文引号,$1表示英文引号之间的内容
text.replace(quote, ‘ "$1" ’);
另外值得注意的是,replace()方法的第2个参数可以是函数,该函数计算出要替换的字符串:
String.prototype.box = function(){
var entity={
quot:'"',
lt:'<',
gt:'>'
};
// function(a,b,c,d),参数a,b,c,d分别对应匹配结果数组的元素
return function(){
return this.replace(/&([^&;]+);/g, function(a,b,c,d){
var r=entity[b];
return typeof r==='string' ? r : a;
});
}
}();
console.log('<">'.box()); // => <">
注意:replace()支持全局搜索。
match()方法
"1 plus 2 equals 3".match(/\d+/g); // => ["1", "2", "3"]
注意:match()支持全局搜索,如果这个表达式没有设置修饰符g,match()就不会进行全局检索。
split()方法
通过正则表达式表示分隔符:
"1, 2, 3, 4, 5".split("/\s*,\s*/"); // => ["1", "2", "3", "4", "5"]
RegExp对象
RegExp属性
每个RegExp对象都包含5个属性:
- source,一个只读的字符串,包含正则表达式的文本。
- global,一个只读的布尔值,说明这个正则表达式是否带有修饰符g。
- ignoreCase,一个只读的布尔值,说明这个正则表达式是否带有修饰符i。
- multiline,一个只读的布尔值,说明这个正则表达式是否带有修饰符m。
- lastIndex,一个可读/写的整数,如果匹配模式带有g修饰符,这个属性存储下一次检索的开始位置。
RegExp方法
exec()
这个方法类似于String的match()方法,但是当使用修饰符g时,2个方法的返回结果不一样。
- String的match()方法会返回所有的匹配结果(数组对象)
- RegExp的exec()方法则只会返回1个匹配结果(数组对象),并将属性lastIndex设置为下一次搜索的起始索引位置。
var pattern = /Java/g;
var text = "JavaScript is more fun than Java!";
// 第1次执行exec()
var result = pattern.exec(text);
console.log(result); // "java"
console.log(pattern.lastIndex); // 4
// 第2次执行exec()
result = pattern.exec(text);
console.log(result); // "java"
console.log(pattern.lastIndex); // 32
test()
test()的调用等价于exec()调用,只是返回值是一个布尔值,表示匹配是否成功。
var pattern = /java/i;
pattern.test("JavaScript"); // => true
注意:
- 与exec()和test()不同,String方法search()、replace()和match()并不会用到lastIndex属性。实际上,String方法只是简单将lastIndex重置为0。
- 如果正则表达式带有修饰符g,则调用exec()和test()方法时注意lastIndex的变化(可以手动设置为0)。
- 在ECMAScript5中,正则表达式直接量的每次计算都会创建一个新的RegExp对象,每个对象都具有各自的lastIndex属性。