JavaScript正则表达式

JavaScript的正则表达式语法是Perl15的正则表达式语法的大型子集。

正则表达式的创建

像创建对象一样，正则表达式的创建也可以通过2种方式进行定义：直接量创建、RegExp()构造函数创建。

直接量创建

正则表达式直接量为包含在一对斜杠(/)之间的字符。

var pattern = /s$/;

在ECMAScript5中，正则表达式直接量的每次运算都会返回新对象。

RegExp()构造函数创建

同创建对象一样，通过new来调用RegExp()构造函数。

var pattern = new RegExp("s$");

RegExp()的第2个参数是可选的，表示正则表达式的修饰符(g,i,m)。
如果待创建的正则表达式的字符串是由用户输入的，就必须使用RegExp()构造函数在程序运行时创建。

正则表达式的规则

直接量字符

正则表达式中的所有字母和数字都是按照字面含义进行匹配的。
非字母的字符匹配需要通过反斜线()作为前缀进行转义，如下所示：

字符	匹配
\o	NUL字符(\u0000)
\t	制表符(\u0009)
\n	换行符(\u000A)
\v	垂直制表符(\u000B)
\f	换页符(\u000C)
\r	回车符(\u000D)
\xnn	由十六进制数nn指定的拉丁字符，例如，\x0A等价于\n
\uxxxx	由十六进制数xxxx指定的Unicode字符，例如，\u0009等价于\t
\cX	控制字符^X，例如，\cJ等价于换行符\n

许多标点符号具有特殊的含义，它们是

^ $ . * + ? = ! : | \ / ( ) [ ] { }

关于控制字符，由于无法直接打印出来，可以通过下面的代码将其escape()编码后显示编码结果，如下：

var str = ''; // 用于存放 \x00-\xff 这256个字符
for(var i=0; i<=255; i++) {
    str += String.fromCharCode(i); // 填充字符
}

var c='', // 存放转码后的字符
    re,   // 存放动态生成的表达式
    m;    // 存放匹配结果

for(var i=65; i<=90; i++) { // ascii 65-90 分别对应字符 A-Z
    c = String.fromCharCode( i ); // 转为字符 A-Z
    re = RegExp('\\c'+c); // 生成正则表达式 \cA-\cZ
    m = str.match(re); // 进行匹配
    if(m) { // 如果匹配到了就输出
        console.log(i, re, escape(m[0]) ); // 输出 ascii码, 正则, 匹配到的字符(无法直接输出显示，需要编码后显示)
    }
}

字符类 []

将直接量字符单独放进方括号内就组成了字符类(character class)，一个字符类可以匹配它所包含的任意字符。
如，/[abc]/可以和字母"a"、"b"、"c"中的任意一个都匹配。
"^{"符号可以否定字符类，将"}"作为左方括号内的第一个字符。
如，/^[abc]/匹配的是"a"、"b"、"c"之外的所有字符。
字符类可以使用连字符(-)表示字符范围。
如，/[a-zA-Z0-9]/可以匹配任意字母的数字。

以下列出正则表达式的字符类匹配：

字符	匹配
[...]	方括号内的任意字符
[^...]	不在方括号内的任意字符
.	除换行符和其他Unicode行终止符之外的任意字符
\w	任意ASCII字符组成的单词，等价于[a-zA-Z0-9]
\W	任意非ASCII字符组成的单词，等价于[^a-zA-Z0-9]
\s	任意Unicode空白符
\S	任意非Unicode空白符的字符，注意\W和\S的不同
\d	任意ASCII数字，等价于[0-9]
\D	任意非ASCII数字的任何字符，等价于[^0-9]
[\b]	退格直接量（特例）

注意: 在正则表达式中的特殊字符，在字符类中不再表示原有的含义。
如，"^"符号不再表示匹配开关，而是否定含义。"\b"符号不再表示匹配边界，而是表示退格符。

重复 {}

根据之前的规则，可以使用/\d\d/匹配两位数，/\d\d\d\d/匹配四位数。为了方便匹配，可以使用重复语法。

字符	含义
{n,m}	匹配前一项至少n次，但不能超过m次
{n,}	匹配前一项n次或者更多次
{n}	匹配前一项n次
?	匹配前一项0次或者1次，等价于{0,1}
+	匹配前一项1次或者多次，等价于{1,}
*	匹配前一项0次或者多次，等价于{0,}

注意：由于"?"、""可以匹配0次，因此它们允许什么都不匹配。如，/a/实际可以匹配"bbbb"，因为字符串含有0个a。

非贪婪的重复

上面使用的重复原则，都会在匹配时尽可能多地匹配，而非贪婪的重复则表示尽可能少的匹配。
非贪婪的重复只需要在重复匹配符后添加一个"?"符号。如，"??"、"+?"、"*?"或"{1,5}?"。
对于字符串"aaa"，使用/a+/匹配结果是"aaa"，而使用/a+?/的匹配结果则是第1个"a"。

选择 |

字符"|"用于分隔供选择的字符。
如：/\d{3}|[a-z]{4}/表示匹配的是3位数字或者4个小写字母。

分组和引用 ()

正则表达式中的圆括号有多种作用：

把单独的项组合成子表达式，以便可以像处理一个独立的单元那样对单元内的项进行处理。
如，/(ab|cd)+|ef/可以匹配"ef"，也可以匹配字符串"ab"或"cd"的一次或多次重复。
可以定义子模式，以便在后部进行引用匹配的文本(不是引用模式表达式)，通过\n对第n个括号中的匹配文件进行引用。
如，/['"][^'"]['"]/表示匹配以单引号或双引号开始或结束的字符串，但是开始和结束的引用并不一定相同。
如果想要匹配开始与结束相同引号，则可以写成/(['"])[^'"]\1/。

注意:使用括号进行匹配时，结果将返回一个数组，而不是单独的匹配结果。
如果返回数组a，那么a[0]存放的是完整匹配，a[1]存放的是与第1个括号匹配的子串，以此类推。

var str = "Java: The Definition"; 
var re  = new RegExp("(Java: )([A-Z])");
var m   = str.match(re);
if(m) { 
  console.log(m);   // => ["Java: T", "Java: ", "T"]，注意：返回数组
}

同时，JavaScript也支持不带数字编码的分组，不再以"("和")"进行分组，而是以"(?:"和")"进行分组。
如，/([Jj]ava(?:[Ss]cript)?)\sis\s(fun\w*)/，其中(?:[Ss]cript)仅用于分组，\2将引用与(fun\w*)匹配的文本，而不是与(?:[Ss]cript)匹配的文本。

指定位置匹配 ^ & $

正则表达式中不是匹配实际的字符，而是字符之间的位置，我们称这些元素为正则表达式的锚。
常用的锚元素如下：

字符	含义
^	匹配字符串的开头，在多行检索(添加m修饰符)中，匹配一行的开头
$	匹配字符串的结尾，在多行检索(添加m修饰符)中，匹配一行的结尾
\b	匹配一个单词的边界，也就是位于字符\w和\W之间的位置，或位于字符\w和字符串的开头或者结尾之间的位置
\B	匹配非单词边界的位置
(?=p)	零宽正向先行断言，要求接下来的字符都与p匹配，但是匹配结果不包含p，只作为判断
(?!p)	零宽负向先行断言，要求接下来的字符不与p匹配

如，如果想匹配单词"Java"，可使用正则表达式/\bJava\b/。

零宽正向先行断言：

var str = "Java: The Definition"; 
var re  = new RegExp("Java(?=\:)(\:)");
var m   = str.match(re);
if(m) { 
  console.log(m);   // => ["Java:", ":"]，注意：匹配结果不包含先行断言
}

零宽负向先行断言:

var str = "JavaBeans";
var re  = RegExp("Java(?!Script)([A-Z]\w*)");
var m   = str.match(re);
if(m) { 
  console.log(m);   // => ["Java", "B"]
}

更多请参考：
Regular Expression Lookaround Demystified

修饰符 g & i & m

修饰符是放在"/"符号之外的，即第二条斜线之后。

修饰符"i"，用以说明匹配不区分大小写。
修饰符"g"，用以说明匹配应该是全局的，即检索出字符串中的所有匹配。
修饰符"m"，用以在说明不仅匹配全文，还要匹配每行的文本。如，/java$/m不仅可以匹配"java"，也可以匹配"java\nis fun"。

用于模式匹配的String方法

search()方法

"JavaScript".search(/script/i);

如果search()的参数不是正则表达式，则首先会通过RegExp构造函数将它转换成正则表达式。
注意：search()方法不支持全局检索，因为它忽略修饰符g。

replace()

// 将所有不区分大小写的javascript都替换成正确的JavaScript
text.replace(/javascript/gi, "JavaScript");

同时，replace()中可以使用引用"$n":

// 一段引用文本起始于引号，结束于引号
// 中间的内容区域不能包含引号
var quote = /"([^"]*)"/g;
// 用中文半角引号替换英文引号，$1表示英文引号之间的内容
text.replace(quote, ‘ "$1" ’);

另外值得注意的是，replace()方法的第2个参数可以是函数，该函数计算出要替换的字符串：

String.prototype.box = function(){
    var entity={
        quot:'"',
        lt:'<',
        gt:'>'
    };
    
    // function(a,b,c,d)，参数a,b,c,d分别对应匹配结果数组的元素
    return function(){
        return this.replace(/&([^&;]+);/g, function(a,b,c,d){
           var r=entity[b];
           return typeof  r==='string' ? r : a;
        });
    }
}();
console.log('<">'.box());  // => <">

注意：replace()支持全局搜索。

match()方法

"1 plus 2 equals 3".match(/\d+/g);  // => ["1", "2", "3"]

注意：match()支持全局搜索，如果这个表达式没有设置修饰符g，match()就不会进行全局检索。

split()方法

通过正则表达式表示分隔符：

"1, 2, 3, 4, 5".split("/\s*,\s*/"); // => ["1", "2", "3", "4", "5"]

RegExp对象

RegExp属性

每个RegExp对象都包含5个属性：

source，一个只读的字符串，包含正则表达式的文本。
global，一个只读的布尔值，说明这个正则表达式是否带有修饰符g。
ignoreCase，一个只读的布尔值，说明这个正则表达式是否带有修饰符i。
multiline，一个只读的布尔值，说明这个正则表达式是否带有修饰符m。
lastIndex，一个可读/写的整数，如果匹配模式带有g修饰符，这个属性存储下一次检索的开始位置。

RegExp方法

exec()

这个方法类似于String的match()方法，但是当使用修饰符g时，2个方法的返回结果不一样。

String的match()方法会返回所有的匹配结果(数组对象)
RegExp的exec()方法则只会返回1个匹配结果(数组对象)，并将属性lastIndex设置为下一次搜索的起始索引位置。

var pattern = /Java/g;
var text = "JavaScript is more fun than Java!";
// 第1次执行exec()
var result = pattern.exec(text);
console.log(result);            // "java"
console.log(pattern.lastIndex); // 4
// 第2次执行exec()
result = pattern.exec(text);
console.log(result);            // "java"
console.log(pattern.lastIndex); // 32

test()

test()的调用等价于exec()调用，只是返回值是一个布尔值，表示匹配是否成功。

var pattern = /java/i;
pattern.test("JavaScript"); // => true

注意：

与exec()和test()不同，String方法search()、replace()和match()并不会用到lastIndex属性。实际上，String方法只是简单将lastIndex重置为0。
如果正则表达式带有修饰符g，则调用exec()和test()方法时注意lastIndex的变化(可以手动设置为0)。
在ECMAScript5中，正则表达式直接量的每次计算都会创建一个新的RegExp对象，每个对象都具有各自的lastIndex属性。

最后编辑于：2017.12.03 05:54:31

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345