正则表达式（正则表达式必知必会）

什么是正则表达式

简单来说，正则表达式是一些用来匹配和处理文本的字符串。它主要有两种使用场景：一种是查找特定的信息（搜索），另一种是查找并编辑特定的信息（替换）。
参考正则表达式30分钟入门：(https://deerchao.cn/tutorials/regex/regex.htm)

匹配单个字符

匹配特定纯文本
普通字符可作为正则表达式，匹配该字符本身。
匹配任意字符
正则表达式中，.可以匹配任何一个单个的字符，除了换行符外，类似于DOS中的?字符和SQL中的_（下划线）字符。
匹配特殊字符
正则表达式中，\是一个元字符（metacharacter），表示这个字符有特殊含义，而不是字符本身的含义。\后面跟着一个特殊字符，可对该特殊字符转义。要匹配一个特殊字符时，应该由\跟着特殊字符去匹配。比如\.表示匹配一个.。

匹配一组字符

元字符[和]用来定义一个字符集合，其含义是必须匹配该集合中的一个字符。定义一个字符集合具体做法有两种：一是把所有的字符都列举出来，该做法通常用于要列举的字符较少时，例如[abc]；二是利用元字符-以字符区间的方式给出，例如[0-9]将匹配0-9中的任意一个。注意在定义一个字符区间的时候，一定要避免让这个区间的尾字符小于它的首字符，如[3-1]，这种区间是无意义的，而且往往会让整个模式失效。-（连字符）是一个特殊的元字符，作为元字符它只能用在[和]之间。在字符集合外，-只是一个普通字符，只能匹配-自身，因此-字符不需要转义。
此外，字符集合可以用元字符^来求非：这将把给定集合里的字符强行排除在匹配操作之外。例如[^a-b]将匹配除了a，b以外的字符。

使用元字符

对特殊字符转义
要匹配特殊字符，必须使用\进行转义
要转义个字符：

$
()
*
+
.
[]
?
\
^
{}
|
'
"

匹配空白字符
元字符大致分为两种：一种是用来匹配文本的（比如.），另一种是正则表达式语法要求的（比如[和]）。匹配非打印空白字符的元字符如下：

\b  Backspace键，匹配一个单词的头尾
\f  换页符
\n  换行符
\r  回车符
\t  制表符
\v  垂直制表符

Windows结束行：\r\n，Unix/Linux结束行：\n，匹配一个空白行可以用\r\n\r\n或者\n\n。

匹配特定的字符类别（字符类）

\d  任何一个数字字符（等价于[0-9]）
\D  任何一个非数字字符（等价于[^0-9]）
\w  等价于[a-zA-Z0-9]
\W  等价于[^a-zA-Z0-9]
\s  任何一个空白字符（等价于[\f\n\r\t\v]）
\S  任何一个非空白字符（等价于[^\f\n\r\t\v]）

重复匹配

有多少个匹配

+: 匹配一个或者多个字符（字.符集合）。[0-9]+会匹配一个或多个数字。+是元字符，要匹配+必须转义：\+。
一般来说，当在字符集合里使用像.、+这样的元字符的时候，元字符会被解释为普通字符，不需要被转义，但转义了也是可以的。
[\w.]的使用效果和[\w\.]是一样的。
*: 匹配零个或者多个字符（字符集合）。*也是一个元字符，要匹配*本身必须使用\*
?: 匹配零个或者一个字符（字符集合）。\?匹配?本身。[\r]?\n匹配Windows或者Unix/Linux下的换行符。

匹配的重复次数
在字符或者字符集合后面跟着元字符{和}可以设置要匹配的重复次数。如果要匹配{和}本身，必须使用转义{和}。

[[:xdigit:]]{6}: 匹配336633和FFFFFF等
a{2,4}：匹配2-4个连续的a
a{2,}: 匹配至少连续两个a

防止过度匹配
贪婪模式与懒惰模式

*   *?
+   +?
{n, }   {n, }?

位置匹配

单词边界（boundary）
边界限定符
\b用来匹配单词的边界，\b匹配这样的一个位置，它位于一个\w和一个\W之间。
\B用来这样一个位置，它前后都是\w，或者前后都不是\w。
\b匹配且只匹配一个位置，不匹配任何字符，即不消耗字符。用\bcat\b匹配到的字符串的长度是3，而不是5。
字符串边界
^匹配字符串的开头， $匹配字符串的结尾。注意^只有出现在一个字符集合里[]并且紧跟在[之后才能发挥取非的作用。
分行匹配模式
启用分行匹配模式后，^不仅匹配正常的字符串开头，还将匹配行分隔符（分行符）后面的开始位置（这个位置是不可见的）；类似的， $不仅匹配正常的字符串结尾，还将匹配行分隔符（换行符）后面的结束位置。

使用子表达式

子表达式
子表达式是一个更大的表达式的一部分，用(和)括起来，当做一个独立元素来使用。(和)是元字符，要匹配(和)自身，必须使用转义序列$和$。
|是正则表达式里面的或操作符，(19|20)\d{2}匹配年份
匹配IP地址。一个合法IP地址的各组数字必须且只能符合以下规则：

任何一个1位或者2位数字（0-99）
任何一个以1开头的3位数字（100-199）
任何一个以2开头、第二位数字在0-4之间的3位数字（200-249）
任何一个以25开头、第3位数字在0-5之间的3位数字。（250-255）
所以可以写出匹配IP地址的正则表达式：

(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))

回溯应用：前后一致匹配

回溯引用指的是模式的后半部分引用在前半部分中定义的子表达式。回溯引用只能用来引用模式里的子表达式（用(和)括起来的正则表达式片段）。回溯引用匹配通常从1开始计数（\1、\2等），第0个匹配用来替代整个表达式。
比如[ ]+(\w+)[ ]+\1用来匹配连续两个重复单词。

前后查找（只匹配不消费）

向前查找（lookahead）

文本
http://www.forta.com/
https://mail.forta.com/
ftp://ftp.forta.com/
正则表达式
.+(?=:)

只匹配:，不消费它，提取协议。向前查找（和向后查找）匹配本身是有返回结果的，只是这个结果的字节长度永远是0而已。因此，前后查找操作也被成为零宽度匹配操作（zero-width）。

向后查找（lookbehind）
提取价格

文本
ABC01:  $23.45
HGG42:  $5.31
Total items found: 4
正则表达式
(?<=\$)[0-9.]+

前后查找取非

操作符      说明
(?=exp)           正向前查找，匹配exp前面的位置
(?!exp)            负向前查找，匹配后面跟的不是exp的位置
(?<=exp)        正向后查找，匹配exp后面的位置
(?<!exp)         负向后查找，匹配前面不是exp的位置

文本
I paid $30 for 100 apples, 50 oranges.
正则表达式
\b(?<!\$)[0-9.]+\b

嵌入条件

在正则表达式里可以嵌入条件，只有当条件得到（或者没有得到满足时），相应的表达式才会被执行。这种条件可以是一个回溯引用（含义是检查回溯引用是否存在），也可以是一个前后检查操作。

回溯引用条件

文本
<! -- Nav bar -->
<TD>
<A HREF="/home"><IMG SRC ="/imges/hom.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/search"><IMG SRC="/images/search.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/help"><IMG SRC="/images/help.gif"></A>
</TD>
正则表达式
(<[Aa]\s+[^>]+>\s*)?<[Ii][Mm][Gg]\s+[^>]+>(?(1)\s*</[Aa]>)

语法：(?(backreference)true-regex)，注意?(1)检查第一个回溯引用是否存在，回溯引用编号不用被转义。
(?(backreference)true-regex|false-regex)

文本
123-456-7890
(123)456-7890
(123)-456-7890
1234567890
123 456 7890
正则表达式
(\()?\d{3}(?(1)\)|-)\d{3}-\d{4}

前后查找条件

文本
11111
22222
33333
44444-4444
正则表达式
\d{5}(?(?=-)-\d{4})

最后编辑于：2019.10.06 21:43:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,013评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,205评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,370评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,168评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,153评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,954评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,271评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,916评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,382评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,877评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,989评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,624评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,209评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,199评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,418评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,401评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,700评论 2赞 345