我自制了一个视频,记录正则表达式的学习心得!
【干货】8分钟正则表达式入门!_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
以下是文字版:
大家使用操作系统和办公软件的时候,或多或少会使用通配符这个工具,比如打开终端,输入dir *.txt。
然而通配符仅限于问号(?)和星号(*)等等,其中?匹配1个字符,*匹配0到多个字符。这些功能实在太单一了!
作为一名(伪)攻城狮,你可能需要处理大量不同形式的文本,包括新闻稿、程序代码、报表、单词表、诗歌、email、html等等。
我们需要一个所向无敌的“语言”!
那就是!正则表达式!!!
没错,这种功能强大的“通用模式语言”,能够解决几乎一切问题。比如,检查用户提供的电子邮件是否符合正确的语法格式。比如,把制表符分隔的文本改成CSV。比如,批量转换日期格式!比如,找到莎士比亚诗歌中所有重复的单词!比如,为URL添加链接!
PART 1. 思维框架
那么,让我们的主角——正则表达式闪亮登场吧!
正如前面所言,我们可以把正则表达式看成一种“语言”。由单词和语法构成,其中语法就是元字符(metacharacter),即具有特殊含义的字符,而单词就是普通字符。按照“语法”把“单词”组合起来,就能实现匹配、搜索和替换的功能。
就像任何语言一样,正则表达式由小的构建模块单元(building block unit)组成,每个单独的构建模块都很简单,但是将它们以无穷多种方式组合就能表达不同的意思。
而我们需要练就一种思维框架,以最准确、精练、易读的方式将它们结合!
在阅读了3本评分最高的正则表达式书籍后,我将正则表达式的知识体系作出如下整理:
按照上面的思维导图,我们将学习正则表达式的基本语法,也就是元字符,分4个部分展开:
PART 2. 元字符
(1)单字符.和转义符\
首先,点号.匹配任意单个字符,例如输入2021.2.5,可以匹配2021/2/5,2021-2-5等日期格式。
如果我们需要匹配点号本身,我们可以在前面加一个转义符\,又称跳脱字符(escape character),将后面的句号由元字符变成普通字符,例如\.txt。注意是反斜杠,不是正斜杠/(表示除法)。
转义符除了这个功效,还有两个作用:
一、将某些非元字符变成元字符序列,例如将<>变成单词分界符\<\>。
二、后面接普通字符时被忽略掉。
下图列举了常用「转义符+字母」构成的元字符序列,均匹配单个字符:
(2)量词:?*+{}
量词紧跟一个单字符(或字符序列)之后,用来指定前者出现的次数。因此不可单独使用。
?问号表示可选项,也就是前面的字符可有可无,数学上的意义是前面的字符出现0~1次。例如t?he。
*星号表示前面的字符出现0~无穷次。例如t*he。
+加号表示前面的字符出现1~无穷次。例如t+he。
除了这三个量词,我们也可以使用{}花括号表示次数区间。例如用[0-9]{6,9}来匹配一行6~9位的连续数字,比如邮政编码和电话,或者用[a-z]{4}表示4位单词。
(3)结构:[]()
[] 字符组、排除型字符组、区间
[…]方括号表示字符组,匹配其中列出的任意一个字符。比如gr[ae]y,[Ss]treet。
[^…]是排除型字符组,匹配一个在方括号中未列出的字符。比如q[^u]可以匹配不以qu开头的单词,但不能匹配一个字母q。注意方括号内的脱字符^是排除(negate)的意思,后面我们会介绍脱字符^在括号外是分界符,表示行的起始。
在方括号中加入连字符-表示区间,例如H[1-3]可以匹配html中的标题,即H1、H2或H3。我们也可以写成<.?[Hh][1-6]>用来涵盖大小写等情况。
() 子表达式、多选结构和反向引用
(…)可以表示受量词作用的子表达式,比如<HR( *SIZE * = *[0-9]+)?.*>可以匹配size为14的tag,或者未规定size的tag。
括号还有两个作用:
(…|…)是多选结构,匹配竖线分隔两边的任意一个子表达式,比如用(From|Subject|Date):匹配email的不同信息。
(…)(…)\1\2表示反向引用,用\1、\2等表示第一、第二组括号匹配的文本。比如(the).*\1等同于the.*the。
(4)分界符
\b是单词分界符,比如\bcat\b。有时候也可以用\<…\>表示,但各个版本、各个语言不一定都支持这种用法。
至于行分界符,^表示行的起始,$表示行的结束(匹配换行符之前的位置),比如^cat$。也可以用\A和\Z匹配字符串的开头与结尾。
The end!
总结
从单字符、量词、字符组到分界符,我们看到小的单元是如何组合成一个个子序列,形成精确、完整的表达式。其中可能包含一些复杂的结构,比如多选结构和反向引用等。
我们也发现,元字符在不同的位置可能代表不同的含义。比如脱字符^在字符组内外,发挥不同的作用。转义符和括号,各有三种功能,等等。
至此就算入门了,可以动手解决很多现实问题。
为了巩固和深化这些知识点,我们需要结合实际案例,多多运用!
下面这些①中英文电子书籍是我比较推荐的,里面有大量练习题,可以在②网站上试着做做:
①参考书籍(按推荐顺序排列):
精通正则表达式 (Mastering Regular Expressions)
正则表达式必知必会 (Sams Teach Yourself Regular Expressions in 10 Minutes)
正则表达式经典实例 (Regular Expressions Cookbook)
②网站:
我收藏了这些书籍的电子版,大家去我的公众号后台回复“regex”可得!
公众号:鸽婆打字机(ID:gepo666)