干货 | 正则表达式入门

我自制了一个视频,记录正则表达式的学习心得!

【干货】8分钟正则表达式入门!_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

以下是文字版:

大家使用操作系统和办公软件的时候,或多或少会使用通配符这个工具,比如打开终端,输入dir *.txt。

然而通配符仅限于问号(?)和星号(*)等等,其中?匹配1个字符,*匹配0到多个字符。这些功能实在太单一了!

作为一名(伪)攻城狮,你可能需要处理大量不同形式的文本,包括新闻稿、程序代码、报表、单词表、诗歌、email、html等等。

我们需要一个所向无敌的“语言”!

那就是!正则表达式!!!

没错,这种功能强大的“通用模式语言”,能够解决几乎一切问题。比如,检查用户提供的电子邮件是否符合正确的语法格式。比如,把制表符分隔的文本改成CSV。比如,批量转换日期格式!比如,找到莎士比亚诗歌中所有重复的单词!比如,为URL添加链接!

PART 1. 思维框架

那么,让我们的主角——正则表达式闪亮登场吧!

正如前面所言,我们可以把正则表达式看成一种“语言”。由单词语法构成,其中语法就是元字符(metacharacter),即具有特殊含义的字符,而单词就是普通字符。按照“语法”把“单词”组合起来,就能实现匹配、搜索和替换的功能。

就像任何语言一样,正则表达式由小的构建模块单元(building block unit)组成,每个单独的构建模块都很简单,但是将它们以无穷多种方式组合就能表达不同的意思。

而我们需要练就一种思维框架,以最准确、精练、易读的方式将它们结合!

在阅读了3本评分最高的正则表达式书籍后,我将正则表达式的知识体系作出如下整理:

按照上面的思维导图,我们将学习正则表达式的基本语法,也就是元字符,分4个部分展开:

PART 2. 元字符

(1)单字符.和转义符\

首先,点号.匹配任意单个字符,例如输入2021.2.5,可以匹配2021/2/5,2021-2-5等日期格式。

如果我们需要匹配点号本身,我们可以在前面加一个转义符\,又称跳脱字符(escape character),将后面的句号由元字符变成普通字符,例如\.txt。注意是反斜杠,不是正斜杠/(表示除法)。

转义符除了这个功效,还有两个作用:

一、将某些非元字符变成元字符序列,例如将<>变成单词分界符\<\>。

二、后面接普通字符时被忽略掉。

下图列举了常用「转义符+字母」构成的元字符序列,均匹配单个字符:

(2)量词:?*+{}

量词紧跟一个单字符(或字符序列)之后,用来指定前者出现的次数。因此不可单独使用。

?问号表示可选项,也就是前面的字符可有可无,数学上的意义是前面的字符出现0~1次。例如t?he。

*星号表示前面的字符出现0~无穷次。例如t*he。

+加号表示前面的字符出现1~无穷次。例如t+he。

除了这三个量词,我们也可以使用{}花括号表示次数区间。例如用[0-9]{6,9}来匹配一行6~9位的连续数字,比如邮政编码和电话,或者用[a-z]{4}表示4位单词。

(3)结构:[]()

[] 字符组、排除型字符组、区间 

[…]方括号表示字符组,匹配其中列出的任意一个字符。比如gr[ae]y,[Ss]treet。

[^…]是排除型字符组,匹配一个在方括号中未列出的字符。比如q[^u]可以匹配不以qu开头的单词,但不能匹配一个字母q。注意方括号内的脱字符^是排除(negate)的意思,后面我们会介绍脱字符^在括号外是分界符,表示行的起始。

在方括号中加入连字符-表示区间,例如H[1-3]可以匹配html中的标题,即H1、H2或H3。我们也可以写成<.?[Hh][1-6]>用来涵盖大小写等情况。

() 子表达式、多选结构和反向引用

(…)可以表示受量词作用的子表达式,比如<HR( *SIZE * = *[0-9]+)?.*>可以匹配size为14的tag,或者未规定size的tag。

括号还有两个作用:

(…|…)是多选结构,匹配竖线分隔两边的任意一个子表达式,比如用(From|Subject|Date):匹配email的不同信息。

(…)(…)\1\2表示反向引用,用\1、\2等表示第一、第二组括号匹配的文本。比如(the).*\1等同于the.*the。

(4)分界符

\b是单词分界符,比如\bcat\b。有时候也可以用\<…\>表示,但各个版本、各个语言不一定都支持这种用法。

至于行分界符,^表示行的起始,$表示行的结束(匹配换行符之前的位置),比如^cat$。也可以用\A和\Z匹配字符串的开头与结尾。

The end!

总结

单字符量词字符组分界符,我们看到小的单元是如何组合成一个个子序列,形成精确、完整的表达式。其中可能包含一些复杂的结构,比如多选结构和反向引用等。

我们也发现,元字符在不同的位置可能代表不同的含义。比如脱字符^在字符组内外,发挥不同的作用。转义符和括号,各有三种功能,等等。

至此就算入门了,可以动手解决很多现实问题。

为了巩固和深化这些知识点,我们需要结合实际案例,多多运用!

下面这些①中英文电子书籍是我比较推荐的,里面有大量练习题,可以在②网站上试着做做:

①参考书籍(按推荐顺序排列):

精通正则表达式 (Mastering Regular Expressions)

正则表达式必知必会 (Sams Teach Yourself Regular Expressions in 10 Minutes)

正则表达式经典实例 (Regular Expressions Cookbook)

②网站:

https://regex101.com/

我收藏了这些书籍的电子版,大家去我的公众号后台回复“regex”可得!

公众号:鸽婆打字机(ID:gepo666)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345