正则表达式入门

image.png

简书不维护了,欢迎关注我的知乎:波罗学的个人主页

上篇博文简单体验了正则表达式,文中最后在示例引入正则表达式的元字符。本篇博文将在此基础上继续介绍关于正则的知识。涉及内容元字符介绍,字符匹配位置匹配,还有关于重复正则的设置。不涉及太多高级特性,目标是帮助大家掌握正则的基本使用。

元字符

元字符是正则里面的一些特殊符号,用来代指一些特殊的含义。
元字符或许类似于编程语言中的关键词,了解了各个关键词的使用,对语言的语法就有了基本的掌握。同样掌握了元字符,基本掌握了正则表达式的使用,并对正则的各种使用场景有了清楚的认识,。

上篇博文中已经列举了一些元字符,如

  • \b代表单词边界
  • {}用于指定重复规则,如1{3},表示重复出现3次1
    等等

当然,还有很多其他元字符,如

  • \w代表数字、字母、下划线这类字符
  • \s代表空白符,包括空格,水平制表符等
  • $代表文本结尾位置
    等等

这里只展示了部分,在后面介绍正则的具体使用时会涉及更多。

注:当不需要元字符的特殊功能时,可以使用”\”转义,使用其本义,这种用法是不是感觉似曾相识呢?

字符匹配

字符匹配用于匹配某类字符,可分为自定义与预定义

  • 自定义字符类,利用正则的语法把一些字符归类,如p、[123456789]、[a-z]等
  • 预定义字符类,将某些常用规则预定义为一类,用元字符表示,如数字为\d

自定义字符类

自定义匹配规则多多,这里先介绍关于自定义正则的基本编写。首先下面列出关于定义字符匹配的一些元字符

[]      指定字符范围的左右边界,其中列出的所有字符都满足匹配规则-       指定连续字符的两端字符,其之间字符都匹配,如a-z,即表示小写字母^       当^符号在[]时,^表示反义,如[^a-z]表示不是小写字母的字符

示例演示,目标是搜索出不是数字、字母、下划线与空格的字符。测试文本如下

_ a , b . i - 2 ^ 3 \ C 5 9 A 

可以很容易看出这里面有四个规则,即

  • 数字
  • 字母,注意是大小写字母
  • 下划线
  • 空格

但这里指定的前提是不满足上面四个规则,则正则表达式为[^0-9a-zA-Z_ ]
下面为正则验证工具的测试结果

[图片上传中...(image-e5c0a7-1551886971882-4)]

从上图可看出,这里匹配到了**, . - ^ \ **这五个符号,排除了我们指定的那些字符,完成我们的目标

掌握单个字符的自定义规则应该是用好正则的基石吧,即使有了下面要说的预定义字符类。

预定义字符类

预定义字符类是把我们常用的一些字符类预定义,并用特定的元字符表示,如数字类的自定义正则为[0-9],而其预定义正则为\d。

已知预定义的字符类如下

.       匹配换行符以外的任意字符,等价于[^\n]
\d      匹配数字,等价于[0-9]
\D      \d的反义,匹配不是数字的字符,等价于[^0-9]
\w      匹配字母、数字、下划线,等价于[0-9a-zA-Z_],当选中unicode模式,支持汉字匹配
\W      \w的反义,匹配不是数字、下划线、字母的字符,等价于[^0-9a-zA-Z_]
\s      匹配空白字符,包括空格、tab等空白字符,等价于[\t\n\x0B\f\r]
\S      \s的反义,匹配不是空白字符的字符,等价于[^\t\n\x0B\f\r]...

上面都是一些预定义的正则规则,说明中也列出了其对应的自定义规则。将这些常用规则预定义好,我们使用起来也很是方便。

示例演示,假设现有文本如下

xxw 3d ja xxw 1 23 xuj2 23d xa2 23 

找出其中所有满足连续为3个字母、数字或下划线(即\w),1个空格与1个数字连接的文本,可以写出正则为”\w\w\w\s\d”。验证工具测试结果为

image

如上,找出了所有满足条件的文本,如”xxw 3”。如果要支持中文,需选择支持unicode模式,如下所示

image

可以看出,这里除了选择了全局模式(g)外,还支持了unicode模式(u)。这样就可以实现对中文匹配的支持了。关于正则表达式中的模式这里暂不详细介绍。

位置匹配

位置匹配主要用于匹配指定的位置,既不占用空间,也不代表特定字符,如开头、结尾和单词边界等。如果上面的字符匹配,我们希望匹配规则只作用于文本开头,就用到了位置匹配。

正则表达式中关于位置匹配元字符如下

^       匹配文本开始位置$       匹配文本结尾位置\b      匹配单词边界位置\B      匹配非单词边界位置

还是上面同样的文本,但是这次只匹配开头位置的文本。则可写出正则如^\w\w\ws\d,即在上例的正则前面加了元字符^,测试结果如下

image

上图可以看出,此次只有开头的”xxw 3”被匹配到了。如需匹配文本结尾,则正则为\w\w\w\s\d$。还是比较容易理解的哦。

注:这些标示位置的元字符不代表任何特定字符

重复

细心的朋友可能已经注意到,这里在匹配三个\w字符时,连续写了3次\w\w\w。如果我们需要匹配100个\w,是不是需要写100个\w。当然不是,这就需用到元字符中的重复特性了。

正则表达式中关于重复设置如下

?       出现零次或一次+       出现一次或多次*       出现任意次{n}     出现n次 {n,m}   出现n到m次 {n,}    至少出现n次 {0,m}   至多出现m次,属于{n,m}的一种,但比较特殊就单独列出

上面可以满足我们对于查找重复字符所有需求了吧!

好,那么我们下一个目标是,从下面的文本中找出所有至少6个字母的单词

I do not know what I do now is right, those are wrong, and when I finally Laosi when I know these. So I can do now is to try to do well in everything, and then wait to die a natural death.Sometimes I can be very happy to talk to everyone, can be very presumptuous, but no one knows, it is but very deliberatelycamouflage, camouflage; I can make him very happy very happy, but could not find the source of happiness, just giggle.

首先字母的限定需使用[a-zA-Z]指定,最少6个字母,即为 {6,},则正则表达式为\b[a-zA-Z]{6,}\b

使用验证工具测试结果如下

image

从上图可以看出,所有的6个及以上字母的单词都已被搜索了出来,如finally,everything等,其更多的搜索规则如下

  • 如需找出小于6个字母的单词,正则为\b[a-zA-Z]{0,5}\b
  • 如需找出至少1个字母的单词,正则为\b[a-zA-Z]+\b
  • 如需找出为1个字母的单词,正则为\b[a-zA-Z]{1}\b
  • 如需找出单词开头为大写字母的单词,正则为\b[A-Z][a-zA-Z]\b*

了解了重复规则,那上面提到的匹配1000个\w就容易实现了,即\w{1000}

到这里,关于正则基本使用介绍结束。各位读者多多包涵多多建议,谢谢。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容