.NET正则表达式

.NET 正则表达式

正则表达式提供了功能强大、灵活而又高效的方法来处理文本。 正则表达式丰富的泛模式匹配表示法使你可以快速分析大量文本,以便:

  • 查找特定字符模式。
  • 验证文本以确保它匹配预定义模式(如电子邮件地址)。
  • 提取、编辑、替换或删除文本子字符串。
  • 将提取的字符串添加到集合中,以便生成报告。
    对于处理字符串或分析大文本块的许多应用程序而言,正则表达式是不可缺少的工具。

正则表达式的工作方式

使用正则表达式处理文本的中心构件是正则表达式引擎(由 .NET 中的 System.Text.RegularExpressions.Regex 对象表示)。 使用正则表达式处理文本至少要求向该正则表达式引擎提供以下两方面的信息:

  • 要在文本中标识的正则表达式模式。
    在 .NET 中,正则表达式模式用特殊的语法或语言定义,该语法或语言与 Perl 5 正则表达式兼容,并添加了一些其他功能,例如从右到左匹配。 有关更多信息,请参见正则表达式语言 - 快速参考
  • 要为正则表达式模式分析的文本。

Regex类的方法使你可以执行以下操作:

有关正则表达式对象模型的概述,请参见正则表达式对象模型

若要详细了解正则表达式语言,请参阅正则表达式语言-快速参考,或下载和打印下面的小册子之一:

正则表达式示例

String类包括许多字符串搜索和替换方法,当你要在较大字符串中定位文本字符串时,可以使用这些方法。 当你希望在较大字符串中定位若干子字符串之一时,或者当你希望在字符串中标识模式时,正则表达式最有用,如以下示例所示。
警告
如果使用 System.Text.RegularExpressions 处理不受信任的输入,则传递一个超时。 恶意用户可能会向 RegularExpressions 提供输入,从而导致拒绝服务攻击。 使用 RegularExpressions 的 ASP.NET Core 框架 API 会传递一个超时。

提示
System.Web.RegularExpressions 命名空间包含大量正则表达式对象,这些对象实现预定义的正则表达式模式,用于分析 HTML、XML 和 ASP.NET 文档中的字符串。 例如,TagRegex 类标识字符串中的开始标记,CommentRegex 类标识字符串中的 ASP.NET 注释。

示例 1:替换子字符串

假设一个邮件列表包含一些姓名,这些姓名有时包括称谓(Mr.、Mrs.、Miss 或 Ms.)以及姓氏和名字。 如果你从列表中生成信封标签时不希望包括称谓,则可以使用正则表达式移除称谓,如以下示例所示。

using System;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      string pattern = "(Mr\\.? |Mrs\\.? |Miss |Ms\\.? )";
      string[] names = { "Mr. Henry Hunt", "Ms. Sara Samuels",
                         "Abraham Adams", "Ms. Nicole Norris" };
      foreach (string name in names)
         Console.WriteLine(Regex.Replace(name, pattern, String.Empty));
   }
}
// The example displays the following output:
//    Henry Hunt
//    Sara Samuels
//    Abraham Adams
//    Nicole Norris

正则表达式模式 (Mr\.? |Mrs\.? |Miss |Ms\.? ) 可匹配任何“Mr”、“Mr.”、“Mrs”、“Mrs.”、“Miss”、“Ms”或“Ms.”。 对 Regex.Replace 方法的调用会将匹配的字符串替换为 String.Empty;换句话说,将其从原始字符串中移除。

示例 2:识别重复单词

意外地重复单词是编写者常犯的错误。 可以使用正则表达式标识重复的单词,如以下示例所示。

using System;
using System.Text.RegularExpressions;

public class Class1
{
   public static void Main()
   {
      string pattern = @"\b(\w+?)\s\1\b";
      string input = "This this is a nice day. What about this? This tastes good. I saw a a dog.";
      foreach (Match match in Regex.Matches(input, pattern, RegexOptions.IgnoreCase))
         Console.WriteLine("{0} (duplicates '{1}') at position {2}",
                           match.Value, match.Groups[1].Value, match.Index);
   }
}
// The example displays the following output:
//       This this (duplicates 'This') at position 0
//       a a (duplicates 'a') at position 66

正则表达式模式 \b(\w+?)\s\1\b 的解释如下:

模式 解释
\b 在单词边界处开始。
(\w+?) 匹配一个或多个单词字符,但字符要尽可能的少。 它们一起构成可称为 \1 的组。
\s 与空白字符匹配。
\1 与等于名为 \1 的组的子字符串匹配。
\b 与字边界匹配。

通过将正则表达式选项设置为 Regex.Matches,调用 RegexOptions.IgnoreCase 方法。 因此,匹配操作不区分大小写,此示例将子字符串“This this”标识为重复。
输入字符串包括子字符串“this? This”。 但是,由于插入标点符号,该子字符串不被标识为重复。

示例 3:动态生成区分区域性的正则表达式

下面的示例演示如何将正则表达式的功能与 .NET 的全球化功能所提供的灵活性结合在一起。 它使用 NumberFormatInfo 对象确定系统的当前区域性设置中货币值的格式。 然后使用该信息动态构造从文本提取货币值的正则表达式。 对于每个匹配,它提取仅包含数字字符串的子组,将其转换为 Decimal值,然后计算累计值。

using System;
using System.Collections.Generic;
using System.Globalization;
using System.Text.RegularExpressions;

public class Example
{
   public static void Main()
   {
      // Define text to be parsed.
      string input = "Office expenses on 2/13/2008:\n" +
                     "Paper (500 sheets)                      $3.95\n" +
                     "Pencils (box of 10)                     $1.00\n" +
                     "Pens (box of 10)                        $4.49\n" +
                     "Erasers                                 $2.19\n" +
                     "Ink jet printer                        $69.95\n\n" +
                     "Total Expenses                        $ 81.58\n";

      // Get current culture's NumberFormatInfo object.
      NumberFormatInfo nfi = CultureInfo.CurrentCulture.NumberFormat;
      // Assign needed property values to variables.
      string currencySymbol = nfi.CurrencySymbol;
      bool symbolPrecedesIfPositive = nfi.CurrencyPositivePattern % 2 == 0;
      string groupSeparator = nfi.CurrencyGroupSeparator;
      string decimalSeparator = nfi.CurrencyDecimalSeparator;

      // Form regular expression pattern.
      string pattern = Regex.Escape( symbolPrecedesIfPositive ? currencySymbol : "") +
                       @"\s*[-+]?" + "([0-9]{0,3}(" + groupSeparator + "[0-9]{3})*(" +
                       Regex.Escape(decimalSeparator) + "[0-9]+)?)" +
                       (! symbolPrecedesIfPositive ? currencySymbol : "");
      Console.WriteLine( "The regular expression pattern is:");
      Console.WriteLine("   " + pattern);

      // Get text that matches regular expression pattern.
      MatchCollection matches = Regex.Matches(input, pattern,
                                              RegexOptions.IgnorePatternWhitespace);
      Console.WriteLine("Found {0} matches.", matches.Count);

      // Get numeric string, convert it to a value, and add it to List object.
      List<decimal> expenses = new List<Decimal>();

      foreach (Match match in matches)
         expenses.Add(Decimal.Parse(match.Groups[1].Value));

      // Determine whether total is present and if present, whether it is correct.
      decimal total = 0;
      foreach (decimal value in expenses)
         total += value;

      if (total / 2 == expenses[expenses.Count - 1])
         Console.WriteLine("The expenses total {0:C2}.", expenses[expenses.Count - 1]);
      else
         Console.WriteLine("The expenses total {0:C2}.", total);
   }
}
// The example displays the following output:
//       The regular expression pattern is:
//          \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?)
//       Found 6 matches.
//       The expenses total $81.58.

在当前区域性设置为“英语 - 美国”(en-US) 的计算机上,该示例动态生成正则表达式 \$\s*[-+]?([0-9]{0,3}(,[0-9]{3})*(\.[0-9]+)?)。 此正则表达式模式可以按以下方式解释:

模式 解释
$ 在输入字符串中查找美元符号 () 的一个匹配项。 正则表达式模式字符串包含一个反斜杠来指示按字面解释美元符号而非将其作为正则表达式定位点。 (单独的 符号将指示正则表达式引擎应尝试在字符串的末尾开始匹配。)为了确保当前区域性设置的货币符号不被错误解释为正则表达式符号,该示例调用 Regex.Escape 方法使该字符转义。
\s* 查找空白字符的零个或多个匹配项。
[-+]? 查找正号或负号的零个或一个匹配项。
([0-9]{0,3}(,[0-9]{3})*(.[0-9]+)?) 括起此表达式的外部括号将表达式定义为捕获组或子表达式。 如果找到匹配项,则有关匹配字符串的此部分的信息可以从第二个 Group 对象中检索(该对象位于 GroupCollection 属性所返回的 Match.Groups 对象中)。 (集合中的第一个元素表示整个匹配。)
[0-9]{0,3} 查找十进制数字 0 到 9 的零到三个匹配项。
(,[0-9]{3})* 查找后跟三个十进制数字的组分隔符的零个或多个匹配项。
. 查找小数分隔符的一个匹配项。
[0-9]+ 查找一个或多个十进制数字。
(.[0-9]+)? 查找后跟至少一个十进制数字的小数分隔符的零个或一个匹配项。

如果在输入字符串中找到所有这些子模式,则匹配成功,并将包含有关匹配的信息的 Match 对象添加到 MatchCollection 对象。

相关主题

Title 描述
正则表达式语言 - 快速参考 提供有关可用来定义正则表达式的字符集、运算符和构造的信息。
正则表达式对象模型 提供演示如何使用正则表达式类的信息和代码示例。
正则表达式行为的详细信息 介绍了 .NET 正则表达式的功能和行为。

在 Visual Studio 中使用正则表达式

参考

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容

  • 今天给大家转载一篇非常简单易懂、深入浅出的正则表达式教程,教程作者deerchao是一位非常有互联网精神的软件工程...
    5cb608806559阅读 2,244评论 0 1
  • 正则表达式 正则表达式(regular expression,简写为 regexes)是用来操作和检验字符串数据的...
    JeetChan阅读 1,000评论 0 1
  • c regex 编译正则表达式 regcomp() 匹配正则表达式 regexec() 释放正则表达式 regfr...
    赤龙绕月阅读 929评论 0 1
  • 正则表达式 正则的元字符 w3c的零基础教程:https://www.w3cschool.cn/regexp/zo...
    link_king阅读 446评论 0 0
  • 正则表达式是正则表达式引擎尝试匹配输入文本的一种模式。 模式由一个或多个字符文本、运算符或构造组成。 有关简要介绍...
    艾瑞克曾阅读 344评论 0 0