最近在工作中碰到了需要检查日志文件的问题,这就涉及到对日志文件中每条日志的关键字检索,于是我特地学习了下C语言的正则表达式规则,特此跟大家分享。
一、C语言如何使用正则表达式?
C语言使用正则表达式的方法很简单,只需要包含正则表达式头文件即可:
#include<regex.h>
相关函数:
-
regcomp()
:编译正则表达式 -
regexec()
:进行模式匹配 -
regfree()
:当不再需要编译的正则表达式时要将其释放
使用时依次调用这些函数即可。其中特别需要提出是regexec()
函数的最后一个参数,有如下四种选择:
REG_EXTENDED
以功能更加强大的扩展正则表达式的方式进行匹配;
REG_ICASE
匹配字母时忽略大小写;
REG_NOSUB
不用存储匹配后的结果;
REG_NEWLINE
识别换行符号。
一般,我们选择第一个功能更强大的扩展表达式即可。
下面是一个封装这些函数的例子(供参考):
bool matchRegex(const char* pattern, const char* userString)
{
bool result = false;
regex_t regex;
int regexInit = regcomp( ®ex, pattern, REG_EXTENDED );
if( regexInit )
{
//Error print : Compile regex failed
}
else
{
int reti = regexec( ®ex, userString, 0, NULL, 0 );
if( REG_NOERROR != reti )
{
//Error print: match failed!
}
else
{
result = true;
}
}
regfree( ®ex );
return result;
}
二、正则表达式规则
1. 单字符匹配
元字符 | 匹配字符 |
---|---|
\w | 匹配一个字母、数字或下划线 |
\W | 跟\w相反,匹配一个非字母、数字或下划线 |
\s | 匹配一个空格、制表符或换行符 |
\S | 跟\s相反,匹配一个非空格、制表符或换行符 |
\d | 匹配一个数字 |
\D | 跟\d相反,匹配一个非数字 |
. | 匹配除换行符之外的任意字符 |
举例:
字符串:Hi, 2016!
表达式:\\w\\w\\W\\s\\S\\d.\\D
注意:因为C语言解析字符串时也会区分转义字符'\',所以我们的正则表达式需要在每个转移字符前再加一个'\'才可以,像"\\w"
2.字符数量匹配
元字符 | 匹配字符 |
---|---|
? | 前面的字符不出现或这只出现一次 |
+ | 前面的字符至少出现1次 |
* | 前面的字符重复任意多次,包括0次 |
{3} | 前面的字符出现3次 |
{1,3} | 前面的字符至少出现1次,最多出现3次 |
举例:
字符串:Hi, 20160422!
表达式:\\w{2},\\s2?0+1*\\d{1,5}!
3.字符位置匹配
元字符 | 匹配字符 |
---|---|
^ | 匹配一行的开始 |
$ | 匹配一行的结尾 |
举例:
字符串:Hi, 20160422!
表达式:^Hi,\\s\\d{8}!$
4.选择匹配
元字符 | 匹配字符 |
---|---|
l | 分隔符,用作或匹配 |
[0-9a-z] | 中括号内字符任意匹配其中一个,此处匹配一个数字或者小写字母 |
[^0-9a-z] | 中括号内的^ 为反向匹配字符,此处匹配一个非数字和小写字母 |
(abc) | 固定匹配,把abc作为一个整体来匹配 |
举例:
字符串:www.123123123e5rt6yDF.com
表达式:\\w{3}\\.(123){3}[5-6e-y]{6}[^5-6e-y]{2}\\s(com|COM)$
三、最后
本文只介绍了正则表达式的一部分匹配规则,大多是常用的,还有些更高级的用法等以后用到了再更新。另外,文中匹配时举的例子都是为了便于理解而举的,实际使用时可以更精简。