DB version: 5.7.25-log 和 8.0.18
一、MySQL5.7中正则表达式
1.RLIKE()
为REGEXP同义词,见下
2.REGEXP()
完整表达式 expr REGEXP pat
> 如果字符串expr与模式pat指定的正则表达式匹配,则返回1,否则返回0。
> 如果expr或pat为NULL,则返回值为NULL。
> 正则表达式规则明细及使用案例见下方。
3.NOT REGEXP()
完整表达式 expr NOT REGEXP pat
或者expr NOT RLIKE pat
。
与NOT (expr REGEXP pat)
相同。
正则表达式规则
^ 匹配字符串的开始
mysql> SELECT 'fo\nfo' REGEXP '^fo','ffo\nfo' REGEXP '^fo';
+-----------------------+------------------------+
| 'fo\nfo' REGEXP '^fo' | 'ffo\nfo' REGEXP '^fo' |
+-----------------------+------------------------+
| 1 | 0 |
+-----------------------+------------------------+
$ 匹配字符串的结尾
mysql> SELECT 'fo\nfoo' REGEXP 'fo$','ffo\nfo' REGEXP 'fo$';
+------------------------+------------------------+
| 'fo\nfoo' REGEXP 'fo$' | 'ffo\nfo' REGEXP 'fo$' |
+------------------------+------------------------+
| 0 | 1 |
+------------------------+------------------------+
. 匹配任何字符(包括回车和换行符)
mysql> SELECT 'fo\nfo' REGEXP 'fo.f','fo\nfo' REGEXP 'fo.o';
+------------------------+------------------------+
| 'fo\nfo' REGEXP 'fo.f' | 'fo\nfo' REGEXP 'fo.o' |
+------------------------+------------------------+
| 1 | 0 |
+------------------------+------------------------+
o* 匹配字符o出现0次或多次
mysql> SELECT 'fo\nfo' REGEXP 'fo*','fo\nfo' REGEXP 'fo*f','fo\nfo' REGEXP 'fo*o';
+-----------------------+------------------------+------------------------+
| 'fo\nfo' REGEXP 'fo*' | 'fo\nfo' REGEXP 'fo*f' | 'fo\nfo' REGEXP 'fo*o' |
+-----------------------+------------------------+------------------------+
| 1 | 0 | 1 |
+-----------------------+------------------------+------------------------+
o+ 匹配字符o出现1次或多次
mysql> SELECT 'fo\nfo' REGEXP 'fo+','fo\nfo' REGEXP 'fo+f','fo\nfo' REGEXP 'fo+o';
+----------------------+------------------------+------------------------+
| 'fo\nfo' REGEXP 'fo+' | 'fo\nfo' REGEXP 'fo+f' | 'fo\nfo' REGEXP 'fo+o' |
+----------------------+------------------------+------------------------+
| 1 | 0 | 0 |
+----------------------+------------------------+------------------------+
o? 匹配字符o出现0次或1次
mysql> SELECT 'fo\nfo' REGEXP 'fo?','fo\nfo' REGEXP 'fo?f','fo\nfo' REGEXP 'fo?o';
+-----------------------+------------------------+------------------------+
| 'fo\nfo' REGEXP 'fo?' | 'fo\nfo' REGEXP 'fo?f' | 'fo\nfo' REGEXP 'fo?o' |
+-----------------------+------------------------+------------------------+
| 1 | 0 | 1 |
+-----------------------+------------------------+------------------------+
de|abc 匹配字符串 de 或者 abc,可结合上面的 ^ $ * + ? 等使用
mysql> SELECT 'finded' REGEXP 'de|abc','dest' REGEXP '^(de|abc)','dabcabc' REGEXP '(de|abc)?','rest' REGEXP 'de|abc';
+--------------------------+---------------------------+------------------------------+------------------------+
| 'finded' REGEXP 'de|abc' | 'dest' REGEXP '^(de|abc)' | 'dabcabc' REGEXP '(de|abc)?' | 'rest' REGEXP 'de|abc' |
+--------------------------+---------------------------+------------------------------+------------------------+
| 1 | 1 | 1 | 0 |
+--------------------------+---------------------------+------------------------------+------------------------+
(abc)* 匹配字符串abc出现0次或多次,同上 o*
mysql> SELECT 'abcabc' REGEXP '(abc)*','abcab' REGEXP '(abc)*','e' REGEXP '(abcd)*';
+--------------------------+-------------------------+----------------------+
| 'abcabc' REGEXP '(abc)*' | 'abcab' REGEXP '(abc)*' | 'e' REGEXP '(abcd)*' |
+--------------------------+-------------------------+----------------------+
| 1 | 1 | 1 |
+--------------------------+-------------------------+----------------------+
{1}, {2,3} {n}和{m,n}符号提供了一种更通用的方式来编写正则表达式,以匹配模式的前一个原子(或“块”)的多次出现。m和n是整数,在0 到 255 之间,且 m <= n 。
如以下形式:
o* 可以被改写 成 o{0,}
o+ 可以被改写 成 o{1,}
o? 可以被改写 成 o{0,1}
mysql> SELECT 'abcde' REGEXP 'a[bcd]{2}e' , 'abcde' REGEXP 'a[bcd]{3}e' ,'abbbe' REGEXP 'a[bcd]{3}e' , 'abcde' REGEXP 'a[bcd]{1,5}e','abcde' REGEXP 'a[bcd]{4,5}e' ;
+-----------------------------+-----------------------------+-----------------------------+-------------------------------+-------------------------------+
| 'abcde' REGEXP 'a[bcd]{2}e' | 'abcde' REGEXP 'a[bcd]{3}e' | 'abbbe' REGEXP 'a[bcd]{3}e' | 'abcde' REGEXP 'a[bcd]{1,5}e' | 'abcde' REGEXP 'a[bcd]{4,5}e' |
+-----------------------------+-----------------------------+-----------------------------+-------------------------------+-------------------------------+
| 0 | 1 | 1 | 1 | 0 |
+-----------------------------+-----------------------------+-----------------------------+-------------------------------+-------------------------------+
[abc]{3} 表示匹配 a、b、c三个字符任意一个或多个出现三次,如 aaa、aab、abc、ccc等均符合。
[bcd]{1,5} 表示匹配 a、b、c三个字符任意一个或多个出现1次到5次,如 a、ab、aaa、aab、abcc、aaaaa、bbccd等均符合。
[0-9X] 匹配0-9的数字或X;
[a-dX] 匹配a-d的所有字母(即 a,b,c,d)或X;
[^a-dX] 匹配非a-d、非X的字母。
mysql> SELECT 'aXbc' REGEXP '[a-dXYZ]','aXbc' REGEXP '^[a-dXYZ]$','aXbc' REGEXP '^[a-dXYZ]{4}$','aXbc' REGEXP '^[a-dXYZ]+$','aXbc' REGEXP '^[^a-dXYZ]+$','google' REGEXP '^[^a-dXYZ]+$' ;
+--------------------------+----------------------------+-------------------------------+-----------------------------+------------------------------+--------------------------------+
| 'aXbc' REGEXP '[a-dXYZ]' | 'aXbc' REGEXP '^[a-dXYZ]$' | 'aXbc' REGEXP '^[a-dXYZ]{4}$' | 'aXbc' REGEXP '^[a-dXYZ]+$' | 'aXbc' REGEXP '^[^a-dXYZ]+$' | 'google' REGEXP '^[^a-dXYZ]+$' |
+--------------------------+----------------------------+-------------------------------+-----------------------------+------------------------------+--------------------------------+
| 1 | 0 | 1 | 1 | 0 | 1 |
+--------------------------+----------------------------+-------------------------------+-----------------------------+------------------------------+--------------------------------+
[.characters.] 在方括号表达式(使用 '[' 和 ']' 编写)中,匹配该整理元素的字符序列。 字符可以是单个字符,也可以是字符名称,例如newline。
附录1 列出了允许的字符名称。
mysql> SELECT '~' REGEXP '[[.~.]]','~' REGEXP '[[.tilde.]]';
+----------------------+--------------------------+
| '~' REGEXP '[[.~.]]' | '~' REGEXP '[[.tilde.]]' |
+----------------------+--------------------------+
| 1 | 1 |
+----------------------+--------------------------+
[=character_class=] 在方括号表达式(使用 '[' 和 ']' 编写)中,[= character_class =]表示等价类。
它匹配所有具有相同归类值的字符,包括自身。
例如,如果 o 和(+)是等价类的成员,则[[= o =]],[[=(+)=]]和[o(+)]都是同义词。
等效类不能用作范围的末尾。
[:character_class:] 在方括号表达式(使用 '[' 和 ']' 编写)中,[:character_class:]表示与属于该类的所有字符匹配的字符类。
附录2 列出了允许的字符类名称。
mysql> SELECT 'justalnums' REGEXP '[[:alnum:]]+' , '012345' REGEXP '[[:digit:]]+' , 'abc' REGEXP '[[:digit:]]+';
+------------------------------------+--------------------------------+-----------------------------+
| 'justalnums' REGEXP '[[:alnum:]]+' | '012345' REGEXP '[[:digit:]]+' | 'abc' REGEXP '[[:digit:]]+' |
+------------------------------------+--------------------------------+-----------------------------+
| 1 | 1 | 0 |
+------------------------------------+--------------------------------+-----------------------------+
[[:<:]], [[:>:]] 这些标记代表单词边界,它们分别匹配单词的开头和结尾。
mysql> SELECT 'asd asd word dasda ads ' REGEXP '[[:<:]]word[[:>:]]','我是 一句 完整的 话' REGEXP '[[:<:]]完整的[[:>:]]','我是 一句 完整的 话' REGEXP '[[:<:]]完整[[:>:]]';
+---------------------------------------------------------+-----------------------------------------------------+---------------------------------------------------+
| 'asd asd word dasda ads ' REGEXP '[[:<:]]word[[:>:]]' | '我是 一句 完整的 话' REGEXP '[[:<:]]完整的[[:>:]]' | '我是 一句 完整的 话' REGEXP '[[:<:]]完整[[:>:]]' |
+---------------------------------------------------------+-----------------------------------------------------+---------------------------------------------------+
| 1 | 1 | 0 |
+---------------------------------------------------------+-----------------------------------------------------+---------------------------------------------------+
二、MySQL8 新增正则表达式
1.REGEXP_LIKE()
REGEXP 和 RLIKE 是 REGEXP_LIKE() 的同义词。
使用明细见上面5.7版本 '正则表达式规则'
2.REGEXP_INSTR()
完整表达式 REGEXP_INSTR(expr, pat[, pos[, occurrence[, return_option[, match_type]]]])
> 返回与模式 pat 指定的正则表达式匹配的字符串 expr 的子字符串的起始索引,如果没有匹配则为0。
> 如果 expr 或 pat 为NULL,则返回值为NULL。字符索引从1开始。
完整表达式各参数含义:
pos
: 从expr
的pos
位置开始搜索,默认为1;
occurrence
: 返回第occurrence
个匹配的子字符串,默认为1;
return_option
: 返回类型,如果为0,则返回匹配到的子字符串的第一个字符的位置,如果为1,则返回匹配到的子字符串最后一个字符的位置+1,默认为0;
match_type
: 匹配类型,包含以下值,可同时使用一个或多个;
如果在match_type中指定了矛盾选项的字符,则以最右边的字符为准。
c
: 匹配时区分大小写
i
: 匹配时不区分大小写
m
: 多行模式。在字符串内识别行结束符。默认行为是只在字符串表达式的开始和结束处匹配行结束符。
n
: 字符.
匹配行结束,默认.
匹配到行结尾停止。
u
: 仅使用unix上的行结束符。只有换行符被识别为行结束,能够被.
^
和$
匹配。
m
n
u
三个参数不知如何举例。
mysql> SELECT REGEXP_INSTR('dog cat dog pig', 'dog'),REGEXP_INSTR('dog cat dog pig', 'dog',2,1,0),REGEXP_INSTR('dog cat dog pig', 'dog',2,1,1),REGEXP_INSTR('dog cat dog pig', 'Dog',2,1,1,'c'),REGEXP_INSTR('aa aaa aaaa', 'a{4}');
+----------------------------------------+----------------------------------------------+----------------------------------------------+--------------------------------------------------+-------------------------------------+
| REGEXP_INSTR('dog cat dog pig', 'dog') | REGEXP_INSTR('dog cat dog pig', 'dog',2,1,0) | REGEXP_INSTR('dog cat dog pig', 'dog',2,1,1) | REGEXP_INSTR('dog cat dog pig', 'Dog',2,1,1,'c') | REGEXP_INSTR('aa aaa aaaa', 'a{4}') |
+----------------------------------------+----------------------------------------------+----------------------------------------------+--------------------------------------------------+-------------------------------------+
| 1 | 9 | 12 | 0 | 8 |
+----------------------------------------+----------------------------------------------+----------------------------------------------+--------------------------------------------------+-------------------------------------+
3.REGEXP_REPLACE()
完整表达式 REGEXP_REPLACE(expr, pat, repl[, pos[, occurrence[, match_type]]])
> 用替换字符串repl
替换字符串expr
中与模式pat
指定的正则表达式匹配的匹配项,并返回结果字符串。
> 如果expr,pat或repl为NULL,则返回值为NULL
pos
,occurrence
,match_type
参数含义见REGEXP_INSTR()
mysql> SELECT REGEXP_REPLACE('a b c', 'b', 'X'),REGEXP_REPLACE('abc def ghi', '[a-z]+', 'X', 1, 3), REGEXP_REPLACE('abc def ghi', 'def', 'X', 2,1);
+-----------------------------------+----------------------------------------------------+------------------------------------------------+
| REGEXP_REPLACE('a b c', 'b', 'X') | REGEXP_REPLACE('abc def ghi', '[a-z]+', 'X', 1, 3) | REGEXP_REPLACE('abc def ghi', 'def', 'X', 2,1) |
+-----------------------------------+----------------------------------------------------+------------------------------------------------+
| a X c | abc def X | abc X ghi |
+-----------------------------------+----------------------------------------------------+------------------------------------------------+
4.REGEXP_SUBSTR()
完整表达式 REGEXP_SUBSTR(expr, pat[, pos[, occurrence[, match_type]]])
> 返回与模式pat
指定的正则表达式匹配的字符串expr
的子字符串;如果不匹配,则返回NULL。
> 如果expr或pat为NULL,则返回值为NULL。
pos
,occurrence
,match_type
参数含义见REGEXP_INSTR()
mysql> SELECT REGEXP_SUBSTR('abc def ghi', '[a-z]+'),REGEXP_SUBSTR('abc def ghi', '[a-z]+', 1, 3),REGEXP_SUBSTR('abc def ghi', '[a-z]+', 4, 2);
+----------------------------------------+----------------------------------------------+----------------------------------------------+
| REGEXP_SUBSTR('abc def ghi', '[a-z]+') | REGEXP_SUBSTR('abc def ghi', '[a-z]+', 1, 3) | REGEXP_SUBSTR('abc def ghi', '[a-z]+', 4, 2) |
+----------------------------------------+----------------------------------------------+----------------------------------------------+
| abc | ghi | ghi |
+----------------------------------------+----------------------------------------------+----------------------------------------------+