根据前面的介绍,对分组的引用可能出现在三种场合:
- 在匹配完之后,用
group(num)
之类的方法提取数据 - 在进行正则表达式替换时,用
\num
引用 - 在正则表达式内部,用
\num
引用
但是使用\num
,有可能遇到二义性的问题:如果出现了\10
,它表示第10个捕获分组的引用?还是第一个捕获分组\1
后跟着一个字符0
?
例3-28 可能具有二义性的反向引用
re.sub(r'(\d)', r'\10', '123')
# sre_constants.error: invalid group reference
原来\10
会被解释成“第10个捕获分组匹配的文本”,而不是“第一个捕获分组匹配的文本之后加上字符0”。如果我们希望做到后面这种情况,python提供了\g<num>
表示法,将\10
改写成\g<1>0
,避免了二义性的问题。
例3-29 使用\g<num>
消除二义性
re.sub(r'(\d)', r'\g<1>m', '123') # 1m2m3m
PHP中也有专门的记法解决这类问题,在替换时可以使用\${num}
的写法,准确标注所引用分组的编号,也就是说\${1}0
表示“第一个捕获分组之后加上0”,${10}
表示“第10个捕获分组”。而$10
,在第10和捕获分组存在的情况下,表示该分组;否则视为空字符串。
Python和PHP中的规定明确,所以避免了\num
的二义性;其他语言却不是如此,根据它们的文档,引用捕获分组只有\num
(或$num
)一种记法,这时\10
的二义性就无法避免了。
比如Java对\num
中对num
是这样定义的:**如果是一位数,则引用对应的捕获分组;如果是两位数且存在对应的捕获分组时,引用对应的捕获分组,否则引用一位数编号的捕获分组。