浅析python正则表达式中反斜线的转义功能的原理

2020-11-27 来源：步旅网

本篇文章给大家带来的内容是关于浅析python正则表达式中反斜线的转义功能的原理，有一定的参考价值，有需要的朋友可以参考一下，希望对你有所帮助。

最近深入研读了正则表达式的一本经典著作，对于在python中使用正则表达式时使用反斜线转义功能时有些心得，特与大家分享。

核心思想：在python中使用正则表达式时要切记反斜线具有两层转义功能，如果你要匹配一个反斜线本身时要注意它必须被转义两次。（除非你使用原始字符串，就是字符串前面加r）

我们先来看一个例子：

import re
a = re.match('\','\')

 File "<ipython-input-93-6e1102e416ee>", line 2
 a = re.match('\','\')
 ^
SyntaxError: unexpected character after line continuation character

上面这个例子本身就不合语法要求，那么为什么呢？首先在
python中，因为正则表达式本身是一个字符串，所以它要遵守字符串的规则——反斜线表示转义符
而在正则表达式中反斜线又是一个具有转义功能的元字符，所以反斜线具备了双重转义功能

回到例子中，第一个转义了第二个，此时第二个去除了字符串转义符的身份，但是它还有正则表达式转义元字符的身份，也就是说第二个仍然具备转义功能，那么它转义谁呢？它只能转义第三个，可是第三个它具备两层身份（字符串的转义符和正则表达式的转义元字符）

所以现在有两种可能情况发生：

第一种，第二个无法转义第三个，因为身份不符，一个是正则表达式转义元字符，另一个是字符串转义符

第二种，第二个转义了第三个，但是这种转义也仅仅是去除了一层身份，但是它还有一层身分（转义元字符）结果就是第三个仍然具有转义功能。

总之不管这时发生了哪种情况，第三个最终结果就是仍然具备转义功能，他会转义它后面的单引号，使得整段代码语法错误。

所以正确的写法是再添加一个反斜线，四个反斜线，两两转义之后最终转义成匹配单独一个反斜线的功能

import re
a = re.match('\\','\')
print(a)
#显示的结果match='\',之所以显示两个反斜线是因为语法规定一个反斜线无法显示（是转义符）

<_sre.SRE_Match object; span=(0, 1), match='\'>

当然也可以使用原始字符串的方法，在字符串前面加r，这时里面的反斜线就失去字符串转义符的功能了，本文主要讨论实质原理，不是方法

import re
a = re.match(r'\','\')
print(a)

<_sre.SRE_Match object; span=(0, 1), match='\'>

显示全文