Python re.sub 反向引用的实现

 更新时间:2021年07月07日 14:00:24   作者:Tsonglew  
反向引用指的是在指定替换结果的过程中,可以引用原始字符串中的匹配到内容,本文主要介绍了反向引用的设置方法,感兴趣的可以了解一下

re 模块是 Python 标准库中提供的用于处理正则表达式的模块,利用 re 模块可以方便的利用正则表达式实现字符串中的匹配、替换等操作

match 分组

Python re 模块中提供了 match 函数,用来匹配字符串中指定的正则表达式规则。例如,如果想匹配到 "Isaac Newton, physicist" 中的 Isaac Newton,则可以使用正则表达式 \w+ \w+ ,运行结果如下:

>>> m = re.match("\w+ \w+", "Isaac Newton, physicist")
>>> m
<re.Match object; span=(0, 12), match='Isaac Newton'>

re.match 的第一个参数是指定的正则表达式规则,第二个参数是待匹配的字符串。正则表达式规则 \w+ 表示匹配一段连续的字符,要求匹配到的字符数量大于 1。 \w+ \w+ 就表示匹配两段连续的字符,且两段字符中间用空格隔开

使用 match 执行匹配时会对匹配到的结果进行 分组 ,可以通过 match 返回结果的 group() 接口查看分组结果

>>> m.group(0)
'Isaac Newton'

默认情况下, match 只会产生一个分组,就是第 0 个分组,表示整个匹配到的内容。对于上面的例子,第 0 个分组就是 \w+ \w+ 匹配到的完整的内容,也就是 Issac Newton 。
使用正则表达式中的括号 () 可以手动指定匹配的分组。例如如果想把 Issac 和 Newton 做为两个分组,那么可以将正则表达式改为 (\w+) (\w+) :

>>> m = re.match("(\w+) (\w+)", "Isaac Newton, physicist")

在 (\w+) (\w+) 这个正则表达式中,指定了两个分组,这两个分组匹配的内容都是 \w+ ,并且两个分组之间用空格隔开。
使用 groups() 可以查看匹配结果中的所有分组 :

>>> m.groups()
('Isaac', 'Newton')

也可以使用 group() 接口分别查看每一个分组,其中 group(0) 仍然表示完整的匹配结果, group(1) 表示匹配结果中的第 1 个分组, group(2) 表示第 2 个分组,以此类推:

>>> m.group(0)
'Isaac Newton'
>>> m.group(1)
'Isaac'
>>> m.group(2)
'Newton'

re.sub 匹配和替换

re.match() 函数提供了正则表达式的匹配接口, re.sub() 不光能匹配正则表达式,还能替换字符串中的结果,生成一个新的字符串。
例如把字符串中 (\w+) (\w+) 匹配到的结果替换成 Albert Einstein ,可以这样写:

>>> re.sub("(\w+) (\w+)", "Albert Einstein", "Isaac Newton, physicist")
'Albert Einstein, physicist'

re.sub 中第 1 个参数表示匹配的正则表达式,第 2 个参数表示替换表达式,第 3 个参数表示原始字符串

这里的替换表达式是手动指定的新字符串 Albert Einstein ,他和原始字符串中的内容毫不相关。如果希望复用原始字符串中的内容,那么就需要用到 re.sub 的反向引用功能了。

反向引用

反向引用指的是在指定替换结果的过程中,可以引用原始字符串中的匹配到内容。例如 (\w+) (\w+) 在原始字符串中匹配到了 Isaac Newton ,利用匹配到的结果,将结果改写为 FirstName: Isaac, LastName: Newton 。
既然需要引用,那么就得有一个表达式能够表示匹配的内容。恰好 re.sub 的匹配结果也有和 re.match 一样的分组,因此只需要在替换表达式中引用分组的结果即可。引用方式有以下几种:

  • \number :例如 \1 ,表示匹配结果中第 1 个分组,也就是例子中的 Isaac 部分。
  • \g<number> :例如 \g<1> ,和 \number 表示法一样,也代表了匹配结果中的第 1 个分组。与 \number 表示法相比, \g<number> 避免了歧义。试想,如果想用 \number 把第 1 个分组匹配到的  Isaac 替换为 Isaac0 ,那么需要用 \10 ,这里本意表示在第 1 个分组后加上 0 ,但程序会识别成第 10 个分组。而使用 \g<number> 只需要写成 \g<1>0 即可。

回到开始的例子中,将匹配结果 Isaac Newton改写为 FirstName: Isaac, LastName: Newton ,可以用以下表达式实现:

>>> re.sub("(\w+) (\w+)", "FirstName: \g<1>, LastName: \g<2>", "Isaac Newton, physicist")
'FirstName: Isaac, LastName: Newton, physicist'

参考

 re — Regular expression operations
 Python re(gex)? -- Groupings and backreferences

到此这篇关于Python re.sub 反向引用的实现的文章就介绍到这了,更多相关Python re.sub 反向引用内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! 

相关文章

  • Python使用pip安装报错:is not a supported wheel on this platform的解决方法

    Python使用pip安装报错:is not a supported wheel on this platform的解决

    这篇文章主要介绍了Python使用pip安装报错:is not a supported wheel on this platform的解决方法,结合实例形式分析了在安装版本正确的情况下pip安装报错的原因与相应的解决方法,需要的朋友可以参考下
    2018-01-01
  • python批量替换多文件字符串问题详解

    python批量替换多文件字符串问题详解

    批量替换是我们在日常工作中经常会遇到的一个问题,下面这篇文章主要给大家介绍了关于python批量替换多文件字符串问题的相关资料,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧。
    2018-04-04
  • 浅谈django 重载str 方法

    浅谈django 重载str 方法

    这篇文章主要介绍了浅谈django 重载str 方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • 基于PyQT实现区分左键双击和单击

    基于PyQT实现区分左键双击和单击

    这篇文章主要介绍了基于PyQT实现区分左键双击和单击,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Python如何通过ARIMA模型进行时间序列分析预测

    Python如何通过ARIMA模型进行时间序列分析预测

    这篇文章主要介绍了Python如何通过ARIMA模型进行时间序列分析预测问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 对python使用telnet实现弱密码登录的方法详解

    对python使用telnet实现弱密码登录的方法详解

    今天小编就为大家分享一篇对python使用telnet实现弱密码登录的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • PyTorch 之 强大的 hub 模块和搭建神经网络进行气温预测

    PyTorch 之 强大的 hub 模块和搭建神经网络进行气温预测

    hub 模块是调用别人训练好的网络架构以及训练好的权重参数,使得自己的一行代码就可以解决问题,方便大家进行调用,这篇文章主要介绍了PyTorch 之 强大的 hub 模块和搭建神经网络进行气温预测,需要的朋友可以参考下
    2023-03-03
  • 用Python解决计数原理问题的方法

    用Python解决计数原理问题的方法

    计数原理是数学中的重要研究对象之一,分类加法计数原理、分步乘法计数原理是解决计数问题的最基本、最重要的方法,也称为基本计数原理,它们为解决很多实际问题提供了思想和工具。本文教大家怎么用Python解决在数学中遇到的计数原理问题。
    2016-08-08
  • Python中的with关键字和文件操作方法

    Python中的with关键字和文件操作方法

    在Python编程中,with关键字用于简化文件操作流程,包括文件的打开、读取、写入和关闭,它是一个上下文管理器,确保即使在发生异常的情况下,文件也能被正确关闭,释放系统资源,本文给大家介绍Python中的with关键字和文件操作方法,感兴趣的朋友一起看看吧
    2024-10-10
  • Python基础教程之控制结构详解

    Python基础教程之控制结构详解

    Python中有三大控制结构,分别是顺序结构、分支结构(选择结构)以及循环结构,任何一个项目或者算法都可以使用这三种结构来设计完成,这篇文章主要给大家介绍了关于Python基础教程之控制结构的相关资料,需要的朋友可以参考下
    2021-11-11

最新评论