一篇文章带你入门Python正则表达式

 更新时间:2021年10月19日 17:11:44   作者:古杜且偲  
这篇文章主要介绍了Python中正则表达式的详细教程,正则表达式是Python学习进阶当中的重要内容,需要的朋友可以参考下

Python3 正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。本文主要阐述re包中的主要函数。

在阐述re包中的函数之前,我们首先看议案正则表达式的模式,即使用特殊的语法来表示一个正则表达式。

Image Name

Image Name

1.match函数

  • re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
  • 函数用法:re.match(pattern, string, flags=0)
  • pattern: 所要匹配的正则表达式string: 要匹配的字符串flags: 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
    •  re.I 忽略大小写
    • re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    • re.M 多行模式re.S 即为' . ‘并且包括换行符在内的任意字符(' . '不包括换行符)
    • re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    • re.X 为了增加可读性,忽略空格和' # '后面的注释

匹配对象方法:

  • group(num=0): 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
  • groups(): 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。
import re
print(re.match("xixi", "xixi_haha_heihei").group())
xixi
line = 'Cats are smarter than dogs'
b = re.match(r'(.*) are (.*?) .*', line, re.M|re.I)

print(b.group()) # 返回所有
print(b.group(1)) # 返回第一组,即(.*)对应的
print(b.group(2)) # 返回第二组,即(.*?)对应的
Cats are smarter than dogs
Cats
smarter

2.search函数

re.search 扫描整个字符串并返回第一个成功的匹配。

函数用法:re.search(pattern, string, flags=0)

print(re.match('heihei', 'xixi_haha_heihei'))
print(re.search('heihei', 'xixi_haha_heihei').group())
None
heihei
line = 'Cats are smarter than dogs'
b = re.search(r'(.*) are (.*?) .*', line, re.M|re.I)

print(b.group()) # 返回所有
print(b.group(1)) # 返回第一组,即(.*)对应的
print(b.group(2)) # 返回第二组,即(.*?)对应的
Cats are smarter than dogs
Cats
smarter

search和match的区别

match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而search匹配整个字符串,直到找到一个匹配。

3. sub函数

re提供了re.sub来替换字符串中的匹配项。
函数用法:re.sub(pattern, repl, string, count=0, flags=0)

  • pattern : 正则中的模式字符串。
  • repl : 替换的字符串,也可为一个函数。
  • string : 要被查找替换的原始字符串。
  • count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
  • flags : 编译时用的匹配模式,数字形式。
phone = '133-3333-3333  # this is a phone number'

num = re.sub(r'#.*$', '', phone)
print('phone num', num)
# 移除注释,找到以#开头的。

num = re.sub(r'\D', '', phone)
print('phone num', num)
# 移除非数字内容
phone num 133-3333-3333  
phone num 13333333333

repl是函数的情况

def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)

s = 'A233Sfd34'
print(re.sub('(?P<value>\d+)', double, s))
A466Sfd68

4.compile函数

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
函数使用:re.compile(pattern, flags)

pattern = re.compile(r'/d+')
m = pattern.match('ones123412')
print(m)
None

5.findall

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意:match和search是匹配一次,但是findall是匹配所有。

函数使用:findall(string, pos, endpos)

  • string 待匹配的字符串。
  • pos 可选参数,指定字符串的起始位置,默认为 0。
  • endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
pattern = re.compile(r'\d+')
result1 = pattern.findall('xixixix 123 heihiehei 456')
result2 = pattern.findall('xixixix 123 heihiehei 456', 0, 15)

print(result1)
print(result2)
['123', '456']
['123']

6.finditer

和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

ittt = re.finditer(r'\d+', '12dsfasdf123asdf534')
for ttt in ittt:
    print(ttt.group())
12
123
534

7.split

split 方法按照能够匹配的子串将字符串分割后返回列表。

函数使用:

re.split(pattern, string, maxsplit=0, flags=0)

  • pattern: 匹配的正则表达式
  • string: 要匹配的字符串。
  • maxsplit: 分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
  • flags: 标志位,用于控制正则表达式的匹配方式,
print(re.split('\W+', 'xxixix, xixixi, hehiehei'))
print(re.split('(\W+)', ' xxixix, xixixi, hehiehei'))
['xxixix', 'xixixi', 'hehiehei']
['', ' ', 'xxixix', ', ', 'xixixi', ', ', 'hehiehei']

总结

本篇文章就到这里了,希望能够给你带来帮助,也希望您能够多多关注脚本之家的更多内容!

相关文章

  • python selenium中Excel数据维护指南

    python selenium中Excel数据维护指南

    这篇文章主要给大家介绍了关于python selenium中Excel数据维护的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-03-03
  • python在非root权限下的安装方法

    python在非root权限下的安装方法

    下面小编就为大家分享一篇python在非root权限下的安装方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-01-01
  • pandas.loc 选取指定列进行操作的实例

    pandas.loc 选取指定列进行操作的实例

    今天小编就为大家分享一篇pandas.loc 选取指定列进行操作的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Python Word文件自动化实战之简历筛选

    Python Word文件自动化实战之简历筛选

    本文将利用Python自动化做一个具有实操性的小练习,即通过读取简历来筛选出符合招聘条件的简历。文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2022-05-05
  • Python2和Python3中@abstractmethod使用方法

    Python2和Python3中@abstractmethod使用方法

    这篇文章主要介绍了Python2和Python3中@abstractmethod使用方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • 用python对excel查重

    用python对excel查重

    这篇文章主要介绍了用python对excel查重的方法,帮助大家更好的利用python处理excel表格,感兴趣的朋友可以了解下
    2020-12-12
  • pytorch模型的定义、修改、读取、断点续训深入解析

    pytorch模型的定义、修改、读取、断点续训深入解析

    模型定义是深度学习中重要的一环,PyTorch提供了强大而灵活的工具和函数,使我们能够轻松定义各种类型的深度学习模型,通过深入理解模型定义的原理和应用,我们能够更好地理解和设计自己的模型,从而提升深度学习任务的性能和效果
    2024-03-03
  • Python selenium模拟手动操作实现无人值守刷积分功能

    Python selenium模拟手动操作实现无人值守刷积分功能

    这篇文章主要介绍了Python selenium模拟手动操作达到无人值守刷积分目的,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-05-05
  • Python自动化运维_文件内容差异对比分析

    Python自动化运维_文件内容差异对比分析

    下面小编就为大家分享一篇Python自动化运维_文件内容差异对比分析,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-12-12
  • Python安装官方whl包和tar.gz包的方法(推荐)

    Python安装官方whl包和tar.gz包的方法(推荐)

    下面小编就为大家带来一篇Python安装官方whl包和tar.gz包的方法(推荐)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06

最新评论