Python3正则匹配re.split，re.finditer及re.findall函数用法详解

更新时间：2018年06月11日 14:57:08 作者：Citizen_Wang

这篇文章主要介绍了Python3正则匹配re.split，re.finditer及re.findall函数用法,结合实例形式详细分析了正则匹配re.split，re.finditer及re.findall函数的概念、参数、用法及操作注意事项,需要的朋友可以参考下

本文实例讲述了Python3正则匹配re.split，re.finditer及re.findall函数用法。分享给大家供大家参考，具体如下：

re.split re.finditer re.findall

@(python3)

官方 re 模块说明文档

re.compile() 函数

编译正则表达式模式，返回一个对象。可以把常用的正则表达式编译成正则表达式对象，方便后续调用及提高效率。

re 模块最离不开的就是 re.compile 函数。其他函数都依赖于 compile 创建的正则表达式对象

re.compile(pattern, flags=0)

pattern 指定编译时的表达式字符串
flags 编译标志位，用来修改正则表达式的匹配方式。支持 re.L|re.M 同时匹配

flags 标志位参数

re.I(re.IGNORECASE)
使匹配对大小写不敏感

re.L(re.LOCAL)
做本地化识别（locale-aware）匹配

re.M(re.MULTILINE)
多行匹配，影响 ^ 和 $

re.S(re.DOTALL)
使 . 匹配包括换行在内的所有字符

re.U(re.UNICODE)
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

re.X(re.VERBOSE)
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

示例：

import re
content = 'Citizen wang , always fall in love with neighbour，WANG'
rr = re.compile(r'wan\w', re.I) # 不区分大小写
print(type(rr))
a = rr.findall(content)
print(type(a))
print(a)

findall 返回的是一个 list 对象

<class '_sre.SRE_Pattern'>
<class 'list'>
['wang', 'WANG']

re.split 函数

按照指定的 pattern 格式，分割 string 字符串，返回一个分割后的列表。

re.split(pattern, string, maxsplit=0, flags=0)

pattern compile 生成的正则表达式对象，或者自定义也可
string 要匹配的字符串
maxsplit 指定最大分割次数，不指定将全部分割

import re
str = 'say hello world! hello python'
str_nm = 'one1two2three3four4'
pattern = re.compile(r'(?P<space>\s)') # 创建一个匹配空格的正则表达式对象
pattern_nm = re.compile(r'(?P<space>\d+)') # 创建一个匹配空格的正则表达式对象
match = re.split(pattern, str)
match_nm = re.split(pattern_nm, str_nm, maxsplit=1)
print(match)
print(match_nm)

结果：

['say', ' ', 'hello', ' ', 'world!', ' ', 'hello', ' ', 'python']
['one', '1', 'two2three3four4']

re.findall() 方法

返回一个包含所有匹配到的字符串的列表。

pattern 匹配模式，由 re.compile 获得
string 需要匹配的字符串

import re
str = 'say hello world! hello python'
pattern = re.compile(r'(?P<first>h\w)(?P<symbol>l+)(?P<last>o\s)') # 分组，0 组是整个 world!, 1组 or，2组 ld!
match = re.findall(pattern, str)
print(match)

结果

[('he', 'll', 'o '), ('he', 'll', 'o ')]

re.finditer 、re.findall

re.finditer(pattern, string[, flags=0]) re.findall(pattern, string[, flags=0])

pattern compile 生成的正则表达式对象，或者自定义也可
string 要匹配的字符串

findall 返回一个包含所有匹配到的字符的列表，列表类以元组的形式存在。

finditer 返回一个可迭代对象。

示例一：

pattern = re.compile(r'\d+@\w+.com') #通过 re.compile 获得一个正则表达式对象
result_finditer = re.finditer(pattern, content)
print(type(result_finditer))
print(result_finditer) # finditer 得到的结果是个可迭代对象
for i in result_finditer: # i 本身也是可迭代对象，所以下面要使用 i.group()
 print(i.group())
result_findall = re.findall(pattern, content)
print(type(result_findall)) # findall 得到的是一个列表
print(result_findall)
for p in result_finditer:
 print(p)

输出结果：

<class 'callable_iterator'>
<callable_iterator object at 0x10545ec88>
123456@163.com
234567@163.com
345678@163.com
<class 'list'>
['123456@163.com', '234567@163.com', '345678@163.com']

由结果可知：finditer 得到的是可迭代对象，finfdall 得到的是一个列表。

示例二：

import re
content = '''email:123456@163.com
email:234567@163.com
email:345678@163.com
'''
pattern = re.compile(r'(?P<number>\d+)@(?P<mail_type>\w+).com')
result_finditer = re.finditer(pattern, content)
print(type(result_finditer))
print(result_finditer)
iter_dict = {} # 把最后得到的结果
for i in result_finditer:
 print('邮箱号码是：', i.group(1),'邮箱类型是：',i.group(2))
 number = i.group(1)
 mail_type = i.group(2)
 iter_dict.setdefault(number, mail_type) # 使用 dict.setdefault 创建了一个字典
print(iter_dict)
print('+++++++++++++++++++++++++++++++')
result_findall = re.findall(pattern, content)
print(result_findall)
print(type(result_findall))

输出结果：

<class 'callable_iterator'>
<callable_iterator object at 0x104c5cbe0>
邮箱号码是： 123456 邮箱类型是： 163
邮箱号码是： 234567 邮箱类型是： 163
邮箱号码是： 345678 邮箱类型是： 163
{'123456': '163', '234567': '163', '345678': '163'}
+++++++++++++++++++++++++++++++
[('123456', '163'), ('234567', '163'), ('345678', '163')]
<class 'list'>

finditer 得到的可迭代对象 i，也可以使用 lastindex，lastgroup 方法。

print('lastgroup 最后一个被捕获的分组的名字',i.lastgroup)

findall 当正则没有分组，返回就是正则匹配。

re.findall(r"\d+@\w+.com", content)
['2345678@163.com', '2345678@163.com', '345678@163.com']

有一个分组返回的是分组的匹配

re.findall(r"(\d+)@\w+.com", content)
['2345678', '2345678', '345678']

多个分组时，将结果作为元组，一并存入到列表中。

re.findall(r"(\d+)@(\w+).com", content)
[('2345678', '163'), ('2345678', '163'), ('345678', '163')]

PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：

JavaScript正则表达式在线测试工具：
http://tools.jb51.net/regex/javascript

正则表达式在线生成工具：
http://tools.jb51.net/regex/create_reg

更多关于Python相关内容可查看本站专题：《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

基于Python编写一个简单的http服务器
这篇文章主要为大家详细介绍了如何基于Python编写一个简单的http服务器，文中的示例代码简洁易懂，感兴趣的小伙伴可以跟随小编一起学习一下
2023-04-04
python安装教程
这篇文章主要为大家详细介绍了python安装教程，文中安装步骤介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-02-02
python之PyMongo使用总结
本篇文章主要介绍了python之PyMongo使用总结，详细的介绍了PyMongo模块的使用，具有一定的参考价值，有兴趣的可以了解一下
2017-05-05
使用torchtext导入NLP数据集的操作
这篇文章主要介绍了使用torchtext导入NLP数据集的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2021-05-05
Python网页解析利器BeautifulSoup安装使用介绍
这篇文章主要介绍了Python网页解析利器BeautifulSoup安装使用介绍,本文用一个完整示例一步一步安装了BeautifulSoup的安装和使用过程,需要的朋友可以参考下
2015-03-03
python基础之并发编程(三)
这篇文章主要介绍了详解python的并发编程，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-10-10
pandas 使用均值填充缺失值列的小技巧分享
今天小编就为大家分享一篇pandas 使用均值填充缺失值列的小技巧分享，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
Python爬虫之超级鹰验证码应用
众所周知python是一个很强大的语言,它拥有众多的库,今天我尝试了使用超级鹰第三方平台进行验证码的开发,需要的朋友可以参考下
2022-08-08
Django调用支付宝接口代码实例详解
这篇文章主要介绍了Django调用支付宝接口代码实例详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-04-04
django-celery-beat搭建定时任务的实现
本文主要介绍了django-celery-beat搭建定时任务的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-03-03

Python3正则匹配re.split，re.finditer及re.findall函数用法详解

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具