Python 获取指定开头指定结尾所夹中间内容(推荐)
cv的xdm可以直接翻到 需求 和 代码 用,想看中间的分析就老实往下看吧
little 背景
最近在做毕设,需要将几百篇整体结构差不多的文章中提取出一些内容,所以才有了这个blog。
需求
获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的。
例:
X X 市 人 民 检 察 院 指 控 : ‾ \underline{XX市人民检察院指控:} XX市人民检察院指控:被告人XXX与被害人YYY(女,殁年41岁,系XXX妻子)因家庭矛盾多次发生争执。X年Y月Z日早晨,被告人XXX在X市X市场…被告人XXX为偏执性精神障碍,具有限制刑事责任能力。
公 诉 机 关 认 为 ‾ \underline{公诉机关认为} 公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意杀人罪追究刑事责任
所需内容为:第一个下划线到第二个下划线中间的内容,即“被告人XXX…责任能力。”。其中,“检察院指控”是指定开头,“公诉机关认为”是指定结尾。
解决方案
原本想着NLP有没有现成的库可以直接调包,后来搜了半天没搜到,然后看到了正则表达式(真香)。
代码
低配方法:
适用于只有一种固定开头和结尾,多种就不行了
import re
def GetMiddleStr(content,startStr,endStr):
# patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.'只能匹配除了'\n'外所有单个字符
patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)
# patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小写 ,这个适用于英文文章
middleStr= re.match(patternStr,content)
if middleStr:
return middleStr.group(1)中配方法:
适用于多种固定开头和结尾,不过是蛮力法,可以优化判断,减少循环次数
import re
def GetMiddleStr2(content,startStr,endStr):
# patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
goalStr = str('')
for sStr in startStr:
for eStr in endStr:
patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
middleStr= re.match(patternStr,content)
if middleStr:
if not goalStr: # 判断 空 时候的值
goalStr = middleStr.group(1)
else: # 非空时,将将短的留下来
goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr
return goalStr运行效果
content='且得到被害人家属谅解。综上,建议法庭对被告人XXX减轻处罚。经审理查明:被告人XXX与被害人YYY因家庭矛盾多次发生争执。X年Y月Z日清晨,被告人XXX在X市X市场......被告人XXX为偏执性精神障碍,具有限制刑事责任能力。公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意杀人罪追究刑事责任'
startStr = '经审理查明:'
endStr = '公诉机关认为,'
print(GetMiddleStr(content,startStr,endStr))

第二种运行时将startStr和endStr分别赋值为:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘审理查明:’,‘审理查明:’,‘检察院指控’]
endStr = [‘经鉴定’,‘经鉴定,’, ‘归案后’]
代码讲解
正则表达式查一下手册即可:
.*:除了’\n’以外所有字符重复多次
[\s\S]:空白字符或者非空白字符,即所有字符(一个集合∪它在全集中的补集,即全集)
其余查一下手册就ok
正则表达式手册
到此这篇关于Python 获取指定开头指定结尾所夹中间内容的文章就介绍到这了,更多相关Python 获取指定开头指定结尾中间内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
flask框架自定义过滤器示例【markdown文件读取和展示功能】
这篇文章主要介绍了flask框架自定义过滤器,结合实例形式分析了flask基于自定义过滤器实现markdown文件读取和展示功能相关操作技巧,需要的朋友可以参考下2019-11-11
Python+Matplotlib绘制带有对角线的散点图的示例代码
Matplotlib 是一个用于绘制二维图形的 Python 库,这篇文章主要介绍了Python如何利用Matplotlib绘制带有对角线的散点图,需要的小伙伴可以参考一下2023-06-06
python中如何使用xml.dom.minidom模块读取解析xml文件
xml.dom.minidom模块应该是内置模块不用下载安装,本文给大家介绍python中如何使用xml.dom.minidom模块读取解析xml文件,感兴趣的朋友一起看看吧2023-10-10
python开发环境PyScripter中文乱码问题解决方案
PyScripter是一个使用Delphi开发的开源的Python集成开发环境(IDE),PyScripter支持Python2.4、2.5、2.6、2.7、3.0、3.1、3.2,而且可以根据需要切换。2016-09-09
pycharm开发一个简单界面和通用mvc模板(操作方法图解)
这篇文章主要介绍了pycharm开发最简单的界面和通用mvc模板的方法,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下2020-05-05


最新评论