Python 获取指定开头指定结尾所夹中间内容(推荐)

 更新时间:2023年02月20日 14:51:17   作者:来一粒4869  
获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的,今天小编给大家介绍通过Python 获取指定开头指定结尾所夹中间内容,感兴趣的朋友一起看看吧

cv的xdm可以直接翻到 需求代码 用,想看中间的分析就老实往下看吧

little 背景

最近在做毕设,需要将几百篇整体结构差不多的文章中提取出一些内容,所以才有了这个blog。

需求

获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的。

例:

X X 市 人 民 检 察 院 指 控 : ‾ \underline{XX市人民检察院指控:} XX市人民检察院指控:​被告人XXX与被害人YYY(女,殁年41岁,系XXX妻子)因家庭矛盾多次发生争执。X年Y月Z日早晨,被告人XXX在X市X市场…被告人XXX为偏执性精神障碍,具有限制刑事责任能力。
公 诉 机 关 认 为 ‾ \underline{公诉机关认为} 公诉机关认为​,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意杀人罪追究刑事责任

所需内容为:第一个下划线到第二个下划线中间的内容,即“被告人XXX…责任能力。”。其中,“检察院指控”是指定开头,“公诉机关认为”是指定结尾。

解决方案

原本想着NLP有没有现成的库可以直接调包,后来搜了半天没搜到,然后看到了正则表达式(真香)。

代码

低配方法:

适用于只有一种固定开头和结尾,多种就不行了

import re
def GetMiddleStr(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.'只能匹配除了'\n'外所有单个字符
    patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)
#     patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小写 ,这个适用于英文文章
    middleStr= re.match(patternStr,content)
    if middleStr:
        return middleStr.group(1)

中配方法:

适用于多种固定开头和结尾,不过是蛮力法,可以优化判断,减少循环次数

import re
def GetMiddleStr2(content,startStr,endStr):
#     patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
    goalStr = str('')
    
    for sStr in startStr:
        for eStr in endStr:
            patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
            middleStr= re.match(patternStr,content)
            if middleStr:
                if not goalStr: # 判断 空 时候的值
                    goalStr = middleStr.group(1)
                else:        # 非空时,将将短的留下来 
                    goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr
                    
    return goalStr

运行效果

content='且得到被害人家属谅解。综上,建议法庭对被告人XXX减轻处罚。经审理查明:被告人XXX与被害人YYY因家庭矛盾多次发生争执。X年Y月Z日清晨,被告人XXX在X市X市场......被告人XXX为偏执性精神障碍,具有限制刑事责任能力。公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意杀人罪追究刑事责任'
startStr = '经审理查明:'
endStr = '公诉机关认为,'
print(GetMiddleStr(content,startStr,endStr))

在这里插入图片描述

第二种运行时将startStr和endStr分别赋值为:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘审理查明:’,‘审理查明:’,‘检察院指控’]
endStr = [‘经鉴定’,‘经鉴定,’, ‘归案后’]

代码讲解

正则表达式查一下手册即可:
.*:除了’\n’以外所有字符重复多次
[\s\S]:空白字符或者非空白字符,即所有字符(一个集合∪它在全集中的补集,即全集)
其余查一下手册就ok
正则表达式手册

到此这篇关于Python 获取指定开头指定结尾所夹中间内容的文章就介绍到这了,更多相关Python 获取指定开头指定结尾中间内容内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python使用shutil模块实现文件拷贝

    Python使用shutil模块实现文件拷贝

    这篇文章主要介绍了Python使用shutil模块实现文件拷贝,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • Python pyecharts案例超市4年数据可视化分析

    Python pyecharts案例超市4年数据可视化分析

    这篇文章主要介绍了Python pyecharts案例超市4年数据可视化分析,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-08-08
  • 如何使用python-dotenv解决代码与敏感信息的分离

    如何使用python-dotenv解决代码与敏感信息的分离

    我们开发的每个系统都离不开配置信息,这些信息都非常敏感,一旦泄露出去后果非常严重,被泄露的原因一般是程序员将配置信息和代码混在一起导致的,这篇文章主要给大家介绍了关于如何使用python-dotenv解决代码与敏感信息的分离,需要的朋友可以参考下
    2022-03-03
  • Python+Opencv实现图像模板匹配详解

    Python+Opencv实现图像模板匹配详解

    模板匹配可以看作是对象检测的一种非常基本的形式。使用模板匹配,我们可以使用包含要检测对象的“模板”来检测输入图像中的对象。本文为大家介绍了图像模板匹配的实现方法,需要的可以参考一下
    2022-09-09
  • python多进程实现进程间通信实例

    python多进程实现进程间通信实例

    这篇文章主要介绍了python多进程实现进程间通信实例,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11
  • Python实现数据清洗的示例详解

    Python实现数据清洗的示例详解

    这篇文章主要通过五个示例带大家深入了解下Python实现数据清洗的具体方法,文中的示例代码讲解详细,对我们学习Python有一定帮助,需要的可以参考一下
    2022-08-08
  • python使用配置文件过程详解

    python使用配置文件过程详解

    这篇文章主要介绍了python使用配置文件过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • python在TXT文件中按照某一字符串取出该字符串所在的行方法

    python在TXT文件中按照某一字符串取出该字符串所在的行方法

    今天小编就为大家分享一篇python在TXT文件中按照某一字符串取出该字符串所在的行方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • django之静态文件 django 2.0 在网页中显示图片的例子

    django之静态文件 django 2.0 在网页中显示图片的例子

    今天小编就为大家分享一篇django之静态文件 django 2.0 在网页中显示图片的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • python中利用await关键字如何等待Future对象完成详解

    python中利用await关键字如何等待Future对象完成详解

    为了简化并更好地标识异步IO,从Python 3.5开始引入了新的语法async和await,可以让coroutine的代码更简洁易读。下面这篇文章主要给大家介绍了关于python中利用await关键字如何等待Future对象完成的相关资料,需要的朋友可以参考下。
    2017-09-09

最新评论