python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解

 更新时间:2020年02月11日 16:40:49   作者:六神就是我  
这篇文章主要介绍了python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解,需要的朋友可以参考下

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

相关文章

  • Python实现导出数据生成excel报表的方法示例

    Python实现导出数据生成excel报表的方法示例

    这篇文章主要介绍了Python实现导出数据生成excel报表的方法,结合完整实例形式分析了Python连接、查询mysql数据库并导出Excel报表的相关实现技巧,需要的朋友可以参考下
    2017-07-07
  • python 执行shell命令并将结果保存的实例

    python 执行shell命令并将结果保存的实例

    今天小编就为大家分享一篇python 执行shell命令并将结果保存的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • 编写同时兼容Python2.x与Python3.x版本的代码的几个示例

    编写同时兼容Python2.x与Python3.x版本的代码的几个示例

    这篇文章主要介绍了编写同时兼容Python2.x与Python3.x版本的代码的几个示例,在Python2.7.x的更新中由于采用了某些Python3中的代码编写特性、使得在有些原本不同之处编写兼容性代码成为可能,需要的朋友可以参考下
    2015-03-03
  • 使用Python字典实现词频统计的方法

    使用Python字典实现词频统计的方法

    在Python中,利用字典进行词频统计是一种常见且强大的方式,通过对文本进行预处理并使用字典数据结构,可以轻松地统计文本中每个单词出现的频率,下面将详细解释这个过程,并提供多种例子,以帮助你更好地理解并应用这一技术,需要的朋友可以参考下
    2023-12-12
  • Python中Matplotlib的简单使用

    Python中Matplotlib的简单使用

    这篇文章主要介绍了Python中Matplotlib的简单使用,Matplotlib是一个用于绘制数据可视化图形的Python库,支持绘制各种静态,动态,交互式的图表,它是数据科学和机器学习领域最流行的可视化库之一,需要的朋友可以参考下
    2023-07-07
  • 使用scrapy实现增量式爬取方式

    使用scrapy实现增量式爬取方式

    这篇文章主要介绍了使用scrapy实现增量式爬取方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-06-06
  • 使用PDB简单调试Python程序简明指南

    使用PDB简单调试Python程序简明指南

    这篇文章主要介绍了使用PDB简单调试Python程序简明指南,本文讲解了使用PDB调试程序的简单技巧,方便、简洁实用,需要的朋友可以参考下
    2015-04-04
  • python实现公司年会抽奖程序

    python实现公司年会抽奖程序

    这篇文章主要为大家详细介绍了python实现公司年会抽奖程序,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • CentOS7上使用pyenv搭建Django环境

    CentOS7上使用pyenv搭建Django环境

    本文主要介绍了CentOS7上使用pyenv搭建Django环境,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-11-11
  • python机器学习逻辑回归随机梯度下降法

    python机器学习逻辑回归随机梯度下降法

    这篇文章主要为大家介绍了python机器学习逻辑回归随机梯度下降法的详细讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11

最新评论