python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解

 更新时间:2020年02月11日 16:40:49   作者:六神就是我  
这篇文章主要介绍了python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解,需要的朋友可以参考下

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

相关文章

  • python中的decode()与encode()深入理解

    python中的decode()与encode()深入理解

    这篇文章主要介绍了python中的decode()与encode()函数详解,本文通过实例代码给大家讲解的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-12-12
  • 浅谈Python函数式编程的返回函数与匿名函数

    浅谈Python函数式编程的返回函数与匿名函数

    这篇文章主要介绍了浅谈Python函数式编程的返回函数与匿名函数,如果一个变量指向了一个函数,那么,可以通过该变量来调用这个函数,需要的朋友可以参考下
    2023-04-04
  • Python 线程池模块之多线程操作代码

    Python 线程池模块之多线程操作代码

    最近在做一个爬虫相关的项目,单线程的整站爬虫,耗时真的不是一般的巨大,运行一次也是心累,所以,要想实现整站爬虫,多线程是不可避免的,那么python多线程又应该怎样实现呢?今天小编给大家分享下实现代码,感兴趣的朋友一起看看吧
    2021-05-05
  • 利用Python找出删除自己微信的好友并将他们自动化删除

    利用Python找出删除自己微信的好友并将他们自动化删除

    你是否有微信被删了好友不自知,还傻傻的给对方发消息,结果出现了下图中那尴尬的一幕的经历呢?其实我们可以用Python提前把他们找出来并自动化删除避免尴尬的
    2023-01-01
  • selenium 安装与chromedriver安装的方法步骤

    selenium 安装与chromedriver安装的方法步骤

    这篇文章主要介绍了selenium 安装与chromedriver安装的方法步骤,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-06-06
  • 使用matlab读取含表头csv文件

    使用matlab读取含表头csv文件

    这篇文章主要介绍了使用matlab读取含表头csv文件问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • opencv3/C++图像像素操作详解

    opencv3/C++图像像素操作详解

    今天小编就为大家分享一篇opencv3/C++图像像素操作详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python中pip安装、升级以及升级固定的包

    python中pip安装、升级以及升级固定的包

    我们知道python有大量的第三方库,这也是python的优势之一,pip就是python整的软件包管理系统,类似于Linux平台的yum仓库,下面这篇文章主要给大家介绍了关于python中pip安装、升级以及升级固定包的相关资料,需要的朋友可以参考下
    2022-02-02
  • 在Python3 numpy中mean和average的区别详解

    在Python3 numpy中mean和average的区别详解

    今天小编就为大家分享一篇在Python3 numpy中mean和average的区别详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Tensor 和 NumPy 相互转换的实现

    Tensor 和 NumPy 相互转换的实现

    本文主要介绍了Tensor 和 NumPy 相互转换的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02

最新评论