利用Python将文本中的中英文分离方法

 更新时间:2018年10月31日 11:12:01   作者:微澜同学  
今天小编就为大家分享一篇利用Python将文本中的中英文分离方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python 读取目录下csv文件并绘制曲线v111的方法

    python 读取目录下csv文件并绘制曲线v111的方法

    今天小编就为大家分享一篇python 读取目录下csv文件并绘制曲线v111的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • django多对多表的创建,级联删除及手动创建第三张表

    django多对多表的创建,级联删除及手动创建第三张表

    这篇文章主要介绍了django多对多表的创建,级联删除及手动创建第三张表,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 科学计算NumPy之Ndarray运算函数操作示例汇总

    科学计算NumPy之Ndarray运算函数操作示例汇总

    这篇文章主要为大家介绍了科学计算NumPy之Ndarray运算函数操作示例汇总,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • Flask框架运用Ajax实现数据交互的示例代码

    Flask框架运用Ajax实现数据交互的示例代码

    使用Ajax技术网页应用能够快速地将增量更新呈现在用户界面上,而不需要重载刷新整个页面,这使得程序能够更快地回应用户的操作,本文将简单介绍使用AJAX如何实现前后端数据通信
    2022-11-11
  • Python文件操作之二进制文件详解

    Python文件操作之二进制文件详解

    下面小编就为大家带来一篇使用Python文件操作之二进制文件。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2021-09-09
  • Python打包exe时各种异常处理方案总结

    Python打包exe时各种异常处理方案总结

    今天教大家用Python打包exe时各种异常处理的方案总结,下文中有非常详细的介绍,对正在学习python的小伙伴们很有帮助哟,需要的朋友可以参考下
    2021-05-05
  • 一篇文章弄懂Python关键字、标识符和变量

    一篇文章弄懂Python关键字、标识符和变量

    这篇文章主要给大家介绍了关于Python关键字、标识符和变量的相关资料,Python关键词是Python保留的具有特定含义的特殊词语,用于执行某些操作,Python标识符是用户定义的名称,而变量是计算机内存中的一块区域,存储对象的内存地址,以便引用对象的值,需要的朋友可以参考下
    2021-07-07
  • pandas按条件筛选数据的实现

    pandas按条件筛选数据的实现

    这篇文章主要介绍了pandas按条件筛选数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • python批量修改图片尺寸,并保存指定路径的实现方法

    python批量修改图片尺寸,并保存指定路径的实现方法

    今天小编就为大家分享一篇python批量修改图片尺寸,并保存指定路径的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python利用prettytable实现格式化输出内容

    Python利用prettytable实现格式化输出内容

    Python有一个第三方模块叫 prettytable,专门用来将数据格式输出。本文将通过示例为大家详细讲讲prettytable的用法,感兴趣的可以了解一下
    2022-07-07

最新评论