利用Python将文本中的中英文分离方法

 更新时间:2018年10月31日 11:12:01   作者:微澜同学  
今天小编就为大家分享一篇利用Python将文本中的中英文分离方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python面向对象之继承和组合用法实例分析

    Python面向对象之继承和组合用法实例分析

    这篇文章主要介绍了Python面向对象之继承和组合用法,结合实例形式分析了Python面向对象程序设计中组合与继承的相关原理、使用方法及操作注意事项,需要的朋友可以参考下
    2018-08-08
  • python实现修改固定模式的字符串内容操作示例

    python实现修改固定模式的字符串内容操作示例

    这篇文章主要介绍了python实现修改固定模式的字符串内容操作,结合实例形式详细分析了Python修改固定模式字符串原理、实现方法及相关操作注意事项,需要的朋友可以参考下
    2019-12-12
  • Python基础之进程详解

    Python基础之进程详解

    今天带大家学习Python基础知识,文中对python进程作了详细的介绍,对正在学习python基础的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • 用yum安装MySQLdb模块的步骤方法

    用yum安装MySQLdb模块的步骤方法

    在python2.7版本中,MySQLdb模块还不是python的内置模块,但是MySQLdb模块又是Python与MySQL连接的桥梁,对于作为MySQL DBA又很喜欢Python语言的我来说,MySQLdb真的是必需品呢。所以就需要自己进行安装了,这篇文章就给大家详细介绍了关于用yum安装MySQLdb模块的步骤。
    2016-12-12
  • python实现tail实时查看服务器日志示例

    python实现tail实时查看服务器日志示例

    今天小编就为大家分享一篇python实现tail实时查看服务器日志示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python一些线程的玩法总结

    Python一些线程的玩法总结

    今天给大家带来的是关于Python的一些知识,文章围绕着Python线程的玩法展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
    2021-06-06
  • 通过Python编写一个简单登录功能过程解析

    通过Python编写一个简单登录功能过程解析

    这篇文章主要介绍了通过Python编写一个简单登录功能过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • Python游戏推箱子的实现

    Python游戏推箱子的实现

    这篇文章主要介绍了Python游戏推箱子的实现,推箱子游戏是一款可玩性极高的策略解谜手游,游戏中玩家将扮演一名可爱Q萌的角色,下面我们就看看看具体的实现过程吧,需要的小伙伴可以参考一下
    2021-12-12
  • 10个Python常用的损失函数及代码实现分享

    10个Python常用的损失函数及代码实现分享

    损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。本文为大家总结了10个常用的损失函数及Python代码实现,需要的可以参考一下
    2022-09-09
  • Python(Tornado)模拟登录小米抢手机

    Python(Tornado)模拟登录小米抢手机

    用Python(Tornado)模拟登录小米帐号,抢小米手机
    2013-11-11

最新评论