python字符串编码识别模块chardet简单应用

 更新时间:2015年06月15日 08:55:26   投稿:hebedich  
有时候需要先检测一个文件的编码,然后将其转化为另一种编码。这时候就会用到chardet(chardet是python的一个第三方库,是非常优秀的编码识别模块)

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

 
import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

相关文章

  • python相似模块用例

    python相似模块用例

    这篇文章主要为大家详细介绍了python相似模块用例,感兴趣的小伙伴们可以参考一下
    2016-03-03
  • python使用Paramiko模块实现远程文件拷贝

    python使用Paramiko模块实现远程文件拷贝

    这篇文章主要为大家详细介绍了python使用Paramiko模块实现远程文件拷贝,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-04-04
  • python实现滑雪游戏

    python实现滑雪游戏

    这篇文章主要为大家详细介绍了python实现滑雪游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-02-02
  • Python开发常用五种循环方式的场景性能比较

    Python开发常用五种循环方式的场景性能比较

    Python是一门高级编程语言,其拥有多种循环方式,如for循环、while循环、do-while循环等。本文将逐个分析Python所有的循环执行效率和适用场景,需要的可以参考一下
    2023-04-04
  • Python程序员鲜为人知但你应该知道的17个问题

    Python程序员鲜为人知但你应该知道的17个问题

    这篇文章主要介绍了Python程序员代码编写时应该避免的17个“坑”,也可以说成Python程序员代码编写时应该避免的17个问题,需要的朋友可以参考下
    2014-06-06
  • Python利用 matplotlib 绘制直方图

    Python利用 matplotlib 绘制直方图

    这篇文章主要介绍了Python利用 matplotlib 模块绘制直方图相关属性和方法,具有一定的参考价值,需要的朋友可以参考一下
    2021-12-12
  • Python TensorFlow 2.6获取MNIST数据的示例代码

    Python TensorFlow 2.6获取MNIST数据的示例代码

    这篇文章主要介绍了Python TensorFlow 2.6获取MNIST数据的的相关示例,文中有详细的代码示例供大家参考,对大家的学习或工作有一定的帮助,需要的朋友可以参考下
    2024-04-04
  • Python中迭代器与生成器的用法

    Python中迭代器与生成器的用法

    这篇文章介绍了Python中迭代器与生成器的用法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-05-05
  • Python实现简单状态框架的方法

    Python实现简单状态框架的方法

    这篇文章主要介绍了Python实现简单状态框架的方法,涉及Python状态框架的实现技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-03-03
  • Python检测两个文本文件相似性的三种方法

    Python检测两个文本文件相似性的三种方法

    检测两个文本文件的相似性是一个常见的任务,可以用于文本去重、抄袭检测等场景,Python 提供了多种方法来实现这一功能,x下面小编就来简单介绍一下吧
    2025-03-03

最新评论