python处理中文编码和判断编码示例

 更新时间:2014年02月26日 11:22:03   作者:  
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码

下面所说的都是针对python2.7

复制代码 代码如下:

#coding:utf-8
#chardet 需要下载安装

import chardet
#抓取网页html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

  html = html_1
else :
   html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上处理,整个html就不会是乱码。

相关文章

  • 详解Bagging算法的原理及Python实现

    详解Bagging算法的原理及Python实现

    Bagging算法(Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一种团体学习算法。最初由Leo Breiman于1996年提出。Bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生
    2021-06-06
  • 探秘TensorFlow 和 NumPy 的 Broadcasting 机制

    探秘TensorFlow 和 NumPy 的 Broadcasting 机制

    这篇文章主要介绍了探秘TensorFlow 和 NumPy 的 Broadcasting 机制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-03-03
  • Python3的unicode编码转换成中文的问题及解决方案

    Python3的unicode编码转换成中文的问题及解决方案

    这篇文章主要介绍了Python3的unicode编码转换成中文的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • 用Python手把手教你实现2048小游戏

    用Python手把手教你实现2048小游戏

    感觉好久没和大家一起写小游戏玩了,今天恰巧有空.这次我们来用Python做个2048小游戏吧.废话不多说,文中有非常详细的代码示例,需要的朋友可以参考下
    2021-06-06
  • Python实现两款计算器功能示例

    Python实现两款计算器功能示例

    这篇文章主要为大家详细介绍了Python实现两款计算器功能示例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12
  • pandas中fillna()函数填充NaN和None的实现

    pandas中fillna()函数填充NaN和None的实现

    本文主要介绍了pandas中fillna()函数填充NaN和None的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • Python基于纹理背景和聚类算法实现图像分割详解

    Python基于纹理背景和聚类算法实现图像分割详解

    这篇文章将详细讲解Python图和基于纹理背景的图像分割和聚类算法实现图像分割效果,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2023-01-01
  • python文件处理笔记之文本文件

    python文件处理笔记之文本文件

    相信大家在测试任务过程中都或多或少遇到自己处理文本文件的情况,这篇文章主要给大家介绍了关于python文件处理笔记之文本文件的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2021-08-08
  • Python 实用技巧之利用Shell通配符做字符串匹配

    Python 实用技巧之利用Shell通配符做字符串匹配

    这篇文章主要介绍了Python 实用技巧之利用Shell通配符做字符串匹配的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • pytest接口测试之fixture传参数request的使用

    pytest接口测试之fixture传参数request的使用

    本文主要介绍了pytest接口测试之fixture传参数request的使用,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08

最新评论