python处理中文编码和判断编码示例

 更新时间:2014年02月26日 11:22:03   作者:  
在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码

下面所说的都是针对python2.7

复制代码 代码如下:

#coding:utf-8
#chardet 需要下载安装

import chardet
#抓取网页html
line = "http://www.***.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
#print html_1
encoding_dict = chardet.detect(html_1)
#print encoding
web_encoding = encoding_dict['encoding']
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':

  html = html_1
else :
   html = html_1.decode('gbk','ignore').encode('utf-8')

#有以上处理,整个html就不会是乱码。

相关文章

  • Django应用程序中如何发送电子邮件详解

    Django应用程序中如何发送电子邮件详解

    我们常常会用到一些发送邮件的功能,比如有人提交了应聘的表单,可以向HR的邮箱发邮件,这样,HR不看网站就可以知道有人在网站上提交了应聘信息。下面这篇文章就介绍了在Django应用程序中如何发送电子邮件的相关资料,需要的朋友可以参考借鉴。
    2017-02-02
  • Python打包文件执行报错:ModuleNotFoundError: No module named ‘pymssql‘的解决方法

    Python打包文件执行报错:ModuleNotFoundError: No module 

    这篇文章给大家介绍了Python打包文件执行报错:ModuleNotFoundError: No module named ‘pymssql‘的解决方法,如果有遇到相同问题的朋友可以参考阅读一下本文
    2023-10-10
  • Python进阶学习修改闭包内使用的外部变量

    Python进阶学习修改闭包内使用的外部变量

    这篇文章主要为大家介绍了Python进阶学习修改闭包内使用的外部变量实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • Python multiprocessing 进程间通信方式实现

    Python multiprocessing 进程间通信方式实现

    本文主要介绍了Python multiprocessing 进程间通信方式实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python和Ruby中each循环引用变量问题(一个隐秘BUG?)

    Python和Ruby中each循环引用变量问题(一个隐秘BUG?)

    这篇文章主要介绍了Python和Ruby中each循环引用变量问题,类似PHP的foreach中使用引用变量的问题,需要的朋友可以参考下
    2014-06-06
  • Python 函数list&read&seek详解

    Python 函数list&read&seek详解

    这篇文章主要介绍了Python 函数list&read&seek详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • python 教程之blinker 信号库

    python 教程之blinker 信号库

    这篇文章主要介绍了python 教程之blinker 信号库,文章基于python的相关资料展开详细的内容说明。具有一定的参考价价值,需要的小伙伴可以参考一下
    2022-05-05
  • python3使用腾讯企业邮箱发送邮件的实例

    python3使用腾讯企业邮箱发送邮件的实例

    今天小编就为大家分享一篇python3使用腾讯企业邮箱发送邮件的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • 对pytorch的函数中的group参数的作用介绍

    对pytorch的函数中的group参数的作用介绍

    今天小编就为大家分享一篇对pytorch的函数中的group参数的作用介绍,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • django数据模型(Model)的字段类型解析

    django数据模型(Model)的字段类型解析

    这篇文章主要介绍了django数据模型(Model)的字段类型,文中给大家提到了django数据模型on_delete, db_constraint的使用,需要的朋友可以参考下
    2019-12-12

最新评论