判断网页编码的方法python版

 更新时间:2016年08月12日 14:34:53   作者:mickelfeng  
这篇文章主要为大家详细介绍了python代码判断网页编码的方法,感兴趣的小伙伴们可以参考一下

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。

下面介绍两种判断网页编码的方法:

总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。

方法一:使用urllib模块的getparam方法    

import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法二:使用chardet模块    

#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

您可能感兴趣的文章:

相关文章

  • python超参数优化的具体方法

    python超参数优化的具体方法

    在本篇文章里小编给大家整理了一篇关于python超参数优化的具体方法,有需要的朋友们可以学习下。
    2021-08-08
  • Python NumPy 数组索引的示例详解

    Python NumPy 数组索引的示例详解

    数组索引是指使用方括号([])来索引数组值,numpy提供了比常规的python序列更多的索引工具,除了按整数和切片索引之外,数组可以由整数数组索引、布尔索引及花式索引,这篇文章主要介绍了Python NumPy 数组索引,需要的朋友可以参考下
    2023-01-01
  • python处理Excel xlrd的简单使用

    python处理Excel xlrd的简单使用

    这篇文章主要为大家详细介绍了python处理Excel的相关资料,xlrd的简单使用,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • Python3.6基于正则实现的计算器示例【无优化简单注释版】

    Python3.6基于正则实现的计算器示例【无优化简单注释版】

    这篇文章主要介绍了Python3.6基于正则实现的计算器,涉及Python基于正则表达式的算术式遍历、查找及数学运算相关操作技巧,需要的朋友可以参考下
    2018-06-06
  • Python 含参构造函数实例详解

    Python 含参构造函数实例详解

    这篇文章主要介绍了Python 含参构造函数实例详解的相关资料,需要的朋友可以参考下
    2017-05-05
  • 使用scipy.optimize的fsolve,root函数求解非线性方程问题

    使用scipy.optimize的fsolve,root函数求解非线性方程问题

    这篇文章主要介绍了使用scipy.optimize的fsolve,root函数求解非线性方程问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • 使用OpenCV去除面积较小的连通域

    使用OpenCV去除面积较小的连通域

    这篇文章主要介绍了使用OpenCV去除面积较小的连通域,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • Python使用sorted排序的方法小结

    Python使用sorted排序的方法小结

    这篇文章主要介绍了Python使用sorted排序的方法,结合三个实例分析了Python使用sorted方法进行元素排序操作的相关实现技巧,需要的朋友可以参考下
    2017-07-07
  • 浅谈Python 钉钉报警必备知识系统讲解

    浅谈Python 钉钉报警必备知识系统讲解

    这篇文章主要介绍了浅谈Python 钉钉报警必备知识系统讲解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Python中装饰器使用方法整理

    Python中装饰器使用方法整理

    这篇文章主要介绍了Python中装饰器使用方法整理,装饰器是给现有的模块增添新的小功能,可以对原函数进行功能扩展,而且还不需要修改原函数的内容,也不需要修改原函数的调用,需要的朋友可以参考下
    2023-08-08

最新评论