Python爬虫之必备chardet库

 更新时间:2021年04月30日 11:39:07   作者:数据分析与统计学之美  
这篇文章主要介绍了Python爬虫之必备chardet库,文中有非常详细的代码示例,对正在学习python的小伙伴们有非常好的帮助,需要的朋友可以参考下

一、chardet库的安装与介绍

玩儿过爬虫的朋友应该知道,在爬取不同的网页时,返回结果会出现乱码的情况。比如,在爬取某个中文网页的时候,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的。

虽然HTML页面有charset标签,但是有些时候是不对的,那么chardet就能帮我们大忙了。使用 chardet 可以很方便的实现字符串/文件的编码检测。

如果你安装过Anaconda,那么可以直接使用chardet库。如果你只是安装了Python的话,就需要使用下面几行代码,完成chardet库的安装。

pip install chardet

接着,使用下面这行代码,导入chardet库。

import chardet

二、chardet库的使用

这个小节,我们分3部分讲解。

2.1 chardet.detect()函数

detect()函数接受一个参数,一个非unicode字符串。它返回一个字典,其中包含自动检测到的字符编码和从0到1的可信度级别。

  • encoding:表示字符编码方式。
  • confidence:表示可信度。
  • language:语言。

光看这个解释,大多数朋友可能看不懂,下面我们就用例子来讲述这个函数。

2.2 使用该函数分别检测gbk、utf-8和日语

检测gbk编码的中文:

str1 = '大家好,我是黄同学'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

结果如下:

在这里插入图片描述

检测的编码是GB2312,注意到GBK是GB2312的父集,两者是同一种编码,检测正确的概率是99%,language字段指出的语言是'Chinese'。

检测utf-8编码的中文:

str2 = '我有一个梦想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

结果如下:

在这里插入图片描述

检测一段日文:

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

结果如下:

在这里插入图片描述

2.3 如何在“爬虫”中使用chardet库呢?

我们以百度网页为例子,进行讲述。

在这里插入图片描述

这个网页的源代码,使用的是什么编码呢?我们看看源代码:

在这里插入图片描述

从图中可以看到,是utf-8字符编码。

如果不使用chardet库,获取网页源代码的时候,怎么指定字符编码呢?

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

结果如下:

在这里插入图片描述

你会发现:正确指定编码后,没有乱码。如果你将编码改为gbk,再看看结果。此时已经乱码。

在这里插入图片描述

如果使用chardet库,获取网页源代码的时候,可以轻松指定字符编码!

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面这行代码,是怎么写的?
response.encoding = chardet.detect(response.content)['encoding']
response.text

结果如下:

在这里插入图片描述

编码不用我们自己查找,也不用猜,直接交给chardet库去猜测,正确率还高。

到此这篇关于Python爬虫之必备chardet库的文章就介绍到这了,更多相关Python chardet库内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python pandas获取csv指定行 列的操作方法

    python pandas获取csv指定行 列的操作方法

    这篇文章主要介绍了pandas获取csv指定行,列的操作方法,本文简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-07-07
  • pycharm中cv2的package安装失败问题及解决

    pycharm中cv2的package安装失败问题及解决

    这篇文章主要介绍了pycharm中cv2的package安装失败问题及解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05
  • python包管理工具pip全面解析

    python包管理工具pip全面解析

    这篇文章主要为大家介绍了python包管理工具pip的全面解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12
  • Pycharm 安装 idea VIM插件的图文教程详解

    Pycharm 安装 idea VIM插件的图文教程详解

    这篇文章主要介绍了Pycharm 安装 idea VIM的教程,本文通过图文并茂的形式给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • Python pyside6编写一个广告图片生成器

    Python pyside6编写一个广告图片生成器

    这篇文章主要为大家详细介绍了Python如何使用pyside6编写一个广告图片生成器,可以快速制作包含产品图片和文字的广告图片,需要的可以参考下
    2025-01-01
  • 基于python3 的百度图片下载器的实现代码

    基于python3 的百度图片下载器的实现代码

    这篇文章主要介绍了基于python3 的百度图片下载器的实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • Python爬取个人微信朋友信息操作示例

    Python爬取个人微信朋友信息操作示例

    这篇文章主要介绍了Python爬取个人微信朋友信息操作,涉及Python使用itchat包实现微信朋友信息爬取操作相关实现技巧,需要的朋友可以参考下
    2018-08-08
  • pytorch多GPU并行运算的实现

    pytorch多GPU并行运算的实现

    这篇文章主要介绍了pytorch多GPU并行运算的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-09-09
  • python中如何使用正则表达式的非贪婪模式示例

    python中如何使用正则表达式的非贪婪模式示例

    贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为,下面这篇文章主要给大家介绍了关于python中如何使用正则表达式的非贪婪模式的相关资料,文中通过示例代码介绍的非常详细,对大家的学习具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-10-10
  • Python 如何写入Excel格式和颜色

    Python 如何写入Excel格式和颜色

    这篇文章主要介绍了Python 写入Excel格式和颜色的实现方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03

最新评论