详解Python解决抓取内容乱码问题(decode和encode解码)

 更新时间:2019年03月29日 17:11:51   作者:浅然_  
这篇文章主要介绍了Python解决抓取内容乱码问题(decode和encode解码),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

相关文章

  • 在Django中实现添加user到group并查看

    在Django中实现添加user到group并查看

    今天小编就为大家分享一篇在Django中实现添加user到group并查看,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Python中eval带来的潜在风险代码分析

    Python中eval带来的潜在风险代码分析

    这篇文章主要介绍了Python中eval带来的潜在风险代码分析,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • Python利用PyMuPDF实现PDF文件处理

    Python利用PyMuPDF实现PDF文件处理

    PyMuPDF是MuPDF的Python绑定-“轻量级PDF和XPS查看器”。本文将利用PyMuPDF实现PDF的一些基本操作,文中的示例代码讲解详细,感兴趣的可以了解一下
    2022-05-05
  • Python实现信息轰炸工具(再也不怕说不过别人了)

    Python实现信息轰炸工具(再也不怕说不过别人了)

    不知道各位小伙伴有没有遇到过这样的一个故事,发现自己直接喷不过,打字速度不够给力.下面这篇文章就能解决自己喷不过的苦恼,话不多说,上才艺,需要的朋友可以参考下
    2021-06-06
  • 详解tensorflow之过拟合问题实战

    详解tensorflow之过拟合问题实战

    这篇文章主要介绍了详解tensorflow之过拟合问题实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • 对Python中实现两个数的值交换的集中方法详解

    对Python中实现两个数的值交换的集中方法详解

    今天小编就为大家分享一篇对Python中实现两个数的值交换的集中方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • python使用Tkinter实现在线音乐播放器

    python使用Tkinter实现在线音乐播放器

    这篇文章主要为大家详细介绍了python使用Tkinter实现在线音乐播放器,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • Pycharm 跳转回之前所在页面的操作

    Pycharm 跳转回之前所在页面的操作

    这篇文章主要介绍了Pycharm 跳转回之前所在页面的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • Django使用Mysql数据库已经存在的数据表方法

    Django使用Mysql数据库已经存在的数据表方法

    今天小编就为大家分享一篇Django使用Mysql数据库已经存在的数据表方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • python如何查看安装了的模块

    python如何查看安装了的模块

    在本篇文章里小编给大家分享的是一篇关于python查看安装了的模块的方法,需要的朋友们可以学习下。
    2020-06-06

最新评论