解决Python网页爬虫之中文乱码问题

 更新时间:2018年05月11日 08:55:50   作者:ToringZZZ  
今天小编就为大家分享一篇解决Python网页爬虫之中文乱码问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 设计模式中的原型模式在Python程序中的应用示例

    设计模式中的原型模式在Python程序中的应用示例

    这篇文章主要介绍了设计模式中的原型模式在Python程序中的应用示例,文中主要强调了对浅拷贝和深拷贝在对象复制时的使用,需要的朋友可以参考下
    2016-03-03
  • Python tkinter模块中类继承的三种方式分析

    Python tkinter模块中类继承的三种方式分析

    这篇文章主要介绍了Python tkinter模块中类继承的三种方式,结合实例形式分析了三种继承方式的实现方法与相关注意事项,需要的朋友可以参考下
    2017-08-08
  • Python CSV 文件解析和生成方法示例

    Python CSV 文件解析和生成方法示例

    这篇文章主要为大家介绍了Python CSV 文件的解析和生成方法示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • 代码详解Python的函数基础(2)

    代码详解Python的函数基础(2)

    这篇文章主要为大家详细介绍了Python的函数基础,使用了函数参数和递归函数,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • 使用Pandas进行Excel数据处理的操作和技巧

    使用Pandas进行Excel数据处理的操作和技巧

    在数据处理和分析的过程中,Excel是一个非常常见的工具,然而,当数据量变大,操作复杂度增加时,Excel的效率和功能可能无法满足需求,Pandas是一个强大的Python数据处理库,本文将介绍如何使用Pandas进行Excel数据处理,并展示一些常见的操作和技巧
    2023-11-11
  • Python 存储字符串时节省空间的方法

    Python 存储字符串时节省空间的方法

    这篇文章主要介绍了Python 存储字符串时节省空间的方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-04-04
  • 关于Python中字典dict的存储原理详解

    关于Python中字典dict的存储原理详解

    Python字典是另一种可变容器模型,可存储任意类型对象。如字符串、数字、元组等其他容器模型,因为字典是无序的所以不支持索引和切片,需要的朋友可以参考下
    2023-05-05
  • python tiktoken的简介、安装、使用方法

    python tiktoken的简介、安装、使用方法

    tiktoken是OpenAI于近期开源的Python第三方模块,该模块主要实现了tokenizer的BPE(Byte pair encoding)算法,并对运行性能做了极大的优化,本文将介绍python tiktoken的简介、安装、使用方法,感兴趣的朋友跟随小编一起看看吧
    2023-10-10
  • Python计算一个文件里字数的方法

    Python计算一个文件里字数的方法

    这篇文章主要介绍了Python计算一个文件里字数的方法,涉及Python文件操作及内容遍历的相关技巧,需要的朋友可以参考下
    2015-06-06
  • python3.6.4安装opencv3.4.2的实现

    python3.6.4安装opencv3.4.2的实现

    这篇文章主要介绍了python3.6.4安装opencv3.4.2的实现方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-10-10

最新评论