解决Python网页爬虫之中文乱码问题

 更新时间:2018年05月11日 08:55:50   作者:ToringZZZ  
今天小编就为大家分享一篇解决Python网页爬虫之中文乱码问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • beam search及pytorch的实现方式

    beam search及pytorch的实现方式

    这篇文章主要介绍了beam search及pytorch的实现方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • Python 使用 pyc 解决明文密钥问题记录

    Python 使用 pyc 解决明文密钥问题记录

    pyc 是 Python 经过 compile 后的文件类型,一段 Python 代码执行前会先将 .py 文件编译成 .pyc 文件它是一种字节码 byte code,然后由 Python 虚拟机执行,这篇文章主要介绍了Python使用pyc解决明文密钥问题,需要的朋友可以参考下
    2023-07-07
  • Tornado Application的实现

    Tornado Application的实现

    本文主要介绍了Tornado Application的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-05-05
  • Python循环取数组的值的方法实现

    Python循环取数组的值的方法实现

    本文主要介绍了两种Python中遍历数组的方法,for循环和索引,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-12-12
  • Python基础之元类详解

    Python基础之元类详解

    这篇文章主要介绍了Python基础之元类详解,文中有非常详细的代码示例,对正在学习python基础的小伙伴们有非常好的帮助,需要的朋友可以参考下
    2021-04-04
  • Python进阶_关于命名空间与作用域(详解)

    Python进阶_关于命名空间与作用域(详解)

    下面小编就为大家带来一篇Python进阶_关于命名空间与作用域(详解)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-05-05
  • python创建和使用字典实例详解

    python创建和使用字典实例详解

    字典是python中唯一内建的映射类型。字典中的值并没有特殊的顺序,但是都存储在一个特定的键(key)里。
    2013-11-11
  • python 链接sqlserver 写接口实例

    python 链接sqlserver 写接口实例

    这篇文章主要介绍了python 链接sqlserver 写接口实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python如何实现全角半角的相互转换

    python如何实现全角半角的相互转换

    这篇文章主要介绍了python如何实现全角半角的相互转换方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • Python函数的迭代器与生成器的示例代码

    Python函数的迭代器与生成器的示例代码

    这篇文章主要介绍了Python函数的迭代器与生成器的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06

最新评论