python3访问sina首页中文的处理方法

 更新时间:2014年02月24日 14:36:01   作者:  
如果用python3的urllib或python2的urllib2访问网页,都不能得到正确的中文字符串,看下面的解决方法

复制代码 代码如下:

"""
如果只用普通的
import urllib.request
html = urllib.request.urlopen("http://www.sina.com").read()
print(html.decode('gbk'))

出现下面的错误
builtins.UnicodeDecodeError: 'gbk' codec can't decode byte 0x8b in position 1: illegal multibyte sequence

怎么办?原来是有的网站将网页用gzip压缩了 。
请看下面的代码

建议大家用python2
import urllib2
from StringIO import StringIO
import gzip

request = urllib2.Request('http://www.sina.com')
request.add_header('Accept-encoding', 'gzip')
response = urllib2.urlopen(request)
if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO( response.read())
    f = gzip.GzipFile(fileobj=buf)
    data = f.read()
print data.decode("GBK").encode('utf-8')
"""

import io
import urllib.request as r
import gzip
req = r.Request("http://www.sina.com", headers={"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36", "Accept-Encoding": "gzip"})
bs = r.urlopen(req).read()
bi = io.BytesIO(bs)
gf = gzip.GzipFile(fileobj=bi, mode="rb")
print(gf.read().decode("gbk"))

相关文章

  • python二进制转换模块的具体用法

    python二进制转换模块的具体用法

    在pyton中,通过struct模块来对二进制进行转换,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • Python特殊方法整理汇总

    Python特殊方法整理汇总

    这篇文章主要介绍了Python特殊方法整理汇总,有入门python的朋友可以跟随小编一起来学习下
    2021-03-03
  • Flask sqlalchemy一对多与多对一与一对一及多对多关系介绍

    Flask sqlalchemy一对多与多对一与一对一及多对多关系介绍

    这篇文章主要介绍了Flask sqlalchemy一对多与多对一与一对一及多对多关系介绍,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-09-09
  • 详解超星脚本出现乱码问题的解决方法(Python)

    详解超星脚本出现乱码问题的解决方法(Python)

    超星助手是一款为孩子们提供学习的软件,支持用户们后台运行多开等,还可以签到,查题等多功能,下面这篇文章主要给大家介绍了关于超星脚本出现乱码问题的解决方法,需要的朋友可以参考下
    2022-05-05
  • 手把手教你利用Python创建一个游戏窗口

    手把手教你利用Python创建一个游戏窗口

    pygame是python用来写游戏的扩展包,用这个扩展包,可以比较容易的构造一个游戏窗口,这篇文章主要给大家介绍了关于如何利用Python创建一个游戏窗口的相关资料,需要的朋友可以参考下
    2022-07-07
  • Python使用pypinyin实现中文拼音转换

    Python使用pypinyin实现中文拼音转换

    pypinyin是一个Python库,用于将中文汉字转换为拼音,这篇文章主要为大家详细介绍了pypinyin的基本用法并探讨其应用场景,需要的可以参考下
    2024-02-02
  • python基础之贪婪模式与非贪婪模式

    python基础之贪婪模式与非贪婪模式

    这篇文章主要介绍了python贪婪模式与非贪婪模式 ,实例分析了Python中返回一个返回值与多个返回值的方法,需要的朋友可以参考下
    2021-10-10
  • Python爬取城市租房信息实战分享

    Python爬取城市租房信息实战分享

    这篇文章主要介绍了Python爬取城市房租房信息实战分享,先单线程爬虫,测试可以成功爬取之后再优化为多线程,最后存入数据库,需要的小伙伴可以参考一下的相关资料
    2022-04-04
  • 用pip给python安装matplotlib库的详细教程

    用pip给python安装matplotlib库的详细教程

    这篇文章主要介绍了用pip给python安装matplotlib库的详细教程,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-02-02
  • python re的findall和finditer的区别详解

    python re的findall和finditer的区别详解

    这篇文章主要介绍了python re的findall和finditer的区别详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11

最新评论