python抓取网页时字符集转换问题处理方案分享

更新时间：2014年06月19日 09:45:07 投稿：hebedich

python学习过程中发现英文不好学起来挺困难的，其中小弟就遇到一个十分蛋疼的问题，百度了半天就没找到解决办法~囧~摸索了半天自己解决了，记录下来与君共勉。

问题提出：

有时候我们采集网页，处理完毕后将字符串保存到文件或者写入数据库，这时候需要制定字符串的编码，如果采集网页的编码是gb2312，而我们的数据库是utf-8的，这样不做任何处理直接插入数据库可能会乱码(没测试过，不知道数据库会不会自动转码)，我们需要手动将gb2312转换成utf-8。

首先我们知道，python里的字符默认是ascii码，英文当然没问题啦，碰到中文的时候立马给跪。

不知道你还记不记得，python里打印中文汉字的时候需要在字符串前面加 u：

print u"来搞基吗？"

这样子中文才能显示，这里面的u的作用就是将后面的字符串转换为unicode码，这样中文才能得到正确的显示。
这里与之相关的有一个unicode()函数，用法如下

str="来搞基"
str=unicode(str,"utf-8")
print str

与u的区别是，这里用unicode将str转换为unicode编码，需要正确指定第二个参数，这里的utf-8是我test.py脚本自身的文件字符集，默认的可能是ansi。
unicode这是一个关键，下面继续

我们开始抓取百度首页，注意，游客访问百度首页，查看网页源代码，它的charset=gb2312。

import urllib2
def main():
  f=urllib2.urlopen("http://www.baidu.com")
  str=f.read()
  str=unicode(str,"gb2312")
  fp=open("baidu.html","w")
  fp.write(str.encode("utf-8"))
  fp.close()

if __name__ == '__main__' :
  main()

解释：
我们首先用urllib2.urlopen()方法将百度首页抓取到，f是句柄，用str=f.read()将所有源代码读入str中

搞清楚,str里面就是我们抓取的html源代码，由于网页默认的字符集是gb2312，所以如果我们直接保存到文件中，文件编码将是ansi。

对于大部分人来说，其实这就足够了，但是有时候我就想把gb2312转换成utf-8的该怎么办呢？

首先：
str=unicode(str,"gb2312") #这里的gb2312就是str的实际字符集，我们现在将其转换成unicode

然后：
str=str.encode("utf-8") #将unicode的字符串重新编码成utf-8

最后：

将str写入到文件中，打开文件看一下编码属性，发现是utf-8的了，把<meta charset="gb2312"改成<meta charset="utf-8" ，就是一个utf-8的网页了。做了这么多其实就完成了一个gb2312->utf-8的转码。

总结：

我们回顾一下，如果需要将字符串按照指定的字符集保存，有以下几个步骤：

1：用unicode(str,"原来的编码")将str解码成unicode字符串

2：将unicode字符串str 使用 str.encode("指定的字符集") 转换成你指定的字符集

3：将str保存文件，或者写入数据库等操作，当然，编码你已经指定了，不是吗？

您可能感兴趣的文章:

tensorflow 用矩阵运算替换for循环用tf.tile而不写for的方法
今天小编就为大家分享一篇tensorflow 用矩阵运算替换for循环用tf.tile而不写for的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
Python3操作YAML文件格式方法解析
这篇文章主要介绍了Python3操作YAML文件格式方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-04-04
Python入门学习之类的相关知识总结
今天带大家复习python的基础知识,文中对类的相关知识作了非常详细的介绍,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
2021-05-05
python爬虫之urllib3的使用示例
这篇文章主要介绍了 python爬虫之urllib3的使用示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-07-07
Jupyter notebook命令和编辑模式常用快捷键汇总
这篇文章主要介绍了Jupyter notebook命令和编辑模式常用快捷键汇总,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11
Python中.py文件打包成exe可执行文件详解
这篇文章主要给大家介绍了在Python中.py文件打包成exe可执行文件的相关资料，文中介绍的非常详细，相信对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。
2017-03-03
对python中raw_input()和input()的用法详解
下面小编就为大家分享一篇对python中raw_input()和input()的用法详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
使用python爬取抖音视频列表信息
这篇文章主要介绍了如何用python爬取抖音视频列表信息，本文图文并茂给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2019-07-07
使用python构建WebSocket客户端的教程详解
WebSocket是一种在客户端和服务器之间实现双向通信的协议,常用于实时聊天、实时数据更新等场景,Python提供了许多库来实现 WebSocket客户端,本教程将介绍如何使用Python构建WebSocket客户端,文中通过代码示例给大家介绍的非常详细,需要的朋友可以参考下
2023-12-12
python基于OpenCV模块实现视频流数据切割为图像帧数据(流程分析)
这篇文章主要介绍了python基于OpenCV模块实现视频流数据切割为图像帧数据,这里今天主要是实践一下视频流数据的预处理工作，需要的朋友可以参考下
2022-05-05

python抓取网页时字符集转换问题处理方案分享

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具