python中的编码知识整理汇总

更新时间：2016年01月26日 11:53:15 投稿：hebedich

这篇文章主要介绍了python中的编码知识整理汇总的相关资料,需要的朋友可以参考下

问题

在平时工作中，遇到了这样的错误：

UnicodeDecodeError: 'ascii' codec can't decode byte

想必大家也都碰到过，很常见。于是决定对python的编码做一个整理和学习。

基础知识

在python2.x中，有两种数据类型，unicode和str，这两个都是basestring的子类

>>> a = '中'
>>> type(a)
<type 'str'>
>>> isinstance(a,basestring)
True
>>> a = u'中'
>>> type(a)
<type 'unicode'>
>>> isinstance(a,basestring)
True

两者的区别，概括来讲，str是字节串，由unicode经过编码(encode)后的字节组成的（好比与python3.x的byte）；unicode是对象，才是真正意义上的字符串，由字符组成

>>> a='中文'
>>> len(a)
6
>>> repr(a)
"'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"
>>> b=u'中文'
>>> len(b)
2
>>> repr(b)
"u'\\u4e2d\\u6587'"

控制台和脚本

在linux下的python控制台执行以下命令，所得的结果和执行脚本是不同的

>>> a = u'中文'
>>> repr(a)
"u'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"
>>> b = unicode('中文','utf-8')b)
>>> repr(b)
"u'\\u4e2d\\u6587'"

可以看到，u'中文'初始化的对象a不是我们所期望的，那究竟是什么原因呢？
将python看成是一根管子，管子里头处理的中间过程都是使用unicode的。入口处，全部转成unicode；出口处，再转成目标编码(当然，有例外，处理逻辑中要用到具体编码的情况)。
在控制台执行命令a = u'中文'，可以将解释为命令，a = ‘中文'.decode(encode)，从而到到unicode对象a。那么这里的encode是什么呢？对于控制台来说，就是标准输入，即sys.stdin.encoding

>>> sys.stdin.encoding
'ISO-8859-1'

我的这边控制台默认的编码是ISO-8859-1，故a = u'中文' <=> a = '中文'.decode('ISO-8859-1')
这里的'中文'是控制台理解的，即使根据终端编码方式编码后的字节码，对于utf-8编码的终端，'中文'='\\xe4\\xb8\\xad\\xe6\\x96\\x87'

>>> a='中文'.decode('ISO-8859-1') 
>>> repr(a)
"u'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"

那如何修改此编码值呢，设置为什么呢？在linux环境中设置环境变量方法如下，具体设置什么只要与终端编码方式一直即可

export PYTHONIOENCODING=UTF-8

总结

重新回到最初的那个问题，造成问题的原因是没有搞清楚unicode和str的区别，将两者进行了混用。

>>> a = '中文'
>>> a.encode('gbk')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

以上的对象a其实是str，即字节码，若终端是utf-8编码的话，那么a就是用utf-8 encode的字节码。a.encode('gbk') 等价于a.decode(encoding).encode('gbk')，即先将字节码解码为unicode字符，然后再encode为字节码。unicode对象作为中转站。那么这里的encoding是什么呢？

>>> import sys
>>> sys.getdefaultencoding()
'ascii'

默认是ascii，这正是错误为什么报无法用ascii解码的原因

>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> a = '中文'
>>> repr(a)
"'\\xe4\\xb8\\xad\\xe6\\x96\\x87'"
>>> a.encode('gbk')
'\xd6\xd0\xce\xc4'

将默认编码改为utf-8，即可。不鼓励对str使用encode方法，因为其中隐式对str进行了解码。decode只对str，encode只对unicode，一切decode/encode都显示指定编码方式。

您可能感兴趣的文章:

Python并发编程实例教程之线程的玩法
编程的乐趣之一是想办法让程序执行的越来越快,代码越写越优雅,这篇文章主要给大家介绍了关于Python并发编程实例教程之线程的相关资料,需要的朋友可以参考下
2021-06-06
pycharm设置当前工作目录的操作(working directory)
今天小编就为大家分享一篇pycharm设置当前工作目录的操作(working directory)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
python-yml文件读写与xml文件读写
这篇文章主要介绍了python-yml文件读写与xml文件读写，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-08-08
浅谈Django Admin的初步使用
本文主要介绍了浅谈Django Admin的初步使用，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-12-12
Python如何将bmp格式的图片批量转成jpg
这篇文章主要介绍了Python如何将bmp格式的图片批量转成jpg问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-03-03
Python利用multiprocessing实现最简单的分布式作业调度系统实例
这篇文章主要给大家介绍了关于Python利用multiprocessing如何实现最简单的分布式作业调度系统的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面来一起看看吧。
2017-11-11
详解如何基于Pyecharts绘制常见的直角坐标系图表
pyecharts是基于前端可视化框架echarts的Python可视化库,下面这篇文章主要给大家介绍了关于如何基于Pyecharts绘制常见的直角坐标系图表的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-04-04
谈谈对Pytorch中的forward的理解
这篇文章主要介绍了谈谈对Pytorch中的forward的理解,在Pytorch中，forward方法是一个特殊的方法，被专门用来进行前向传播，本文给大家详细讲解，需要的朋友可以参考下
2023-04-04
Ubuntu下使用python读取doc和docx文档的内容方法
今天小编就为大家分享一篇Ubuntu下使用python读取doc和docx文档的内容方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-05-05
python爬虫入门教程--快速理解HTTP协议（一）
http协议是互联网里面最重要，最基础的协议之一，我们的爬虫需要经常和http协议打交道。下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料，文中介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
2017-05-05

python中的编码知识整理汇总

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具