python解决中文乱码问题的方法小结

更新时间：2024年11月11日 09:38:56 作者：hakesashou

在Python编程中,有时候我们会遇到中文乱码的问题,中文乱码指的是在输出或处理中文字符时,出现了显示错误或乱码的情况,下面我将介绍几种常见的解决方法,帮助你解决Python中的中文乱码问题,需要的朋友可以参考下

1、demo.py 文件和编码声明都为 GBK

这种方法比较笨，就是把 demo.py 文件改为 GBK 存储，而且编码声明也是GBK，个人不推荐。

# encoding:gbk
s = "中文"
print s
print repr(s)

2、中文用 unicode 表示

只要在中文前面加上个小u标记，后面的中文就用 unicode 存储了。

# encoding:utf-8
s = u"中文"
print s
print repr(s)

cmd 下是可以打印 unicode 字符的，如下：

3、把中文强制转换为GBK或者unicode编码

强制转换为unicode编码，在 Python 中编码是可以互相转换的，比如从utf-8转换为gbk，不同编码之间不能直接转换，需要通过unicode字符集中间过渡下，从上面基础知识可知unicode是一种字符集，不属于编码，而utf-8是具体实现unicode思想的一种编码。utf-8转换为unicode是一种解码过程，通过decode可从utf-8解码成unicode。

# encoding:utf-8
s = "中文"
u = s.decode('utf-8')
print u
print type(u)
print repr(u)

强制转换为gbk编码，上一步已经从utf-8转换为unicode了，从unicode是编码的过程，通过encode实现。

# encoding:utf-8
s = "中文"
u = s.decode('utf-8')
g = u.encode('gbk')
print g
print type(g)
print repr(g)

总结

windows cmd 窗口下不支持utf-8，想要显示中文必须转换为gbk或者unicode，而 Python idle 中这三种编码都支持。中文乱码的出现都是由于编码不一致导致的，存储的是用utf-8，打印的时候用gbk就会乱码了，所有要保证不乱码尽量保持统一，建议全部使用unicode。

decode 解码

从其它编码变成unicode叫解码，解码用的方法是decode，第一个参数为被解码的字符串原始编码格式，如果写错了也会报错。比如 s 是utf-8，用gbk去解码就会报错。

# encoding:utf-8
s = "中文"
u = s.decode('gbk')
print u
print repr(u)

小提示

在 Python idle 和 cmd 下直接输入 s = "中文"会以 gbk 编码的，如果在文件中输入 s = "中文"且文件存储格式为utf-8，那么 s 是以utf-8编码存储的，有点不一样曾经踩过坑，及时 Python idle 成功了文件运行的时候也可能失败。

encode 编码

不可以直接从utf-8转换为gbk，必须经过unicode中间转换，这点很重要，被编码的原始字符串一定要为unicode，否则会报错。

raw_input

raw_input 是获取用户输入值的，获取到的用户输入值和当前运行环境编码有关，比如 cmd 下默认编码是 gbk，那么输入的汉字就是以gbk编码，而不管 demo.py 文件编码格式和编码声明。

# encoding:utf-8
s = raw_input("input something: ")
print s
print type(s)
print repr(s)

GBK 编码一个汉字两个字节，UTF-8 一个汉字通常3个字节。

细心的朋友已经注意了，raw_input的提示语我用的是英文，那改成中文看看，果真出现乱码了。

# encoding:utf-8
s = raw_input("请输入中文汉字：")
print s
print type(s)
print repr(s)

怎么办呢？把提示字符串强制为gbk编码就好，unicode和utf-8都不可以。

# encoding:utf-8
s = raw_input(u"请输入中文汉字：".encode('gbk'))
print s
print type(s)
print repr(s)

相等陷阱

“中文”这两个字符串用不同的编码存储是不一样的，utf-8编码和gbk编码存储的“中文”都不一样。

总结

想要不乱码，记住以下5点法则：

（1）文件存储为utf-8格式，编码声明为utf-8，# encoding:utf-8。

（2）出现汉字的地方前面加 u。

（3）不同编码之间不能直接转换，要经过unicode中间跳转。

（4）cmd 下不支持utf-8编码。

（5）raw_input提示字符串只能为gbk编码。

到此这篇关于python解决中文乱码问题的方法小结的文章就介绍到这了,更多相关python解决中文乱码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

tensorflow创建变量以及根据名称查找变量
这篇文章主要为大家详细介绍了tensorflow创建变量以及根据名称查找变量，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
Go/Python/Erlang编程语言对比分析及示例代码
这篇文章主要介绍了Go/Python/Erlang编程语言对比分析及示例代码,本文重点是给大家介绍go语言，从语言对比分析的角度切入介绍，需要的朋友可以参考下
2018-04-04
OpenCV Python实现拼图小游戏
这篇文章主要为大家详细介绍了OpenCV Python实现拼图版小游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-03-03
Jupyter打开图形界面并画出正弦函数图像实例
这篇文章主要介绍了Jupyter打开图形界面并画出正弦函数图像实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-04-04
利用python 下载bilibili视频
这篇文章主要介绍了利用python 下载bilibili视频，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2020-11-11
一文带你搞懂Python如何解析CSV文件
CSV（Comma-Separated Values）是一种以纯文本格式存储表格数据的文件格式,本文主要为大家详细介绍了如何使用Python解析CSV文件,有需要的小伙伴可以了解下
2026-03-03
pandas学习之df.fillna的具体使用
本文主要介绍了pandas学习之df.fillna的具体使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-08-08
Python处理excel根据全称自动填写简称
这篇文章主要为大家详细介绍了Python处理excel根据全称自动填写简称，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-03-03
2022最新Python日志库logging总结
这篇文章主要介绍了2022最新Python日志库logging总结,Python logging 库设计的真的非常灵活，如果有特殊的需要还可以在这个基础的 logging 库上进行改进，创建新的 Handler 类解决实际开发中的问题，需要的朋友可以参考下
2022-05-05
Python用类实现扑克牌发牌的示例代码
这篇文章主要介绍了Python用类实现扑克牌发牌的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-06-06

python解决中文乱码问题的方法小结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具