python解决中文乱码问题的方法小结

 更新时间:2024年11月11日 09:38:56   作者:hakesashou  
在Python编程中,有时候我们会遇到中文乱码的问题,中文乱码指的是在输出或处理中文字符时,出现了显示错误或乱码的情况,下面我将介绍几种常见的解决方法,帮助你解决Python中的中文乱码问题,需要的朋友可以参考下

1、demo.py 文件和编码声明都为 GBK

这种方法比较笨,就是把 demo.py 文件改为 GBK 存储,而且编码声明也是GBK,个人不推荐。

# encoding:gbk
s = "中文"
print s
print repr(s)

2、中文用 unicode 表示

只要在中文前面加上个小u标记,后面的中文就用 unicode 存储了。

# encoding:utf-8
s = u"中文"
print s
print repr(s)

cmd 下是可以打印 unicode 字符的,如下:

3、把中文强制转换为GBK或者unicode编码

强制转换为unicode编码,在 Python 中编码是可以互相转换的,比如从utf-8转换为gbk,不同编码之间不能直接转换,需要通过unicode字符集中间过渡下,从上面基础知识可知unicode是一种字符集,不属于编码,而utf-8是具体实现unicode思想的一种编码。utf-8转换为unicode是一种解码过程,通过decode可从utf-8解码成unicode。

# encoding:utf-8
s = "中文"
u = s.decode('utf-8')
print u
print type(u)
print repr(u)

强制转换为gbk编码,上一步已经从utf-8转换为unicode了,从unicode是编码的过程,通过encode实现。

# encoding:utf-8
s = "中文"
u = s.decode('utf-8')
g = u.encode('gbk')
print g
print type(g)
print repr(g)

总结

windows cmd 窗口下不支持utf-8,想要显示中文必须转换为gbk或者unicode,而 Python idle 中这三种编码都支持。中文乱码的出现都是由于编码不一致导致的,存储的是用utf-8,打印的时候用gbk就会乱码了,所有要保证不乱码尽量保持统一,建议全部使用unicode。

decode 解码

从其它编码变成unicode叫解码,解码用的方法是decode,第一个参数为被解码的字符串原始编码格式,如果写错了也会报错。比如 s 是utf-8,用gbk去解码就会报错。

# encoding:utf-8
s = "中文"
u = s.decode('gbk')
print u
print repr(u)

小提示

在 Python idle 和 cmd 下直接输入 s = "中文"会以 gbk 编码的,如果在文件中输入 s = "中文"且文件存储格式为utf-8,那么 s 是以utf-8编码存储的,有点不一样曾经踩过坑,及时 Python idle 成功了文件运行的时候也可能失败。

encode 编码

不可以直接从utf-8转换为gbk,必须经过unicode中间转换,这点很重要,被编码的原始字符串一定要为unicode,否则会报错。

raw_input

raw_input 是获取用户输入值的,获取到的用户输入值和当前运行环境编码有关,比如 cmd 下默认编码是 gbk,那么输入的汉字就是以gbk编码,而不管 demo.py 文件编码格式和编码声明。

# encoding:utf-8
s = raw_input("input something: ")
print s
print type(s)
print repr(s)

GBK 编码一个汉字两个字节,UTF-8 一个汉字通常3个字节。

细心的朋友已经注意了,raw_input的提示语我用的是英文,那改成中文看看,果真出现乱码了。

# encoding:utf-8
s = raw_input("请输入中文汉字:")
print s
print type(s)
print repr(s)

怎么办呢?把提示字符串强制为gbk编码就好,unicode和utf-8都不可以。

# encoding:utf-8
s = raw_input(u"请输入中文汉字:".encode('gbk'))
print s
print type(s)
print repr(s)

相等陷阱

“中文”这两个字符串用不同的编码存储是不一样的,utf-8编码和gbk编码存储的“中文”都不一样。

总结

想要不乱码,记住以下5点法则:

(1)文件存储为utf-8格式,编码声明为utf-8,# encoding:utf-8。

(2)出现汉字的地方前面加 u。

(3)不同编码之间不能直接转换,要经过unicode中间跳转。

(4)cmd 下不支持utf-8编码。

(5)raw_input提示字符串只能为gbk编码。

到此这篇关于python解决中文乱码问题的方法小结的文章就介绍到这了,更多相关python解决中文乱码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python设计模式之迭代器模式原理与用法实例分析

    Python设计模式之迭代器模式原理与用法实例分析

    这篇文章主要介绍了Python设计模式之迭代器模式原理与用法,结合具体实例形式分析了迭代器模式的概念、原理、定义及使用方法,代码注释说明简单易懂,需要的朋友可以参考下
    2019-01-01
  • 使用Python打造一个Excel批量加密工具

    使用Python打造一个Excel批量加密工具

    在日常办公中,我们经常需要处理包含敏感数据的Excel文件,本文将介绍如何使用Python+PyQt5开发一个支持拖拽操作,emoji美化界面,多线程处理的Excel批量加密工具,感兴趣的可以了解下
    2025-05-05
  • Python random模块用法解析及简单示例

    Python random模块用法解析及简单示例

    这篇文章主要介绍了Python random模块用法解析及简单示例,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • pandas创建新Dataframe并添加多行的实例

    pandas创建新Dataframe并添加多行的实例

    下面小编就为大家分享一篇pandas创建新Dataframe并添加多行的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python使用Pandas对比两列数据取最大值的五种方法

    Python使用Pandas对比两列数据取最大值的五种方法

    本文主要介绍使用 Pandas 对比两列数据取最大值的五种方法,包括使用 max 方法、apply 方法结合 lambda 函数、函数、clip 方法、where 方法结合条件赋值,并通过案例进行详细说明,需要的朋友可以参考下
    2025-02-02
  • Python实现PS滤镜特效之扇形变换效果示例

    Python实现PS滤镜特效之扇形变换效果示例

    这篇文章主要介绍了Python实现PS滤镜特效之扇形变换效果,结合实例形式分析了Python实现PS滤镜扇形变换效果的原理与相关操作技巧,需要的朋友可以参考下
    2018-01-01
  • Python通过m3u8文件下载合并ts视频的操作

    Python通过m3u8文件下载合并ts视频的操作

    这篇文章主要介绍了Python通过m3u8文件下载合并ts视频的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • Python 循环结构详解

    Python 循环结构详解

    这篇文章主要介绍了Python 循环结构,程序的循环结构逻辑,循环就是按照一定的条件重复的去做一件事情,当条件不成立时就结束循环的内容,需要的小伙伴一起和小编一起进入下面文章学习吧
    2022-02-02
  • Python基于Faker假数据构造库

    Python基于Faker假数据构造库

    这篇文章主要介绍了Python基于Faker假数据构造库,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python中用append()连接后多出一列Unnamed的解决

    Python中用append()连接后多出一列Unnamed的解决

    Python中用append()连接后多出一列Unnamed的解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01

最新评论