Python转码问题的解决方法

更新时间：2008年10月07日 23:50:38 作者：

在Python中，可以对String调用decode和encode方法来实现转码。

比如，若要将某个String对象s从gbk内码转换为UTF-8，可以如下操作
s.decode('gbk').encode('utf-8′)
可是，在实际开发中，我发现，这种办法经常会出现异常：
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中，全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在转码的过程中出现了异常。
这样的问题很让人头疼，因为只要字符串中出现了一个非法字符，整个字符串——有时候，就是整篇文章——就都无法转码。

解决办法：
s.decode('gbk', ‘ignore').encode('utf-8′)
因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

python文档

decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.

您可能感兴趣的文章:

python导出requirements.txt的几种方法总结
这篇文章主要介绍了python导出requirements.txt的几种方法总结，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
Python深入学习之闭包
这篇文章主要介绍了Python深入学习之闭包,闭包(closure)是函数式编程的重要的语法结构,Python也支持这一特性,本文就这一特性做了讲解,需要的朋友可以参考下
2014-08-08
七种Python代码审查工具推荐
这篇文章主要介绍了七种Python代码审查工具推荐，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-03-03
python实现寻找最长回文子序列的方法
这篇文章主要为大家详细介绍了python实现寻找最长回文子序列的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-06-06
Tensorflow设置显存自适应,显存比例的操作
今天小编就为大家分享一篇Tensorflow设置显存自适应,显存比例的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
python+selenium识别验证码并登录的示例代码
本篇文章主要介绍了python+selenium识别验证码并登录的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-12-12
Python中urllib+urllib2+cookielib模块编写爬虫实战
这篇文章主要介绍了Python的urllib+urllib2+cookielib模块编写爬虫实战,文中给出了抓取豆瓣同城和登陆图书馆查询图书归还的爬取例子,需要的朋友可以参考下
2016-01-01
python OpenCV GrabCut使用实例解析
这篇文章主要介绍了python OpenCV GrabCut使用实例解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
python合并同类型excel表格的方法
这篇文章主要为大家详细介绍了python合并同类型excel表格的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-04-04
基于python实现计算两组数据P值
这篇文章主要介绍了基于python实现计算两组数据P值,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-07-07