Python实现把utf-8格式的文件转换成gbk格式的文件

 更新时间:2015年01月22日 10:32:24   投稿:junjie  
这篇文章主要介绍了Python实现把utf-8格式的文件转换成gbk格式的文件,本文给出了实现代码并同时剖析了代码的作用,需要的朋友可以参考下

需求:将utf-8格式的文件转换成gbk格式的文件

实现代码如下:

复制代码 代码如下:

def ReadFile(filePath,encoding="utf-8"):
    with codecs.open(filePath,"r",encoding) as f:
        return f.read()
 
def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath,"w",encoding) as f:
        f.write(u)
 
def UTF8_2_GBK(src,dst):
    content = ReadFile(src,encoding="utf-8")
    WriteFile(dst,content,encoding="gbk")

代码讲解:

函数ReadFile的第二个参数指定以utf-8格式的编码方式读取文件,返回的结果content为Unicode然后,在将Unicode以gbk格式写入文件中。

这样就能实现需求。
但是,如果要转换格式的文件中包含有一些字符并不包含在gbk字符集中的话,就会报错,类似如下:

复制代码 代码如下:

UnicodeEncodeError: 'gbk' codec can't encode character u'\xa0' in position 4813: illegal multibyte sequence

以上的报错信息的意思是:在将Unicode编码成gbk的时候,不能将Unicode u'\xa0'编码成gbk。

这里,我们需要弄清楚gb2312、gbk和gb18030三者之间的关系

复制代码 代码如下:

GB2312:6763个汉字
GBK:21003个汉字
GB18030-2000:27533个汉字
GB18030-2005:70244个汉字

所以,GBK是GB2312的超集,GB18030是GBK的超集。
理清了关系之后,我们进一步改进下代码:
复制代码 代码如下:

def UTF8_2_GBK(src,dst):
    content = ReadFile(src,encoding="utf-8")
    WriteFile(dst,content,encoding="gb18030")

运行后,发现没有报错,可以正常运行。

因为,在GB18030字符集中,可以找到u'\xa0'对应的字符。
 此外,还有另外一种实现方案:
需要修改下WriteFile方法

复制代码 代码如下:

def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath,"w") as f:
        f.write(u.encode(encoding,errors="ignore"))

这里,我们将Unicode编码(encode)成gbk格式,但是注意encode函数的第二个参数,我们赋值"ignore",表示在编码的时候,忽略掉那些无法编码的字符,解码同理。

但是,当我们执行后,发现可以成功的将utf-8格式的文件修改成了ansi格式。但,另外发现生成的文件中,每个一行都有一行空行。

这里,可以指定以二进制流的形式写文件,修改后的代码如下:

复制代码 代码如下:

def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath,"wb") as f:
        f.write(u.encode(encoding,errors="ignore"))

相关文章

  • python动画manim中的颜色ManimColor的使用方法详解

    python动画manim中的颜色ManimColor的使用方法详解

    这篇文章主要介绍了python动画manim中的颜色ManimColor的使用方法,本文通过实例图文展示给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2024-08-08
  • python读取Dicom文件的示例详解

    python读取Dicom文件的示例详解

    这篇文章通过示例代码介绍了python读取Dicom文件的方法,代码简单易懂,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2024-01-01
  • Python对CSV、Excel、txt、dat文件的处理

    Python对CSV、Excel、txt、dat文件的处理

    本文介绍的是Python对CSV、Excel、txt、dat文件的处理,具有一定的参考价值,需要的朋友跟随小编一起来看下
    2018-09-09
  • 为何人工智能(AI)首选Python?读完这篇文章你就知道了(推荐)

    为何人工智能(AI)首选Python?读完这篇文章你就知道了(推荐)

    这篇文章主要介绍了为何人工智能(AI)首选Python,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python 3.8 的anaconda下载方法

    python 3.8 的anaconda下载方法

    本文详细介绍了如何下载和安装带有Python3.8的Anaconda发行版,包括Anaconda简介、下载步骤、安装指南以及验证安装结果,此外,还介绍了如何设置Python3.8作为默认版本并利用别名功能进行快捷切换,帮助读者快速上手使用这一强大的数据科学工具,感兴趣的朋友一起看看吧
    2025-02-02
  • Python绘制饼图、圆环图的实例

    Python绘制饼图、圆环图的实例

    这篇文章主要介绍了Python绘制饼图、圆环图的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Django框架文件上传与自定义图片上传路径、上传文件名操作分析

    Django框架文件上传与自定义图片上传路径、上传文件名操作分析

    这篇文章主要介绍了Django框架文件上传与自定义图片上传路径、上传文件名操作,结合实例形式分析了Django框架文件上传的原理、步骤、实现方法以及图片上传时自定义上传路径、上传文件名的相关操作技巧,需要的朋友可以参考下
    2019-05-05
  • python3.5绘制随机漫步图

    python3.5绘制随机漫步图

    这篇文章主要为大家详细介绍了python3.5绘制随机漫步图,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • Python高阶函数之filter()函数代码示例

    Python高阶函数之filter()函数代码示例

    这篇文章主要介绍了Python高阶函数之filter()函数代码示例,获取了一个序列的时候,想要把一些内容去掉,保留一部分内容的时候可以使用高效的filter()函数,需要的朋友可以参考下
    2023-07-07
  • Python文本特征抽取与向量化算法学习

    Python文本特征抽取与向量化算法学习

    这篇文章主要为大家详细介绍了Python文本特征抽取与向量化算法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12

最新评论