如何使用python批量修改文本文件编码格式

 更新时间:2023年03月24日 15:56:05   作者:oceanstonetree  
把文本文件的编码格式进行批量幻化,比如ascii, gb2312, utf8等,相互转化,字符集的大小来看,utf8>gb2312>ascii,因此最好把gb2312转为utf8,否则容易出现乱码,这篇文章主要介绍了如何使用python批量修改文本文件编码格式,需要的朋友可以参考下

使用python批量修改文本文件编码格式

把文本文件的编码格式进行批量幻化,比如ascii, gb2312, utf8等,相互转化,字符集的大小来看,utf8>gb2312>ascii,因此最好把gb2312转为utf8,否则容易出现乱码。

gb2312和utf-8的主要区别:

关于字库规模: UTF-8 > gb2312(utf8字全而gb2312只有汉字)

关于保存大小: UTF-8> gb2312 (utf8更臃肿、加载更慢,gb2312更小巧,加载更快)

关于适用范围:gb2312主要在中国大陆地区使用,是一个本地化的字符集,UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。

import sys
import chardet
import codecs
 
def get_encoding_type(fileName):
    '''print the encoding format of a txt file '''
    with open(fileName, 'rb') as f:
        data = f.read()
        encoding_type = chardet.detect(data)
        #print(encoding_type)
        return encoding_type
        # such as {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
 
def convert_encoding_type(filename_in, filename_out, encode_in="gb2312", encode_out="utf-8"):
    '''convert encoding format of txt file '''
    #filename_in = 'flash.c'
    #filename_out = 'flash_gb2312.c'
    #encode_in = 'utf-8'  # 输入文件的编码类型
    #encode_out = 'gb2312'# 输出文件的编码类型
    with codecs.open(filename=filename_in, mode='r', encoding=encode_in) as fi:
        data = fi.read()
        with open(filename_out, mode='w', encoding=encode_out) as fo:
            fo.write(data)
            fo.close()
        # with open(filename_out, 'rb') as f:
        #     data = f.read()
        #     print(chardet.detect(data))
 
if __name__=="__main__":
    # fileName = argv[1]
    # get_encoding_type(fileName)
    # convert_encoding_type(fileName, fileName)
    filename_of_files = sys.argv[1]   #the file contain full file path at each line
    with open(filename_of_files, 'rb') as f:
        lines = f.readlines()
        for line in lines:
            fileName = line[:-1]
            encoding_type = get_encoding_type(fileName)
            if encoding_type['encoding']=='GB2312':
                print(encoding_type)
                convert_encoding_type(fileName, fileName)
                print(fileName)

补充:python实现文件批量转为utf-8格式

python实现文件批量转为utf-8格式

xml_path = './'
with open(xml_path , 'rb+') as f:
    content = f.read()
    codeType = detect(content)['encoding']
    content = content.decode(codeType, "ignore").encode("utf8")
    fp.seek(0)
    fp.write(content)

到此这篇关于如何使用python批量修改文本文件编码格式的文章就介绍到这了,更多相关python批量修改文本文件编码格式内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python基于paramunittest模块实现excl参数化

    Python基于paramunittest模块实现excl参数化

    这篇文章主要介绍了Python基于paramunittest模块实现excl参数化,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Python os模块中的isfile()和isdir()函数均返回false问题解决方法

    Python os模块中的isfile()和isdir()函数均返回false问题解决方法

    这篇文章主要介绍了Python os模块中的isfile()和isdir()函数均返回false问题解决方法,返回false的原因是路径使用了相对路径,使用绝对路径就可以解决这个问题,需要的朋友可以参考下
    2015-02-02
  • 使用Django清空数据库并重新生成

    使用Django清空数据库并重新生成

    这篇文章主要介绍了使用Django清空数据库并重新生成,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python绘制趋势线的示例代码

    Python绘制趋势线的示例代码

    趋势线是用来显示数据趋势或者预测未来发展方向的一种图形表示方法,这篇文章主要为大家详细介绍了如何使用Python绘制趋势线,需要的可以了解下
    2024-03-03
  • Python入门教程(四十)Python的NumPy数组创建

    Python入门教程(四十)Python的NumPy数组创建

    这篇文章主要介绍了Python入门教程(四十)Python的NumPy数组创建,NumPy 用于处理数组,NumPy 中的数组对象称为 ndarray,我们可以使用 array() 函数创建一个 NumPy ndarray 对象,需要的朋友可以参考下
    2023-05-05
  • python 公共方法汇总解析

    python 公共方法汇总解析

    这篇文章主要介绍了python 公共方法汇总解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • 对Python中的@classmethod用法详解

    对Python中的@classmethod用法详解

    下面小编就为大家分享一篇对Python中的@classmethod用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • python中的三种注释方法

    python中的三种注释方法

    这篇文章主要介绍了python中的三种注释方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-06-06
  • Python游戏推箱子的实现

    Python游戏推箱子的实现

    这篇文章主要介绍了Python游戏推箱子的实现,推箱子游戏是一款可玩性极高的策略解谜手游,游戏中玩家将扮演一名可爱Q萌的角色,下面我们就看看看具体的实现过程吧,需要的小伙伴可以参考一下
    2021-12-12
  • Python判断List中是否包含某个元素

    Python判断List中是否包含某个元素

    在Python中,判断一个列表(List)是否包含某个特定元素是常见的任务之一,本文就来介绍一下多种判断List成员包含性的方法,并提供丰富的示例代码,以帮助大家更好地理解和运用这些技术
    2023-12-12

最新评论