Python批量将csv文件编码方式转换为UTF-8的实战记录

更新时间：2022年07月04日 10:49:40 作者：牧文山

近日在处理数据的时候发现有的文件为csv文件,Xiam 这篇文章主要给大家介绍了关于利用Python批量将csv文件编码方式转换为UTF-8的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

当我们用pandas是操作CSV文件的时候，常常会因为编码问题出现报错。

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader.read()

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory()

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader._read_rows()

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader._convert_column_data()

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader._convert_tokens()

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

pandas_libs\parsers.pyx in pandas._libs.parsers.TextReader._string_convert()

pandas_libs\parsers.pyx in pandas._libs.parsers._string_box_utf8()

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xca in position 0: invalid continuation byte

如果只是一两个文件，我们可以用系统自带记事本的方法进行解决：

1、右键csv文件，打开方式选择“记事本”打开；
2、ctrl+shift+s另存为，将编码方式由ansi给改为UTF-8，点击确定并替换原文件。

嫌麻烦的也可以在每次用pandas读取csv前加入以下代码。

import pandas as pd
filename='222.csv'
try:
    df = pd.read_csv(filename, encoding='utf-8')
except BaseException:
    df = pd.read_csv(filename, encoding='cp950')
    df.to_csv(filename, encoding='utf-8', index=False)

如果很多类似的ASCII的CSV文件就会非常头痛，下面我们用Python编写一个程序，用来检测并批量转换csv文件的编码方式。

需要指出的是，这个程序并不完善，运行速度没有进行优化，并且仍然有部分文件未能转换成功，但足以应对日常的分析需要。经过尝试，有几种csv文件无法转换：

1、包含图片或者图表的csv文件

2、原先的csv文件内容就是乱码的

觉得有帮助，那请给这篇文章点个赞吧❤️

演示效果：

代码：

import os
from chardet.universaldetector import UniversalDetector

def get_filelist(path):
    """
    获取路径下所有csv文件的路径列表
    """
    Filelist = []
    for home, dirs, files in os.walk(path):
        for filename in files:
            if ".csv" in filename:
                Filelist.append(os.path.join(home, filename))
    return Filelist

def read_file(file):
    """
    逐个读取文件的内容
    """
    with open(file, 'rb') as f:
        return f.read()

def get_encode_info(file):
    """
    逐个读取文件的编码方式
    """
    with open(file, 'rb') as f:
        detector = UniversalDetector()
        for line in f.readlines():
            detector.feed(line)
            if detector.done:
                break
        detector.close()
        return detector.result['encoding']

def convert_encode2utf8(file, original_encode, des_encode):
    """
    将文件的编码方式转换为utf-8，并写入原先的文件中。
    """    
    file_content = read_file(file)
    file_decode = file_content.decode(original_encode, 'ignore')
    file_encode = file_decode.encode(des_encode)
    with open(file, 'wb') as f:
        f.write(file_encode)

def read_and_convert(path):
    """
    读取文件并转换
    """
    Filelist = get_filelist(path=path)
    fileNum= 0
    for filename in Filelist:
        try:
            file_content = read_file(filename)
            encode_info = get_encode_info(filename)
            if encode_info != 'utf-8':
                fileNum +=1
                convert_encode2utf8(filename, encode_info, 'utf-8')
                print('成功转换 %s 个文件 %s '%(fileNum,filename))
        except BaseException:
            print(filename,'存在问题，请检查！')

def recheck_again(path):
    """
    再次判断文件是否为utf-8
    """    
    print('---------------------以下文件仍存在问题---------------------')
    Filelist = get_filelist(path)
    for filename in Filelist:
        encode_info_ch = get_encode_info(filename)
        if encode_info_ch != 'utf-8':
            print(filename,'的编码方式是：',encode_info_ch)

    print('--------------------------检查结束--------------------------')
if __name__ == "__main__":
    """
    输入文件路径
    """    
    path = './'
    read_and_convert(path)
    recheck_again(path)
    print('转换结束！')

核心代码是：

def get_encode_info(file):
    """
    逐个读取文件的编码方式
    """
    with open(file, 'rb') as f:
        detector = UniversalDetector()
        for line in f.readlines():
            detector.feed(line)
            if detector.done:
                break
        detector.close()
        return detector.result['encoding']

Filelist = get_filelist(path=path)
fileNum= 0
for filename in Filelist:
    try:
        file_content = read_file(filename)
        encode_info = get_encode_info(filename)
        if encode_info != 'utf-8':
            fileNum +=1
            convert_encode2utf8(filename, encode_info, 'utf-8')
            print('成功转换 %s 个文件 %s '%(fileNum,filename))
            except BaseException:
                print(filename,'存在问题，请检查！')

总结

到此这篇关于Python批量将csv文件编码方式转换为UTF-8的文章就介绍到这了,更多相关Python批量转换csv文件编码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python使用正则表达式过滤或替换HTML标签的方法详解
这篇文章主要介绍了Python使用正则表达式过滤或替换HTML标签的方法,简单介绍了Python正则相关语法并结合具体实例形式分析了Python基于正则表达式的HTML标签过滤与替换相关操作技巧,需要的朋友可以参考下
2017-09-09
Python 中最长公共子序列的长度
子序列是在不改变剩余字符的顺序的情况下，在删除一些字符或不删除任何字符后从给定序列获得的序列，这篇文章主要介绍了Python 中的最长公共子序列,需要的朋友可以参考下
2023-06-06
python使用turtle库绘制奥运五环
turtle也叫海龟，是turtle绘图体系的python实现，这篇文章主要介绍了python使用turtle库绘制奥运五环，本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下
2020-02-02
Using Django with GAE Python 后台抓取多个网站的页面全文
这篇文章主要介绍了Using Django with GAE Python 后台抓取多个网站的页面全文,需要的朋友可以参考下
2016-02-02
Python图像处理库处理步骤
这篇文章主要介绍了Python图像处理探索之Python图像处理库,我们将学习使用不同的 Python 库实现一些常见的图像处理、变换和可视化技术，这些技术通常可以用作更复杂的图像处理任务的基本预处理/后处理步骤，需要的朋友可以参考下
2023-04-04
Pytest框架 conftest.py文件的使用详解
conftest.py是pytest特有的本地测试配置文件，既可以用来设置项目级别的fixture，也可以用来导入外部插件，本文给大家介绍Pytest框架 conftest.py文件的使用，感兴趣的朋友一起看看吧
2022-06-06
基于python介绍pytorch保存和恢复参数
这篇文章主要介绍了基于python介绍pytorch保存和恢复参数，为了恢复模型，我们需要用代码生成框架，然后从磁盘加载参数，下面具体的相关介绍，需要的小伙伴可以参考一下
2022-03-03
Pycharm之快速定位到某行快捷键的方法
今天小编就为大家分享一篇Pycharm之快速定位到某行快捷键的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
简单聊聊Python中多线程与类方法的交互
在Python编程中,多线程是一种提高程序运行效率的有效手段,本文将通过简洁的语言、清晰的逻辑和实际的代码案例,探讨Python多线程如何调用类方法,感兴趣的可以了解下
2025-01-01
pandas预处理部分地区数据案例
本文主要介绍了pandas预处理部分地区数据案例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-01-01

Python批量将csv文件编码方式转换为UTF-8的实战记录

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具