pandas读取文件夹下所有excel文件的实现

 更新时间:2023年09月12日 11:22:21   作者:舞剑弄清影  
最近需要做一个需求,要求汇总一个文件夹所有的excel文件,所以本文就来介绍一下pandas读取文件夹下所有excel文件的实现,具有一定的参考价值,感兴趣的可以了解一下

我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件: 使用os库来遍历包含子文件夹的主文件夹,并读取所有的Excel文件。

import os
main_folder = '文件夹路径'
all_data = []
for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展名
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据: 使用pandas的concat函数将所有数据帧合并为一个总的数据帧,并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)
# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢 ,保存总表:将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

上图错误, 我用断点调试去看数据, 发现里面出现了一个错误的文件路径。 是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件,去查了一下资料如下解释:在Windows系统中,当一个Excel文件(.xlsx 或 .xls)正在被某个用户编辑时,Excel会创建一个临时文件,文件名以 ~$ 开头,然后是原始文件的名称。这个临时文件用于跟踪编辑进程,以防止多个用户同时编辑相同的文件时发生冲突。

所以在os.walk遍历文件夹时,它会包括所有文件,包括这些临时文件。这些临时文件通常不应被处理或读取,因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件,您可以添加一个条件来检查文件名,如果文件名以 ~$ 开头,则跳过该文件,在循环中多加一个判断就好了。

if not file.startswith("~$"):

到此这篇关于pandas读取文件夹下所有excel文件的实现的文章就介绍到这了,更多相关pandas读取所有excel文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Pycharm无法显示动态图片的解决方法

    Pycharm无法显示动态图片的解决方法

    今天小编就为大家分享一篇Pycharm无法显示动态图片的解决方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Pycharm Git 设置方法

    Pycharm Git 设置方法

    这篇文章主要介绍了Pycharm Git 设置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-09-09
  • Python循环语句中else的用法总结

    Python循环语句中else的用法总结

    这篇文章给大家整理了关于Python中循环语句中else的用法,包括常规的 if else 用法、if else 快捷用法、与 for 关键字一起用、与 while 关键字一起用以及与 try except 一起用的用法总结,有需要的朋友们可以参考借鉴。
    2016-09-09
  • Python使用tkinter库实现文本显示用户输入功能示例

    Python使用tkinter库实现文本显示用户输入功能示例

    这篇文章主要介绍了Python使用tkinter库实现文本显示用户输入功能,结合实例形式分析了tkinter库获取用户输入及控件显示相关操作技巧,需要的朋友可以参考下
    2018-05-05
  • 基于Python脚本实现邮件报警功能

    基于Python脚本实现邮件报警功能

    这篇文章主要介绍了基于Python脚本实现邮件报警功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-05-05
  • Python中相见恨晚的技巧(记得收藏)

    Python中相见恨晚的技巧(记得收藏)

    这篇文章主要介绍了一些Python中相见恨晚的使用技巧,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-04-04
  • Python使用NumPy创建数组的完全指南

    Python使用NumPy创建数组的完全指南

    如果把机器学习比作精彩的冒险旅程,那 NumPy 就是出发前必学的基础技能课,缺一不可,今天这篇,从数组创建到变形运算,一次性把NumPy的基础打扎实,地基稳了,后面盖楼才不慌,需要的朋友可以参考下
    2026-06-06
  • python打开使用的方法

    python打开使用的方法

    在本篇文章里小编给各位整理的是关于python怎么打开使用的相关知识点内容,有需要的朋友们可以学习下。
    2019-09-09
  • Python实现智能合并多个Excel

    Python实现智能合并多个Excel

    在日常办公场景中,Excel文件合并是数据分析人员,财务人员和行政人员经常面临的高频痛点,下面我们来看看如何使用Python实现智能合并多个Excel吧
    2025-04-04
  • Python进行MD5加密的实现全流程

    Python进行MD5加密的实现全流程

    MD5是一种广泛使用的哈希算法,可将任意长度的输入数据转换为固定长度的128位哈希值,尽管其安全性已不足以应对现代密码学需求,但在数据完整性校验、文件防篡改检测等场景中仍具实用价值,本文将详细解析Python中实现MD5加密的全流程,需要的朋友可以参考下
    2025-09-09

最新评论