pandas读取文件夹下所有excel文件的实现

 更新时间:2023年09月12日 11:22:21   作者:舞剑弄清影  
最近需要做一个需求,要求汇总一个文件夹所有的excel文件,所以本文就来介绍一下pandas读取文件夹下所有excel文件的实现,具有一定的参考价值,感兴趣的可以了解一下

我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件: 使用os库来遍历包含子文件夹的主文件夹,并读取所有的Excel文件。

import os
main_folder = '文件夹路径'
all_data = []
for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展名
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据: 使用pandas的concat函数将所有数据帧合并为一个总的数据帧,并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)
# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢 ,保存总表:将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

上图错误, 我用断点调试去看数据, 发现里面出现了一个错误的文件路径。 是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件,去查了一下资料如下解释:在Windows系统中,当一个Excel文件(.xlsx 或 .xls)正在被某个用户编辑时,Excel会创建一个临时文件,文件名以 ~$ 开头,然后是原始文件的名称。这个临时文件用于跟踪编辑进程,以防止多个用户同时编辑相同的文件时发生冲突。

所以在os.walk遍历文件夹时,它会包括所有文件,包括这些临时文件。这些临时文件通常不应被处理或读取,因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件,您可以添加一个条件来检查文件名,如果文件名以 ~$ 开头,则跳过该文件,在循环中多加一个判断就好了。

if not file.startswith("~$"):

到此这篇关于pandas读取文件夹下所有excel文件的实现的文章就介绍到这了,更多相关pandas读取所有excel文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 递归式实现二叉树前序,中序,后序遍历

    Python 递归式实现二叉树前序,中序,后序遍历

    这篇文章主要介绍了Python 递归式实现二叉树前序,中序,后序遍历,更多相关资料,需要的小伙伴可以参考下面具体的文章内容
    2022-03-03
  • 解决已经安装requests,却依然提示No module named requests问题

    解决已经安装requests,却依然提示No module named requests问题

    今天小编就为大家分享一篇解决已经安装requests,却依然提示No module named 'requests'问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Windows下PyCharm安装图文教程

    Windows下PyCharm安装图文教程

    这篇文章主要为大家详细介绍了Windows下PyCharm安装图文教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-08-08
  • Python 实用技巧之利用Shell通配符做字符串匹配

    Python 实用技巧之利用Shell通配符做字符串匹配

    这篇文章主要介绍了Python 实用技巧之利用Shell通配符做字符串匹配的方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-08-08
  • python flask项目打包成docker镜像发布的过程

    python flask项目打包成docker镜像发布的过程

    这篇文章主要介绍了python flask项目打包成docker镜像发布,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • wxPython中wx.gird.Gird添加按钮的实现

    wxPython中wx.gird.Gird添加按钮的实现

    本文主要介绍了wxPython中wx.gird.Gird添加按钮的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • python机器学习包mlxtend的安装和配置详解

    python机器学习包mlxtend的安装和配置详解

    这篇文章主要介绍了python机器学习包mlxtend的安装和配置详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-08-08
  • PyCharm 无法 import pandas 程序卡住的解决方式

    PyCharm 无法 import pandas 程序卡住的解决方式

    这篇文章主要介绍了PyCharm 无法 import pandas 程序卡住的解决方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Python使用smtplib模块发送电子邮件的流程详解

    Python使用smtplib模块发送电子邮件的流程详解

    Python中自带的smtplib模块可以进行基于SMTP协议的邮件操作,这里我们便总结了Python使用smtplib模块发送电子邮件的流程详解,并对一些常见的问题给出了解决方法:
    2016-06-06
  • Python进程管理神器Supervisor详解

    Python进程管理神器Supervisor详解

    Supervisor 是一款 Python 开发的进程管理系统,允许用户监视和控制 Linux 上的进程,能将一个普通命令行进程变为后台守护进程,异常退出时能自动重启,这篇文章主要介绍了Python进程管理神器Supervisor,需要的朋友可以参考下
    2022-07-07

最新评论