Python实现为Excel中每个单元格计算其在文件中的平均值

 更新时间:2023年10月07日 08:42:14   作者:疯狂学习GIS  
这篇文章主要为大家详细介绍了如何基于Python语言实现对大量不同的Excel文件加以跨文件、逐单元格平均值计算,感兴趣的小伙伴可以跟随小编一起学习一下

本文介绍基于Python语言,对大量不同的Excel文件加以跨文件逐单元格平均值计算的方法。

首先,我们来明确一下本文的具体需求。现有一个文件夹,其中有如下所示的大量Excel文件,我们这里就以 .csv 文件为例来介绍。其中,每一个 .csv 文件的名称都是如下图所示的 Ref_XXX_Y.csv 格式的,其中 XXX 表示三个字母,后面的 Y 则表示若干位数字。

对于其中的每一个 .csv 文件,都有着如下图所示的数据格式。

我们现在的需求是,希望对于每一个名称为 Ref_GRA_Y.csv 格式的 .csv 文件,求取其中每一个单元格在所有文件中数据的平均值。例如,对于上图中 DOY 1 blue 这个单元格,那么求出来的平均值就是在全部名称为 Ref_GRA_Y.csv 格式的 .csv 文件之中, DOY 1 且列名为 blue 的单元格的平均值。此外,如果像上图一样,出现了部分单元格数值为 0 的情况,表明在当前文件夹下,这个单元格是没有数据的,因此需要在计算的时候舍去(并且取平均值时候的分母也要减小 1 )。

知道了需求,我们就可以开始代码的书写。其中,本文用到的具体代码如下所示。此外,本文实现的需求也和我们之前的文章基于Python读取多个Excel文件数据并跨越不同xlsx表格文件计算平均值有些类似,大家如果有需要,也可以参考之前的这一篇文章。

# -*- coding: utf-8 -*-
"""
Created on Fri Oct  6 13:07:48 2023
@author: fkxxgis
"""
import os
import glob
import pandas as pd
folder_path = "E:/04_Reconstruction/02_Data/01_RGBNINDVI_History"
output_path = "E:/04_Reconstruction/02_Data"
file_pattern = "Ref_GRA_*.csv"
file_paths = glob.glob(os.path.join(folder_path, file_pattern))
combined_data = pd.DataFrame()
for file_path in file_paths:
    df = pd.read_csv(file_path)
    df_filtered = df[df != 0]
    combined_data = pd.concat([combined_data, df_filtered])
average_values = combined_data.groupby('DOY').mean()
output_file = "04_Data_YearAverage.csv"
average_values.to_csv(os.path.join(output_path,output_file), index=True)

其中,上述代码的具体介绍如下。

首先,我们导入必要的库—— os 库用于文件路径操作, glob 库用于文件匹配, pandas 库用于数据处理和分析。同时,我们定义文件夹路径 folder_path ,代表存储 .csv 文件的文件夹路径;定义输出路径 output_path ,代表保存结果文件的路径;定义文件匹配模式 file_pattern ,用于匹配需要处理的 .csv 文件的文件名模式。

随后,我们使用 glob.glob() 函数结合文件夹路径和文件匹配模式,获取满足条件的 .csv 文件的路径列表,存储在 file_paths 变量中。创建一个空的数据框 combined_data ,用于存储所有文件的数据。

接下来,我们使用一个循环,遍历 file_paths 列表中的每个文件路径。对于每个文件路径,使用 pd.read_csv() 函数加载 .csv 文件,并将其存储在名为 df 的数据框中。其次,使用条件筛选语句 df[df != 0] 排除值为 0 的数据,并将结果存储在名为 df_filtered 的数据框中。紧接着,将当前文件的数据框 df_filtered 合并到总数据框 combined_data 中,这一步骤使用 pd.concat() 函数实现。

完成所有文件的处理后,使用 combined_data.groupby('DOY').mean() 计算所有文件的平均值,按照 DOY 列进行分组并求平均值。随后,定义输出文件名 output_file ,代表保存平均值结果的文件名。

最后,使用 os.path.join() 函数结合输出路径和输出文件名,生成保存路径,并使用 average_values.to_csv() 函数将平均值数据框 average_values 保存为一个新的 .csv 文件,指定 index=True 以包含索引列。

运行上述代码,我们即可得到结果文件。如下图所示,可以看到结果文件中,已经是计算之后的平均值结果了。

至此,大功告成。

到此这篇关于Python实现为Excel中每个单元格计算其在文件中的平均值的文章就介绍到这了,更多相关Python计算平均值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • django 控制页面跳转的例子

    django 控制页面跳转的例子

    今天小编就为大家分享一篇django 控制页面跳转的例子,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Python面向对象三大特征:继承、封装和多态的深度解析

    Python面向对象三大特征:继承、封装和多态的深度解析

    在面向对象程序设计中,对象可以看做是数据(特性)以及由一系列可以存取、操作这些数据的方法所组成的集合,Python是面向对象的语言,支持面向对象编程的三大特性:继承、封装(隐藏)、多态,本文将逐一讲解Python的三大特性
    2025-01-01
  • 解决python 执行shell命令无法获取返回值的问题

    解决python 执行shell命令无法获取返回值的问题

    这篇文章主要介绍了解决python 执行shell命令无法获取返回值的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • Python数据序列化技术总结

    Python数据序列化技术总结

    在现代软件开发中,数据序列化是一个关键环节,它允许我们将复杂的数据结构转换为可存储或可传输的格式,,Python提供了多种数据序列化技术,每种技术都有其独特的性能优势和适用场景,本文将详细介绍几种强大的Python数据序列化技术,需要的朋友可以参考下
    2025-03-03
  • 深入了解Python中pop和remove的使用方法

    深入了解Python中pop和remove的使用方法

    这篇文章主要介绍了深入了解Python中pop和remove的使用方法,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • Flask框架信号用法实例分析

    Flask框架信号用法实例分析

    这篇文章主要介绍了Flask框架信号用法,结合实例形式分析了Blinker的安装及信号的接收等相关操作技巧,需要的朋友可以参考下
    2018-07-07
  • Python连接数据库并批量插入包含日期记录的操作

    Python连接数据库并批量插入包含日期记录的操作

    这篇文章主要介绍了Python连接数据库并批量插入包含日期记录的操作,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • Django中的settings.py文件使用全解析

    Django中的settings.py文件使用全解析

    这篇文章主要介绍了Django中的settings.py文件使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2025-03-03
  • python开发之anaconda以及win7下安装gensim的方法

    python开发之anaconda以及win7下安装gensim的方法

    这篇文章主要介绍了python开发之anaconda以及win7下安装gensim的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • 浅谈python配置与使用OpenCV踩的一些坑

    浅谈python配置与使用OpenCV踩的一些坑

    下面小编就为大家分享一篇浅谈python配置与使用OpenCV踩的一些坑,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04

最新评论