Python实现从多表格中随机抽取数据

 更新时间:2023年05月24日 08:36:30   作者:疯狂学习GIS  
这篇文章主要介绍了如何基于Python语言实现随机从大量的Excel表格文件中选取一部分数据,并将全部文件中随机获取的数据合并为一个新的Excel表格文件的方法,希望对大家有所帮助

本文介绍基于Python语言,针对一个文件夹下大量的Excel表格文件,基于其中每一个文件,随机从其中选取一部分数据,并将全部文件中随机获取的数据合并为一个新的Excel表格文件的方法。

首先,我们来明确一下本文的具体需求。现有一个文件夹,其中有大量的Excel表格文件(在本文中我们就以.csv格式的文件为例);如下图所示。

其中,每一个Excel表格文件都有着如下图所示的数据格式;其中的第1行表示每一列的名称,第1列则表示时间。

我们希望实现的,就是从每一个Excel表格文件中,随机选取10行数据(第1行数据肯定不能被选进去,因为其为列名;第1列数据也不希望被选进去,因为这个是表示时间的数据,我们后期不需要),并将这一文件夹中全部的Excel表格文件中每一个随机选出的10行数据合并到一起,作为一个新的Excel表格文件。

明白了需求,我们即可开始代码的撰写;本文用到的具体代码如下所示。

# -*- coding: utf-8 -*-
"""
Created on Fri May 19 01:47:06 2023

@author: fkxxgis
"""

import os
import pandas as pd

original_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/19_2022Data"
result_path = "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/20_Train_Model"

result_df = pd.DataFrame()

for file in os.listdir(original_path):
    if file.endswith(".csv"):
        
        df = pd.read_csv(os.path.join(original_path, file))
        sample_df = df.sample(n = 10, axis = 0)
        sample_df = sample_df.iloc[ : , 1 : ]
        result_df = pd.concat([result_df, sample_df])
        
result_df.to_csv(os.path.join(result_path, "Train_Model_1.csv"), index = False)

代码中首先定义了原始数据文件夹(也就是有大量Excel表格文件的文件夹)路径和结果数据文件夹路径。然后,创建了一个空的DataFrame,用于存储抽样后的数据。

接下来是一个for循环,遍历了原始数据文件夹中的所有.csv文件,如果文件名以.csv结尾,则读取该文件。然后,使用Pandas中的sample()函数随机抽取了该文件中的10行数据,并使用iloc[]函数删除了10行数据中的第1列(为了防止第1列表示时间的列被选中,因此需要删除)。最后,使用Pandas中的concat()函数将抽样后的数据添加到结果DataFrame中。

最后,使用Pandas中的to_csv()函数将结果DataFrame保存到结果数据文件夹中,文件名为Train_Model_1.csv,并设置index = False表示不保存索引。

运行上述代码,我们即可获得数据合并后的文件,且第1列数据也已经被剔除了。

到此这篇关于Python实现从多表格中随机抽取数据的文章就介绍到这了,更多相关Python随机抽取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中获取秒级时间戳的实践指南

    Python中获取秒级时间戳的实践指南

    在计算机编程中,时间戳是一个非常重要的概念,它表示自 1970 年 1 月 1 日(UTC)以来经过的秒数,在 Python 中,获取当前时间的时间戳是一项常见的任务,尤其是在处理日志、数据库时间戳或者需要时间同步的场景中,本文介绍了Python中获取秒级时间戳的实践指南
    2024-12-12
  • Pygame实现文字显示在窗口中

    Pygame实现文字显示在窗口中

    这篇文章主要介绍了Pygame实现在窗口中显示文字,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习吧
    2023-02-02
  • Numpy实现卷积神经网络(CNN)的示例

    Numpy实现卷积神经网络(CNN)的示例

    这篇文章主要介绍了Numpy实现卷积神经网络(CNN)的示例,帮助大家更好的理解和使用Numpy,感兴趣的朋友可以了解下
    2020-10-10
  • numpy.random模块用法总结

    numpy.random模块用法总结

    这篇文章主要介绍了numpy.random模块用法总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05
  • django项目搭建与Session使用详解

    django项目搭建与Session使用详解

    这篇文章主要给大家介绍了关于django项目搭建与Session使用的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-10-10
  • Python Faker库基本用法详解

    Python Faker库基本用法详解

    Faker 是一个非常强大的库,适用于生成各种类型的伪随机数据,可以帮助开发者在测试、数据生成、或其他需要随机数据的场景中提高效率,本文给大家介绍Python Faker库基本用法详解,感兴趣的朋友一起看看吧
    2025-04-04
  • python pdb调试器及使用方法

    python pdb调试器及使用方法

    这篇文章主要介绍了python pdb调试器及使用方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • 使用Python实现租车计费系统的两种方法

    使用Python实现租车计费系统的两种方法

    本文通过两种方法给大家分享了使用Python实现租车计费系统,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-09-09
  • NumPy 数组拼接与分割的使用详解

    NumPy 数组拼接与分割的使用详解

    NumPy 提供了多种方法用于​​数组拼接​​和​​分割,这些操作在数据预处理、特征工程和结果整合中至关重要,下面就来详细的介绍一下NumPy 数组拼接与分割的使用,感兴趣的可以了解一下
    2026-01-01
  • Python网络编程实战之爬虫技术入门与实践

    Python网络编程实战之爬虫技术入门与实践

    这篇文章主要介绍了Python网络编程实战之爬虫技术入门与实践,了解这些基础概念和原理将帮助您更好地理解网络爬虫的实现过程和技巧,需要的朋友可以参考下
    2023-04-04

最新评论