利用python合并csv文件的方式实例

 更新时间:2022年07月12日 10:51:46   作者:流沙没尘居士  
由于项目取数需要,要将两个不同的csv文件合并到一个文件中,所以下面这篇文章主要给大家介绍了关于利用python合并csv文件的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下

1.用concat方法合并csv

将两个相同的csv文件进行数据合并,通过pandas的read_csv和to_csv来完成,即采用concat方法:

#加载第三方库
import pandas as pd
import numpy as np
#读取文件
df1 = pd.read_csv("文件-1.csv")
df2 = pd.read_csv("文件-2.csv")
#合并
df = pd.concat([df1,df2])
df.drop_duplicates()  #数据去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')

也可以增加一列标签,以区别两个合并后的数据:

#加载第三方库
import pandas as pd
import numpy as np
#读取文件
df1 = pd.read_csv("文件-1.csv")
df1["来自文件"] = "文件-1"
df2 = pd.read_csv("文件-2.csv")
df2["来自文件"] = "文件-2"
#合并
df = pd.concat([df1,df2])
df.drop_duplicates()  #数据去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')

2.glob模块批量合并csv

在利用合并少量文件时,可以使用上面的concat方法。但是遇到大量的相同文件需要合并,此时应该进行批量合并,这可以减少工作量,提高操作效率。

利用Python批量合并csv,这里介绍使用的方法是引入glob模块。

glob模块是最简单的模块之一,内容少,它可以查找符合特定规则的文件路径名。

通过glob方法遍历所有文件,读取数据并追加保存到文件中。

import numpy as np
import pandas as pd
import glob
import re
 
csv_list = glob.glob('*.csv')
print('共发现%s个CSV文件'% len(csv_list))
print('正在处理............')
for i in csv_list:
    fr = open(i,'r',encoding='utf-8').read()
    with open('文件合集.csv','a',encoding='utf-8') as f:
        f.write(fr)
print('合并完毕!')

以上方法是合并csv文件,要合并excel文件同理。

补充:Python处理(加载、合并)多个csv文件

数据集介绍:本数据集是某化工系统的数据,一共有很多个月的,我这里就拿一个月的数据集,August_data(八月的数据集),一共有31个csv文件。   

方法一  for循环遍历+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)

import pandas as pd
import numpy as np 
from tqdm import tqdm
import os
 
def get_data(path):
    df_list = []
    for file in tqdm(os.listdir(path)):##进度条
        file_path = os.path.join(path, file)
        df = pd.read_csv(file_path)
        df_list.append(df)
    df = pd.concat(df_list)
    return df
 
cPath = '.\August_data'
# cPath = 'F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据' #F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据
# uPath = str(cPath)#uPath = unicode(cPath,'utf-8')
# dirs = os.listdir(TEST_PATH)
# print(dirs)
test_df = get_data(cPath)
print(test_df.head())
# test_df.to_csv(path_or_buf="test.csv",index=False)#保存为CSV文件

方法二   glob方法

#!/usr/bin/env python
# coding=utf-8
 
import glob
import time
import csv
import pandas as pd
from tqdm import tqdm
# a new file 
#open all the CSV file
#遍历文件夹下所有csv文件
TEST_PATH = '.\August_data' 
csv_list = glob.glob(f'{TEST_PATH}\*.csv')
print('共有%s个CSV文件'% len(csv_list))
# print (csv_list)
 
def get_data():
    df_list = []
    for csv_file in csv_list:
        df = pd.read_csv(csv_file)
        df_list.append(df)
    df = pd.concat(df_list)
    print("Loading Oer")
    return df
get_data()

总结

到此这篇关于利用python合并csv文件的文章就介绍到这了,更多相关python合并csv文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用Python做定时任务及时了解互联网动态

    使用Python做定时任务及时了解互联网动态

    这篇文章主要介绍了使用Python做定时任务及时了解互联网动态,需要的朋友可以参考下
    2019-05-05
  • python3 http提交json参数并获取返回值的方法

    python3 http提交json参数并获取返回值的方法

    今天小编就为大家分享一篇python3 http提交json参数并获取返回值的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python3实现的反转单链表算法示例

    Python3实现的反转单链表算法示例

    这篇文章主要介绍了Python3实现的反转单链表算法,结合实例形式总结分析了Python基于迭代算法与递归算法实现的翻转单链表相关操作技巧,需要的朋友可以参考下
    2019-03-03
  • 利用Python抢回在蚂蚁森林逝去的能量(实现代码)

    利用Python抢回在蚂蚁森林逝去的能量(实现代码)

    蚂蚁森林是一项旨在带动公众低碳减排的公益项目,每个人的低碳行为在蚂蚁森林里可计为"绿色能量",很多小伙伴都玩过,今天小编给大家分享一篇教程关于Python抢回在蚂蚁森林逝去的能量,感兴趣的朋友跟随小编一起看看吧
    2022-03-03
  • Django 再谈一谈json序列化

    Django 再谈一谈json序列化

    这篇文章主要介绍了Django json序列化,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • 基于K-Means聚类算法演示及可视化展示

    基于K-Means聚类算法演示及可视化展示

    这篇文章主要介绍了基于K-Means聚类算法演示及可视化展示,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • Django+Ajax+jQuery实现网页动态更新的实例

    Django+Ajax+jQuery实现网页动态更新的实例

    今天小编就为大家分享一篇Django+Ajax+jQuery实现网页动态更新的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • django 装饰器 检测登录状态操作

    django 装饰器 检测登录状态操作

    这篇文章主要介绍了django 装饰器 检测登录状态操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • python学习笔记之调用eval函数出现invalid syntax错误问题

    python学习笔记之调用eval函数出现invalid syntax错误问题

    python是一门多种用途的编程语言,时常扮演脚本语言的角色。一般来说,python可以定义为面向对象的脚本语言,这个定义把面向对象的支持和面向脚本语言的角色融合在一起。很多时候,人们常常喜欢用“脚本”和不是语言来描述python的代码文件。
    2015-10-10
  • python中的List sort()与torch.sort()

    python中的List sort()与torch.sort()

    这篇文章主要介绍了python中的List sort()与torch.sort()使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09

最新评论