Pandas操作两个Excel实现数据对应行的合并

 更新时间:2023年01月17日 10:04:05   作者:zorchp  
本文主要介绍了Pandas操作两个Excel实现数据对应行的合并,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

写在前面

最近有朋友问我怎么把一个Excel工作表中的数据按照对应的匹配规则放到另外一个表中, 要求是两个对应的列要相同, 具体来看就是sheet1中数据比较多, sheet2中只含有两列, 这两列包含了年份和行业信息, 这两个表的header(pandas中的术语, 表示表头或者列名)都是相同的, 所以关键点就是让表1中的数据与表2中的数据建立对应即可, 然后注意一下选取过的数据就不能选了这个条件.

当然可能会有直接使用Pandas内置高级函数的方法来做, 但是毕竟不是主要研究数据分析了, 能用就行…

为了数据安全, 这里就不放截图了.

主要思路

因为要填充表2, 那么当然要遍历表二的每一行, 针对这每一行给出的列标信息, 然后遍历表1中满足条件的行, 填入表二之后break即可, 因为可能会出现重复遍历, 这里用到了哈希表的方法, 并且哈希表也有两种实现,

一种是给表1新添加一个列, 这个列可以是布尔值或者全0列, 表示没有遍历过(unused), 然后在满足条件的行添加到表二之后, 将对应值设置为1即可, 这样可以在之后的遍历过程中忽略掉已添加的数据.
另一种方法就是使用哈希表存储表一中遍历过的行的索引, 思路跟上面是一样的, 但是不会对原始数据进行增删.

代码

代码部分我给出了两个版本, 一种是我首先想到的, 不借助pandas内置函数, 将数据转换为列表来完成, 这样虽然好想当然之后还要手动处理表头, 比较麻烦, 代码如下:

import pandas as pd

df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0).values.tolist()
df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0).values.tolist()
for i in range(len(df1)):
    df1[i].append(0)

for i, item in enumerate(df2):
    for j in range(len(df1)):
        if df1[j][-1] == 0 and df1[j][0] == item[0] and df1[j][2] == item[2]:
            df2[i] = df1[j]
            df1[j][-1] = 1
            break
df2 = pd.DataFrame(df2)
print(df2)

with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer:
    df2.to_excel(writer, sheet_name="Sheet3")

另一种用到了pandas内置的行遍历方法和索引等方法, 对Dataframe这种pandas内置的原生数据结构支持比较好, 但是不用的话就总忘…

import pandas as pd
# pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)
df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0)
# 标记是否匹配过
used = set()

for idx2, row2 in df2.iterrows():
    tmp = df1[(df1['所属行业'] == row2['所属行业']) & (df1['新年份'] == row2['新年份'])]
    for idx1, row1 in tmp.iterrows():
        if idx1 not in used:
            df2.iloc[idx2, :] = row1
            used.add(idx1)
            break

df2.set_index('所属行业', inplace=True)
print(df2)

with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer:
    df2.to_excel(writer, sheet_name="Sheet4")

到此这篇关于Pandas操作两个Excel实现数据对应行的合并的文章就介绍到这了,更多相关Pandas Excel行合并内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python多进程(加入进程池)操作常见案例

    python多进程(加入进程池)操作常见案例

    这篇文章主要介绍了python多进程(加入进程池)操作,结合常见案例形式分析了Python多进程复制文件、加入进程池及多进程聊天等相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • Python如何使用内置库matplotlib绘制折线图

    Python如何使用内置库matplotlib绘制折线图

    这篇文章主要介绍了Python如何使用内置库matplotlib绘制折线图,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • Python中schedule模块关于定时任务使用方法

    Python中schedule模块关于定时任务使用方法

    这篇文章主要介绍了Python中schedule模块关于定时任务使用方法,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • python中15种3D绘图函数总结

    python中15种3D绘图函数总结

    这篇文章主要为大家详细介绍了python中15种3D绘图函数的用法,文中的示例代码讲解详细,具有一定的学习价值,感兴趣的小伙伴可以跟随小编一起了解一下
    2023-09-09
  • python实现颜色空间转换程序(Tkinter)

    python实现颜色空间转换程序(Tkinter)

    这篇文章主要介绍了基于Tkinter利用python实现颜色空间转换程序,感兴趣的小伙伴们可以参考一下
    2015-12-12
  • 利用OpenCV+Tensorflow实现的手势识别

    利用OpenCV+Tensorflow实现的手势识别

    这几天没事,想着再学点一些视觉识别方向的东西,因为之前做了验证码识别,有了机器学习的信心,因此这次打算做个手势识别,下面这篇文章主要给大家介绍了关于利用OpenCV+Tensorflow实现的手势识别的相关资料,需要的朋友可以参考下
    2022-11-11
  • python中Pexpect的工作流程实例讲解

    python中Pexpect的工作流程实例讲解

    在本篇文章里小编给大家整理的是一篇关于python中Pexpect的工作流程实例讲解内容,有兴趣的朋友们可以学习下。
    2021-03-03
  • Python图形化界面基础篇之如何使用弹出窗口和对话框

    Python图形化界面基础篇之如何使用弹出窗口和对话框

    对于Python程序员来说,处理弹出窗口似乎并不是一个常见的任务,这篇文章主要给大家介绍了关于Python图形化界面基础篇之如何使用弹出窗口和对话框的相关资料,需要的朋友可以参考下
    2024-03-03
  • Python实现新型冠状病毒传播模型及预测代码实例

    Python实现新型冠状病毒传播模型及预测代码实例

    在本篇文章里小编给大家整理的是关于Python实现新型冠状病毒传播模型及预测代码内容,有兴趣的朋友们可以学习下。
    2020-02-02
  • Django与JS交互的示例代码

    Django与JS交互的示例代码

    本篇文章主要介绍了Django与JS交互的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08

最新评论