利用Python实现去重聚合Excel数据并对比两份数据的差异

 更新时间:2023年11月09日 07:31:43   作者:qwerrt9  
在数据处理过程中,常常需要将多个数据表进行合并,并进行比对,以便找出数据的差异和共同之处,本文将介绍如何使用 Pandas 库对两个 Excel 数据表进行合并与比对,需要的可以参考下

问题背景

在数据处理过程中,常常需要将多个数据表进行合并,并进行比对,以便找出数据的差异和共同之处。本文将介绍如何使用 Pandas 库对两个 Excel 数据表进行合并与比对,并将结果输出到新的 Excel 文件中。

读取数据表

首先,我们使用 Pandas 库中的 read_excel 函数来读取两个 Excel 文件中的数据,分别存储到 left_df 和 right_df 变量中。

import pandas as pd

left_df = pd.read_excel('C:\\Users\\Admin\\Desktop\\数据核对\\数据1.xlsx')
right_df = pd.read_excel('C:\\Users\\Admin\\Desktop\\数据核对\\数据2.xlsx')

数据表分组求和

接下来,我们对 left_df 和 right_df 分别按照 '店铺名称' 和 '订单号' 进行分组,并对其他列进行求和操作。

left_df = left_df.groupby(['店铺名称', '订单号'], as_index=False).sum()
right_df = right_df.groupby(['店铺名称', '订单号'], as_index=False).sum()

合并数据表

然后,我们使用 merge 函数将经过分组求和后的两个 DataFrame 进行合并,同时启用标记列以标识每行数据的来源。

merged_df = pd.merge(left_df, right_df, how='outer', on=['订单号', '店铺名称'], indicator=True)

添加标记结果列

根据合并的结果,我们添加一个新列 'merge_result',用于标记每条记录属于左侧有的数据、都有的数据还是右侧有的数据。

conditions = [
    (merged_df['_merge'] == 'left_only'), # 左侧有的数据
    (merged_df['_merge'] == 'both'), # 左右两边都有的数据
    (merged_df['_merge'] == 'right_only') # 右侧有的数据
]
choices = ['Left only', 'Both', 'Right only']

merged_df['merge_result'] = np.select(conditions, choices)

保存结果到 Excel 文件

最后,我们将合并后的结果写入到新的 Excel 文件中,以便进一步分析和分享。

merged_df.to_excel('merged.xlsx', index=False)

总结

通过以上步骤,我们成功地使用 Pandas 完成了两个数据表的合并与比对,并将结果保存到了新的 Excel 文件中。这个过程为我们展示了如何利用 Pandas 库进行数据处理和分析,为日常工作中的数据清洗和整合提供了有力的支持。

完整代码

import pandas as pd
import numpy as np

# 读取两个 Excel 文件
left_df = pd.read_excel('C:\\Users\\Admin\\Desktop\\数据核对\\数据1.xlsx')
right_df = pd.read_excel('C:\\Users\\Admin\\Desktop\\数据核对\\数据2.xlsx')

# 对 left_df DataFrame 进行分组求和
left_df = left_df.groupby(['店铺名称', '订单号'], as_index=False).sum()

# 对 right_df DataFrame 进行分组求和
right_df = right_df.groupby(['店铺名称', '订单号'], as_index=False).sum()

# 合并两个数据表,并启用标记列
merged_df = pd.merge(left_df, right_df, how='outer', on=['订单号', '店铺名称'], indicator=True)
# 使用 merge 函数将左右两个 DataFrame 进行合并
# how='outer' 表示执行外连接操作,包括左边有的、都有的和右边有的数据
# on=['订单号', '店铺名称'] 表示合并所依据的关键字列名是 '订单号' 和 '店铺名称'
# indicator=True 表示启用一个标记列 '_merge' 来标记每个行的来源

# 根据标记列的值,添加一个标记结果列
conditions = [
(merged_df['_merge'] == 'left_only'), # 左侧有的数据
(merged_df['_merge'] == 'both'), # 左右两边都有的数据
(merged_df['_merge'] == 'right_only') # 右侧有的数据
]
choices = ['Left only', 'Both', 'Right only']
# 对应上述条件的选择,分别为左侧有的数据、都有的数据、右侧有的数据
merged_df['merge_result'] = np.select(conditions, choices)
# 使用 np.select 函数根据条件和选择,在 DataFrame 中添加一个新列 'merge_result',标记为左侧有的数据、都有的数据或右侧有的数据

# 将结果写入到 Excel 文件中
merged_df.to_excel('merged.xlsx', index=False)
# 将合并后的结果写入到 Excel 文件 'merged.xlsx' 中,不包含索引列

以上就是利用Python实现去重聚合Excel数据并对比两份数据的差异的详细内容,更多关于Python对比Excel数据的资料请关注脚本之家其它相关文章!

相关文章

  • pycharm配置anaconda环境时找不到python.exe解决办法

    pycharm配置anaconda环境时找不到python.exe解决办法

    今天来说一下python中一个管理包很好用的工具anaconda,可以轻松实现python中各种包的管理,这篇文章主要给大家介绍了关于pycharm配置anaconda环境时找不到python.exe的解决办法,需要的朋友可以参考下
    2023-10-10
  • python实现去除空格及tab换行符的方法

    python实现去除空格及tab换行符的方法

    这篇文章主要为大家介绍了python实现去除空格及tab换行符的方法,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • python实现两字符串映射

    python实现两字符串映射

    这篇文章主要介绍了python实现两字符串映射方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • Python中pymysql 模块的使用详解

    Python中pymysql 模块的使用详解

    pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。
    2019-08-08
  • Python基于多线程实现抓取数据存入数据库的方法

    Python基于多线程实现抓取数据存入数据库的方法

    这篇文章主要介绍了Python基于多线程实现抓取数据存入数据库的方法,结合实例形式分析了Python使用数据库类与多线程类进行数据抓取与写入数据库操作的具体使用技巧,需要的朋友可以参考下
    2018-06-06
  • 使用Python制作新型冠状病毒实时疫情图

    使用Python制作新型冠状病毒实时疫情图

    最近被新型冠状病毒搞的人心惶惶,很多城市被病毒感染,今天小编给大家分享使用Python制作新型冠状病毒实时疫情图,感兴趣的朋友跟随小编一起看看吧
    2020-01-01
  • Python操作Mysql实例代码教程在线版(查询手册)

    Python操作Mysql实例代码教程在线版(查询手册)

    本文介绍了Python操作MYSQL、执行SQL语句、获取结果集、遍历结果集、取得某个字段、获取表字段名、将图片插入数据库、执行事务等各种代码实例和详细介绍,代码居多,是一桌丰盛唯美的代码大餐
    2013-02-02
  • python实现人工蜂群算法

    python实现人工蜂群算法

    这篇文章主要介绍了python如何实现人工蜂群算法,帮助大家更好的利用python进行数据分析,感兴趣的朋友可以了解下
    2020-09-09
  • python http基本验证方法

    python http基本验证方法

    今天小编就为大家分享一篇python http基本验证方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • python3 实现函数写文件路径的正确方法

    python3 实现函数写文件路径的正确方法

    今天小编就为大家分享一篇python3 实现函数写文件路径的正确方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11

最新评论