Pandas中数据合并的实现

 更新时间:2025年05月06日 09:43:03   作者:浮云H  
本文介绍了使用Pandas库进行数据合并,包括堆叠合并和主键合并,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

一、数据合并

 1.堆叠合并数据

1)横向堆叠:用concat()函数

当axis=1时,concat做行对齐,然后将不同列名称的两张或多张表合并。当两个表索引不完全相同时,可以使用join参数选择是内连接还是外连接。在内连接的情况下,仅仅返回索引重叠部分;在外连接的情况下,则显示索引的并集部分数据,不足的地方使用空值填补。

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
df2 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 'D': ['D2', 'D3', 'D6', 'D7'], 'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
result = pd.concat([df1, df2], axis=1, join='inner')
print(result)

结果:

result = pd.concat([df1, df2], axis=1, join='outer')
print(result)

结果:

2)纵向堆叠:用concat()函数和append()函数

使用concat()函数时,在默认情况下,即axis=0时,concat做列对齐,将不同行索引的两张或多张表纵向合并。在两张表的列名并不完全相同的情况下,可以使用join参数:取值为inner时,返回的仅仅是列名的交集所代表的列;取值为outer时,返回的是两列名的并集代表的列。

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'], 'B': ['B8', 'B9', 'B10', 'B11'], 'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']}, index=[8, 9, 10, 11])
frames = [df1, df2, df3]
result = pd.concat(frames, axis=0)
print(result)

结果:

 append()函数实现纵向表堆叠有一个前提条件,即两张表的列名需要完全一致。但是append应该是用不了了。

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'], 'B': ['B4', 'B5', 'B6', 'B7'], 'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7])
result = df1.append(df2)
print(result)

结果:

df2 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 'D': ['D2', 'D3', 'D6', 'D7'], 'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
result = df1.append(df2)
print(result)

结果:

2.主键合并数据

使用merge()函数和join()函数

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']})
result = pd.merge(left, right, on='key')
print(result)

结果:

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'], 'key2': ['K0', 'K1', 'K0', 'K1'], 'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'], 'key2': ['K0', 'K0', 'K0', 'K0'], 'C':['C0', 'C1', 'C2', 'C3'],
                     'D':['D0', 'D1', 'D2', 'D3']})
result = pd.merge(left, right, on=['key1', 'key2'])
print(result)

 结果:

解释是如何合并的:

  • 第一行(‘K0’, ‘K0’, ‘A0’, ‘B0’, ‘C0’, ‘D0’):

    • left中的第一行(‘K0’, ‘K0’, ‘A0’, ‘B0’)与right中的第一行(‘K0’, ‘K0’, ‘C0’, ‘D0’)在key1key2上都有匹配,所以它们被合并在一起。
  • 第二行和第三行(‘K1’, ‘K0’, ‘A2’, ‘B2’, ‘C1’, ‘D1’ 和 ‘K1’, ‘K0’, ‘A2’, ‘B2’, ‘C2’, ‘D2’):

    • left中的第三行(‘K1’, ‘K0’, ‘A2’, ‘B2’)与right中的第二行和第三行(‘K1’, ‘K0’, ‘C1’, ‘D1’ 和 ‘K1’, ‘K0’, ‘C2’, ‘D2’)在key1key2上都有匹配,所以它们被合并在一起。由于right中有两行与left的第三行匹配,所以结果中有两行合并后的数据。
  • left中的第四行(‘K2’, ‘K1’, ‘A3’, ‘B3’)和right中的第四行(‘K2’, ‘K0’, ‘C3’, ‘D3’):

    • 这两行在key1上匹配,但在key2上不匹配(left是’K1’,right是’K0’)。由于内连接只保留完全匹配的行,所以这行不会被包括在结果中。

到此这篇关于Pandas中数据合并的实现的文章就介绍到这了,更多相关Pandas 数据合并内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家! 

相关文章

  • Python3的介绍、安装和命令行的认识(推荐)

    Python3的介绍、安装和命令行的认识(推荐)

    Python是著名的“龟叔”Guido van Rossum在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。这篇文章主要介绍了Python3的介绍、安装和命令行的认识,需要的朋友可以参考下
    2018-10-10
  • Pandas对CSV文件读写操作详解

    Pandas对CSV文件读写操作详解

    本文带你了解CSV文件的基础知识,那么当需要处理导入数据时,大多数 CSV 读取、处理和写入任务都可以通过基本的 Python csv 库轻松处理。如果大量数据要读取和处理,该pandas库还提供快速简便的 CSV 处理功能
    2022-04-04
  • python基础教程之简单入门说明(变量和控制语言使用方法)

    python基础教程之简单入门说明(变量和控制语言使用方法)

    这篇文章主要介绍了开始学习python的第一步需要知道的知识(变量和控制语言使用方法),需要的朋友可以参考下
    2014-03-03
  • 如何用Python进行回归分析与相关分析

    如何用Python进行回归分析与相关分析

    这篇文章主要介绍了如何用Python进行回归分析与相关分析,这两部分内容会放在一起讲解,文中提供了解决思路以及部分实现代码,需要的朋友可以参考下
    2023-03-03
  • python游戏测试工具自动化遍历游戏中所有关卡

    python游戏测试工具自动化遍历游戏中所有关卡

    这篇文章主要为大家介绍了python游戏测试工具自动化遍历游戏中所有关卡示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • python 运用Django 开发后台接口的实例

    python 运用Django 开发后台接口的实例

    今天小编就为大家分享一篇python 运用Django 开发后台接口的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • pyqt5 使用cv2 显示图片,摄像头的实例

    pyqt5 使用cv2 显示图片,摄像头的实例

    今天小编就为大家分享一篇pyqt5 使用cv2 显示图片,摄像头的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • python交互界面的退出方法

    python交互界面的退出方法

    今天小编就为大家分享一篇python交互界面的退出方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02
  • Python有序查找算法之二分法实例分析

    Python有序查找算法之二分法实例分析

    这篇文章主要介绍了Python有序查找算法之二分法,结合实例形式分析了Python二分查找算法的原理与相关实现技巧,需要的朋友可以参考下
    2017-12-12
  • Ubuntu配置Pytorch on Graph (PoG)环境过程图解

    Ubuntu配置Pytorch on Graph (PoG)环境过程图解

    这篇文章主要介绍了Ubuntu配置Pytorch on Graph (PoG)环境过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11

最新评论