Pandas数据集的合并与连接merge()方法

 更新时间:2023年11月22日 10:04:17   作者:阿松爱睡觉  
Pandas数据集的合并与连接(merge())是数据处理过程中常用的操作之一,在使用Pandas进行数据集合并时,可以使用merge()函数将两个或多个数据集按照指定的列进行合并,本文就来介绍一下,感兴趣的可以了解一下

merge()解析

merge()可根据一个或者多个键将不同的DataFrame连接在一起,类似于SQL数据库中的合并操作。

在这里插入图片描述

数据连接的类型

  • 一对一的连接:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 'hire_date': [2004, 2008, 2012, 2014]})
df3 = pd.merge(df1,df2)
df3

输出:

在这里插入图片描述

df3

在这里插入图片描述

  • 多对一的连接:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 'supervisor': ['Carly', 'Guido', 'Steve']})
pd.merge(df3,df4) 

输出:

在这里插入图片描述

  • 多对多连接:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})
pd.merge(df1,df5)

输出:

在这里插入图片描述

merge()的主要参数

1. on 可以是列名字符串或者一个包含多列名称的列表;

pd.merge(df1, df2, on='employee')

输出:

在这里插入图片描述

这个参数只能在两个DataFrame有共同列名的时候才可以使用。

2. left_onright_on参数

有时你也需要合并两个列名不同的数据集,例如前面的员工信息表中有一个字段不是employee而是name。在这种情况下,就可以用left_on和right_on参数来指定列名。

df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'salary': [70000, 80000, 120000, 90000]})
dfx = pd.merge(df1,df3,left_on="employee",right_on="name")

输出:

在这里插入图片描述

在这里插入图片描述

drop()删除
如果出现重复列,但是列名不同时,可以使用drop方法将这列去掉;

dfx.drop("name",axis=1)

输出:

在这里插入图片描述

3. left_index与right_index参数 用于合并索引

df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
pd.merge(df1a,df2a,left_index=True,right_index=True)

输出:

在这里插入图片描述

join()方法也可以实现该功能:

df1a.join(df2a)

输出:

在这里插入图片描述

如果想将索引与列混合使用,那么可以通过结合left_index与 right_on,或者结合left_on与right_index来实现。

pd.merge(df1a, df3, left_index=True, right_on='name')

输出:

在这里插入图片描述

4. how参数

how参数默认情况下是inner,也就是取交集。how参数支持的数据连接方式还有outerleftrightouter表示外连接,取并集。

df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'], 'food': ['fish', 'beans', 'bread']}, columns=['name', 'food']) 
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'], 'drink': ['wine', 'beer']}, columns=['name', 'drink'])
pd.merge(df6, df7, how='outer') 

输出:

在这里插入图片描述

左连接和右连接返回的结果分别只包含左列和右列;

pd.merge(df6, df7, how='left')

输出:

在这里插入图片描述

5. suffixes参数

如果输出结果中有两个重复的列名,因此pd.merge()函数会自动为它们增加后缀 _x 或 _y,当然也可以通过suffixes参数自定义后缀名。

df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'rank': [1, 2, 3, 4]}) 
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 'rank': [3, 1, 4, 2]})
pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])

输出:

在这里插入图片描述

suffixes参数同样适用于任何连接方式,即使有三个及三个以上的重复列名时也同样适用。

到此这篇关于Pandas数据集的合并与连接merge()方法的文章就介绍到这了,更多相关Pandas数据集的合并与连接内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 三步快速实现Python解包EXE文件获取源码的完整教学

    三步快速实现Python解包EXE文件获取源码的完整教学

    你是否曾经遇到过这样的情况,需要分析一个Python打包的可执行文件,但却无法获取原始代码,Python EXE解包技术正是解决这个问题的关键,下面我们就来看看Python解包exe的具体步骤吧
    2026-01-01
  • 使用python根据端口号关闭进程的方法

    使用python根据端口号关闭进程的方法

    今天小编就为大家分享一篇使用python根据端口号关闭进程的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • python编写图书管理系统

    python编写图书管理系统

    这篇文章主要为大家详细介绍了python编写图书管理系统,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-03-03
  • Python设计模式中的状态模式你了解吗

    Python设计模式中的状态模式你了解吗

    这篇文章主要为大家详细介绍了Python设计模式中的状态模式,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-02-02
  • Python利用Lambda表达式高效处理列表

    Python利用Lambda表达式高效处理列表

    这篇文章主要为大家详细介绍了Python如何利用Lambda表达式高效处理列表,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2025-12-12
  • 解决Python 出现File “<stdin>“, line 1非语法错误的问题

    解决Python 出现File “<stdin>“, line 1非语法错误的问题

    这篇文章主要介绍了Python 出现File “<stdin>“, line 1非语法错误的解决办法,本文给大家讲解的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • Python处理CSV文件与Excel文件的技巧分享

    Python处理CSV文件与Excel文件的技巧分享

    CSV全称逗号分隔值文件是一种简单通用的文件格式,Excel是 Microsoft为使用 Windows 和 macOS 操作系统开发的一款电子表格软件,下面我们来看看如何使用Python对着两种文件格式进行处理吧
    2025-07-07
  • Django加载配置的过程详解

    Django加载配置的过程详解

    这篇文章主要介绍了Django加载配置的过程详解,包括Django服务启动 manage.py的详细介绍,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-05-05
  • django注册用邮箱发送验证码的实现

    django注册用邮箱发送验证码的实现

    这篇文章主要介绍了django注册用邮箱发送验证码的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • python+selenium行为链登录12306(滑动验证码滑块)

    python+selenium行为链登录12306(滑动验证码滑块)

    这篇文章主要介绍了python+selenium行为链登录12306,使用python网络爬虫登录12306,下面小编为大家分享一段代码,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-02-02

最新评论