Pandas实现数据拼接的操作方法详解

更新时间：2022年04月20日 09:32:35 作者：Mr数据杨

Python处理大规模数据集的时候经常需要使用到合并、链接的方式进行数据集的整合，本文为大家主要介绍了.merge()、 .join() 和 .concat() 三种方法，感兴趣的可以了解一下

数据科学领域日常使用 Python 处理大规模数据集的时候经常需要使用到合并、链接的方式进行数据集的整合，其中应用的数据类型包括 Series 和 DataFrame，可以使用的方法也很多，比如本文中介绍的 .merge()、 .join() 和 .concat() 三种方法，进行拼接处理后的数据集可以发挥最大的用途。

merge 操作

.merge() 方法是用于组合通用列或索引上的数据，这个方法有点类似于 MySQL 中的 join 操作，可以实现左拼接、右拼接、全连接等操作。

通过关键字的索引进行拼接，实现多对一、一对多、多对多（笛卡尔乘积）连接。

merge 中参数解释：

how：定义合并方式，选择参数有『inner』，『outer』, 『left’』，『right』。
on：定义2个 DataFrame 中都必须包含的列用于连接（索引键）。
left_on 和 right_on：指定要合并的左侧或右侧对象中存在的列或索引。
left_index 和 right_index：默认为 False，设置为以索引列作为合并基准。
suffixes：字符串元组，用于附加到不是合并键的相同列名。

merge 拼接方式

一张图就能看明白不同关键字参数 merger 的方式。

merge 举例

数据读取

我们要进行势力所属和人物直接关系的拼接操作，读取的数据包括下面的2个列表，并将 人物历史登入数据 中没有势力的数据剔除。

import pandas as pd
country  = pd.read_excel("Romance of the Three Kingdoms 13/势力列表.xlsx")
people = pd.read_excel("Romance of the Three Kingdoms 13/人物历史登入数据.xlsx")

# 剔除不包含的势力数据，即武将在野的状态
people = people[people["勢力"]!="-"]

country.head()

people.head()

内部联接

使用 merge 默认参数可以直接进行内部连接，匹配两个DataFrame交集的结果。

将人物和所属势力进行一个拼接，这里我们取的是这个人物最终归属的势力，即改人物数据聚合后的最后一条数据信息。

people_new = people.groupby('名前').nth(-1)
people_new["名前"] = people_new.index
people_new.reset_index(drop=True,inplace=True)
people_new

merge 中DataFrame的顺序决定了拼接结果的顺序。

inner_merged_total = pd.merge(country,people_new,on=["勢力"])
inner_merged_total.head()

inner_merged_total = pd.merge(people_new,country,on=["勢力"])
inner_merged_total.head()

外连接

外连接（也称为完全外连接）中，来自两个 DataFrame 的所有行都将出现在新的 DataFrame 中。

本质上对于数据全的 df_A 和包含的 df_B 进行 outer 拼接，相当于 pd.merge(df_A ,df_B,on=[“key”])。

outer_merged = pd.merge(people_new,country,how="outer",on=["勢力"])
outer_merged.head()

如果我们不剔除在野武将的数据的话会发现是整张表单进行拼接。

country  = pd.read_excel("Romance of the Three Kingdoms 13/势力列表.xlsx")
people = pd.read_excel("Romance of the Three Kingdoms 13/人物历史登入数据.xlsx")
outer_merged = pd.merge(people_new,country,how="outer",on=["勢力"])
outer_merged

左连接

新合并的 DataFrame 与左侧 DataFrame 中的所有行一起保留（即merge中的第一个dataframe），同时丢弃右侧 DataFrame 中在左侧 DataFrame 的键列中没有匹配的行。

left_merged = pd.merge(people_new,country,how="left",on=["勢力"])
left_merged

右连接

新合并的 DataFrame 与右侧 DataFrame 中的所有行一起保留（即merge中的第二个dataframe），同时丢弃右侧 DataFrame 中在左侧 DataFrame 的键列中没有匹配的行。

right_merged = pd.merge(people_new,country,how="right",on=["勢力"])
right_merged

join 操作

join 操作和 merge 很相似，是在列或索引上组合数据，join 相当于指定了 merge 中的第一个 DataFreme 。并且命名冲突的列可以定义后缀进行重新命名。

这个结果和之前的左右 merger 很相似。

join 中参数解释：

other：定义要拼接的 DataFrame。
on：指定左侧 DataFrame 的可选列或索引名称。如果设置为 None，这是默认 index 连接。
how：与 merge 中的 how 具有相同，如果不指定列则使用索引拼接。
lsuffix 和 rsuffix：类似 merge() 中的后缀。
sort：对生成后的 DataFrame 进行排序。

join 举例

people_new.join(country, lsuffix="left", rsuffix="right")

仅仅是index的横向拼接。

concat 操作

concat 操作起来就比较灵活，可以进行横向的拼接操作，也可以进行纵向的拼接操作。

纵向拼接操作

横拼接操作

concat 中参数解释：

objs：要连接的任何数据对象。可以是List，Serices，DataFrame，Dict 等等。
axis：连接的轴。默认值为0（行轴），1（纵直）连接。
join：类似于 merger 中的 how 参数，只接受值 inner 或 outer 。
ignore_index：默认为False。True 为设置新的组合数据集将不会保留 axis 参数中指定的轴中的原始索引值。
keys：构建分层索引，用于查询不同的行来自的原始数据集。
copy：是否要复制源数据，默认值为True。

concat 举例

我们使用三国的宝物数据来观察，数据 74 行。

import pandas as pd
items  = pd.read_excel("Romance of the Three Kingdoms 13/道具列表.xlsx")
items.head()

横向拼接后，保持数据最大行数 74。

pd.concat([items, items], axis=1)

纵向拼接后，最大行数变成 74 的 2倍。

pd.concat([items, items], axis=0)

append 举例

append 也是 DataFrame 数据进行拼接的有效方式，方式同 concat 的纵向拼接，返回的结果需要对变量重新定义才能生效。

注意下面2个 append 行数的区别

items.append(items)
items

items = items.append(items)
items

到此这篇关于Pandas实现数据拼接的操作方法详解的文章就介绍到这了,更多相关Pandas数据拼接内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

No module named 'plotly.graph_objects&ap
这篇文章主要为大家介绍了No module named 'plotly.graph_objects'报错解决，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-12-12
四个Python操作Excel的常用脚本分享
在数字化时代，很多人工作中经常和excel打交道。本文和大家分享四个Python操作excel的脚本，让你工作效率更高，需要的小伙伴可以参考一下
2022-11-11
快速进修Python指南之简易跳表
这篇文章主要为大家介绍了Java开发者快速进修Python指南之简易跳表示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-12-12
在python中实现调用可执行文件.exe的3种方法
今天小编就为大家分享一篇在python中实现调用可执行文件.exe的3种方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
Pycharm中配置使用Anaconda的虚拟环境进行项目开发的图文教程
今天在一台电脑上跑环境的时候,发现已经装了Pytorch了,但是运行没有用,提示报错：OSError: [WinError 126] 找不到指定的模块,但其实cmd进入虚拟环境是可以调用torch的,故本文给大家介绍了Pycharm中配置使用Anaconda的虚拟环境进行项目开发的图文教程
2024-09-09
Python 变量类型实例详解
这篇文章主要介绍了Python 变量类型实例详解，基于变量的数据类型，解释器会分配指定内存，并决定什么数据可以被存储在内存中，接下来更多详细内容需要的小伙伴可以参考下面文章，希望对你有所帮助
2022-02-02
Python如何在DataFrame增加数值
这篇文章主要介绍了Python如何在DataFrame增加数值,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-02-02
django将数组传递给前台模板的方法
今天小编就为大家分享一篇django将数组传递给前台模板的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
Python生成requirements.txt的三种方法
requirements.txt 文件通常用于列出项目所需的所有Python包及其版本,本文主要介绍了Python生成requirements.txt的三种方法,具有一定的参考价值,感兴趣的可以了解一下
2024-07-07
详解python中*号的用法
这篇文章主要介绍了python中*号的用法,文中通过代码给大家介绍了双星号(**)的用法，非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
2019-10-10