Python中pandas groupby()用法案例详解

更新时间：2024年03月21日 11:42:08 作者：高斯小哥

groupby()函数是pandas库中一个非常强大的工具,它允许我们按照一个或多个特征对数据进行分组,并对每个组进行聚合、转换和过滤操作,本文将探讨pandas库中非常强大的groupby()函数,感兴趣的朋友跟随小编一起看看吧

一、为什么需要groupby()？

在处理大量数据时，我们经常需要按照某个或多个特征对数据进行分组，以便更好地理解数据的结构和关系。例如，我们可能希望按照年份、地区或产品类别对数据进行分组，并对每个组进行聚合运算，如求和、平均值、最大值等。这时，groupby()函数就显得非常有用。

二、groupby()的基本用法

首先，我们需要导入pandas库，并创建一个示例数据集。然后，我们可以使用groupby()函数按照指定的列对数据进行分组。

import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的GroupBy对象
print(grouped)

输出：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2C070B8E0>

上述代码将按照列’A’的值对DataFrame进行分组，并返回一个GroupBy对象。我们可以进一步对这个对象进行聚合运算。

三、聚合运算

GroupBy对象提供了多种聚合函数，如sum()、mean()、max()等。我们可以使用这些函数对每个组进行聚合运算。

import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 计算每个组的平均值
mean_grouped = grouped.mean()
print(mean_grouped)
# 计算每个组的总和
sum_grouped = grouped.sum()
print(sum_grouped)

输出：

C D
A
bar 0.658173 -0.225388
foo 0.778100 -0.164148
C D
A
bar 1.97452 -0.676164
foo 3.89050 -0.820740

除了内置的聚合函数外，我们还可以使用agg()函数应用自定义的聚合函数。例如，我们可以计算每个组的标准差：

import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 计算每个组的标准差
std_grouped = grouped.agg(np.std)
print(std_grouped)

输出：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2F480B880>
C D
A
bar 0.101229 0.274698
foo 0.996597 0.812362

四、高级用法与技巧

除了基本的分组和聚合操作外，groupby()还提供了许多高级功能，如应用自定义函数、转换数据等。

🔧 应用自定义函数

我们可以使用apply()方法应用自定义函数到每个组。例如，我们可以定义一个函数来计算每个组的最大值和最小值之差：

import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 定义一个自定义函数，计算每个组的最大值和最小值之差
def range_diff(group):
    return group.max() - group.min()
# 使用apply()应用自定义函数
diff_grouped = grouped.apply(range_diff)
print(diff_grouped)

输出：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002ACBD83AA60>
C D
A
bar 2.497695 1.086924
foo 2.826518 2.063781

🔄 数据转换

groupby()还提供了transform()方法，用于将聚合运算的结果广播到原始数据的每一行。这在数据转换中非常有用。

import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 使用transform()方法将每个组的平均值广播到原始数据的每一行
mean_transformed = grouped['C'].transform('mean')
print(mean_transformed)
# 将转换后的平均值添加到原始DataFrame中
df['C_mean'] = mean_transformed
print(df)

输出：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000188A56DA8E0>
0 0.344876
1 -1.358760
2 0.344876
3 -1.358760
4 0.344876
5 -1.358760
6 0.344876
7 0.344876
Name: C, dtype: float64
A C D C_mean
0 foo 0.783914 -1.027288 0.344876
1 bar -2.072893 -0.972087 -1.358760
2 foo 0.035637 -0.315908 0.344876
3 bar -1.953068 0.409697 -1.358760
4 foo 0.576048 -0.258289 0.344876
5 bar -0.050318 -1.115734 -1.358760
6 foo 0.093456 0.106227 0.344876
7 foo 0.235322 1.365150 0.344876

🔍 过滤数据

除了聚合和转换外，我们还可以使用filter()方法根据条件过滤出满足条件的组。

import numpy as np
import pandas as pd
# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)
# 使用groupby按列'A'进行分组
grouped = df.groupby('A')
# 打印分组后的对象
print(grouped)
# 使用filter()方法过滤出满足条件的组（例如，组的大小大于3）
filtered_groups = grouped.filter(lambda x: len(x) > 3)
print(filtered_groups)

输出：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015ADE2FA940>
A C D
0 foo 1.967217 0.005976
2 foo 0.950149 0.098143
4 foo 0.568101 1.461587
6 foo -1.905337 -1.106591
7 foo -0.168686 0.692850

五、实际案例应用

最后，让我们通过一个实际案例来演示如何应用groupby()函数进行数据分析和清洗。

假设我们有一个包含销售数据的DataFrame，其中包含日期、地区、产品名称、销售额等列。我们希望按地区和产品名称对数据进行分组，并计算每个组的总销售额。

import numpy as np
import pandas as pd
# 创建一个包含销售数据的DataFrame
sales_data = {
    'date': pd.date_range(start='2023-01-01', periods=100),
    'region': np.random.choice(['North', 'South', 'East', 'West'], size=100),
    'product': np.random.choice(['Product A', 'Product B', 'Product C'], size=100),
    'sales': np.random.rand(100) * 1000
}
df_sales = pd.DataFrame(sales_data)
# 按地区和产品名称对数据进行分组，并计算总销售额
grouped_sales = df_sales.groupby(['region', 'product'])['sales'].sum().reset_index()
# 打印分组后的销售额
print(grouped_sales)

输出：

region product sales
0 East Product A 2728.679432
1 East Product B 1847.966730
2 East Product C 4518.356763
3 North Product A 5882.374531
4 North Product B 5519.364196
5 North Product C 4229.953852
6 South Product A 5303.784425
7 South Product B 2321.080682
8 South Product C 4239.002167
9 West Product A 1689.650513
10 West Product B 4002.790867
11 West Product C 4894.553548

在这个案例中，我们首先创建了一个包含销售数据的DataFrame。然后，我们使用groupby()函数按地区和产品名称对数据进行分组，并使用sum()函数计算每个组的总销售额。最后，我们使用reset_index()函数将结果转换为一个新的DataFrame，并打印出来。

六、总结

groupby()函数是pandas库中一个非常强大的工具，它允许我们按照一个或多个特征对数据进行分组，并对每个组进行聚合、转换和过滤操作。通过熟练掌握groupby()函数的用法，我们可以更高效地处理和分析大量数据，从而洞察数据的内在结构和关系。希望这篇博客能够帮助你更好地理解和应用groupby()函数！

七、期待与你共同进步

到此这篇关于Python中pandas groupby()用法详解的文章就介绍到这了,更多相关pandas groupby()用法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python opencv常用图形绘制方法(线段、矩形、圆形、椭圆、文本)
这篇文章主要介绍了python opencv常用图形绘制方法(线段、矩形、圆形、椭圆、文本),文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-04-04
利用Pygame制作躲避僵尸游戏
本文参考了神庙逃亡，利用Pygame实现一个人躲避僵尸的小游戏，主要的是精灵、精灵组之间相撞、相交的处理，感兴趣的可以了解一下
2022-05-05
python在指定目录下查找gif文件的方法
这篇文章主要介绍了python在指定目录下查找gif文件的方法,涉及Python操作文件的相关技巧,非常具有实用价值,需要的朋友可以参考下
2015-05-05
Python排序搜索基本算法之插入排序实例分析
这篇文章主要介绍了Python排序搜索基本算法之插入排序,结合实例形式分析了基于比较的插入排序和基于交换的插入排序实现技巧,需要的朋友可以参考下
2017-12-12
Python实例解析图像形态学运算技术
形态学处理方法是基于对二进制图像进行处理的，卷积核决定图像处理后的效果。本文将为大家详细介绍一下OpenCV中的图像形态学，感兴趣的可以了解一下
2022-03-03
Django中提示消息messages的设置方式
今天小编就为大家分享一篇Django中提示消息messages的设置方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
python基础之字典
这篇文章主要介绍了python的字典,实例分析了Python中返回一个返回值与多个返回值的方法,需要的朋友可以参考下
2021-10-10
python中import warnings的具体作用
在Python开发中,我们经常会遇到一些警告信息,本文主要介绍了python中import warnings的具体作用,以提醒用户潜在的问题,具有一定的参考价值,感兴趣的可以了解一下
2024-03-03
Python 中的 abc 模块之抽象类与接口
在面向对象设计中,Python的abc模块提供了定义抽象类和接口的结构化方法,抽象类是不能直接实例化的类,主要用于定义接口规范,确保子类实现必要的方法,本文介绍了Python 中的 abc 模块之抽象类与接口,感兴趣的朋友跟随小编一起看看吧
2024-11-11
Python处理电子表格的Pandas、OpenPyXL、xlrd和xlwt库
在Python中处理表格数据,有几个非常流行且功能强大的库,Pandas在数据分析方面提供了广泛的功能,而OpenPyXL、xlrd和xlwt则在处理Excel文件方面各有所长,以下是一些最常用的库及其示例代码
2024-01-01