Pandas分组聚合之groupby()、agg()方法的使用教程

更新时间：2023年01月29日 09:36:55 作者：胡桃の壶

今天看到pandas的聚合函数agg,比较陌生,平时的工作中处理数据的时候使用的也比较少,为了加深印象,总结一下使用的方法,下面这篇文章主要给大家介绍了关于Pandas分组聚合之groupby()、agg()方法的使用教程,需要的朋友可以参考下

创建一个dataframe结构

import pandas as pd

df = pd.DataFrame(
    data={
        'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'],
        'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80],
        'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2],
        'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'],
        'height': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0]
    },
    index=['stu_' + str(i) for i in np.arange(1, 13, 1)]
)
print('df:\n', df)

分组函数 groupby()

初识分组聚合

我们可以通过DataFrame.groupby(by=[”column“]) 方法对数据进行分组，再根据需求进行聚合操作。

统计各个班的最高的成绩：

# 先按照班级进行分组，再统计各个组里面的成绩的最大值！
ret = df.groupby(by=['cls'])['score'].max().reset_index()
print('ret:\n', ret)

分开来看就是：

ret = df.groupby(by=['cls'])	# 将数据以 cls 进行分组，返回 DataFrameGroupBy 对象
print(ret)		# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B6B2003A60>
ret = ret['score']				# 取出 score 列，返回 SeriesGroupBy 对象
print(ret)		# <pandas.core.groupby.generic.SeriesGroupBy object at 0x000002B6B59EAFD0>
ret = ret.max()					# 取出 score 中的最大值，返回 Series 对象
print(ret)
"""
cls
A    100
B     89
Name: score, dtype: int64
"""
ret = ret.reset_index()			# 重设索引，返回 DataFrame 对象
print(ret)
"""
  cls  score
0   A    100
1   B     89
"""

多重行索引分组聚合

统计各个班的各个小组的最高成绩

# 先按照班级分组，再按照小组分组，最后统计各个小组内成绩的最大值
ret = df.groupby(by=['cls', 'group'])['score'].max()
print('ret:\n', ret)
print('index:\n', ret.index)	# MultiIndex ---多重行索引
ret = ret.reset_index()			# 重设索引
print(ret)

对多列数据进行分组聚合

统计各个班级的成绩、身高的平均值：

# 按照班级分组，统计各个组内 成绩、身高的平均值
ret = df.groupby(by=['cls'])[['score', 'height']].mean().reset_index()
print('ret:\n', ret)

综合应用

统计各个班级、各个小组的成绩、身高的平均值

# 先按照班级分组、再按照小组分组---统计各个小组内的成绩的平均值、身高的平均值
ret = df.groupby(by=['cls', 'group'])[['score', 'height']].mean().reset_index()
print('ret:\n', ret)

聚合函数 agg（aggregate）

在Pandas中，agg和aggregate两个函数指向同一个方法，使用时写任意一个即可。

求多列数据的多个指标

统计成绩、身高的最大值、均值

# 使用agg 方法 可以对多列数据一次性求出多个指标
ret = df.loc[:, ['score', 'height']].agg([np.max, np.mean])
print('ret:\n', ret)

对多列数据统计不同的指标

统计成绩的均值、同时统计身高的最大值

ret = df.agg({'score': [np.mean], 'height': [np.max]})
print('ret:\n',ret)

对多列数据统计不同个数的指标

统计成绩的均值、最大值、中位数和身高的均值

ret = df.agg({'score': [np.mean, np.max, np.median], 'height': [np.mean]})
print('ret:\n', ret)

使用agg 方法也可以配合着分组对不同列、不同的数据、统计不同个数的不同指标！

ret = df.groupby(by=['cls']).agg({'height': [np.max,np.mean], 'score': [np.min]})
print('ret:\n', ret)

agg调用自定义函数

ret = df.loc[:, 'score'].agg(lambda x: x + 1)
print('ret1:\n', ret)


def func_add_one(x):
    return x + 1

ret = df.loc[:, 'score'].agg(func_add_one)
print('ret2:\n', ret)

# 对多列 使用自定义函数
ret = df.loc[:, ['score', 'height']].agg(func_add_one)
print('ret3:\n', ret)

使用agg 调用numpy的统计指标

# 统计所有同学成绩的和
ret = df.loc[:, 'score'].agg(np.sum)
print('ret:\n',ret)
print('type:\n',type(ret))

# # 统计所有同学 成绩以及身高 的和
ret = df.loc[:, ['score', 'height']].agg(np.sum)
print('ret:\n', ret)
print('type:\n',type(ret))

# 统计身高 + 成绩（无意义的，只是为了演示能够 同一行相加）
ret = df.loc[:, ['score', 'height']].agg(np.sum, axis=1)	# 使用axis指定相加的方向
print('ret:\n', ret)
print('type:\n',type(ret))

除了以上方法之外，还可以使用自定义方法聚合，可以参见我的这篇文章：Pandas使用自定义方法

总结

到此这篇关于Pandas分组聚合之groupby()、agg()方法使用的文章就介绍到这了,更多相关Pandas分组聚合groupby()、agg()内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

在numpy矩阵中令小于0的元素改为0的实例
今天小编就为大家分享一篇在numpy矩阵中令小于0的元素改为0的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
Python如何将两个三维模型(obj)合成一个三维模型(obj)
这篇文章主要介绍了Python如何将两个三维模型(obj)合成一个三维模型(obj)问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-06-06
Python VisPy库高性能科学可视化图形处理用法实例探究
VisPy是一个用于高性能科学可视化的Python库，它建立在现代图形处理单元（GPU）上，旨在提供流畅、交互式的数据可视化体验，本文将深入探讨VisPy的基本概念、核心特性以及实际应用场景，并通过丰富的示例代码演示其强大的可视化能力
2023-12-12
python中cv2模块安装详细图文教程
在Python中cv2是OpenCV库的一个模块,这是一个开源的计算机视觉和机器学习软件库,下面这篇文章主要给大家介绍了关于python中cv2模块安装的相关资料,需要的朋友可以参考下
2024-05-05
Python中可复用函数的6种实践
为了实现可维护性,我们的Python函数应该：小型、只做一项任务；没有重复；有一个层次的抽象性；有一个描述性的名字和有少于四个参数,下面我们就来看看这6个特性的实践吧
2023-08-08
Django数据库(SQlite)基本入门使用教程
django有默认自带的数据库,当然也可以用其他的数据库,下面这篇文章主要给大家介绍了关于Django数据库(SQlite)基本入门使用教程的相关资料,需要的朋友可以参考下
2022-07-07
详解Java中一维、二维数组在内存中的结构
这篇文章主要介绍了Java中一维、二维数组在内存中的结构,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-02-02
python通过cookie模拟已登录状态的初步研究
对于那些需要在登录环境下进行的爬虫操作，模拟登陆或伪装已登录状态是一个刚性需求。这篇文章主要介绍了python通过cookie模拟已登录状态的相关资料,需要的朋友可以参考下
2016-11-11
python lambda的使用详解
这篇文章主要介绍了python lambda的使用详解，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-02-02
Python如何查找特定名称文件
这篇文章主要介绍了Python如何查找特定名称文件问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-08-08