python DataFrame数据分组统计groupby()函数的使用

 更新时间:2022年03月10日 09:14:44   作者:侯小啾  
在python的DataFrame中对数据进行分组统计主要使用groupby()函数,本文主要介绍了python DataFrame数据分组统计groupby()函数的使用,具有一定的参考价值,感兴趣的可以了解一下

groupby()函数

在python的DataFrame中对数据进行分组统计主要使用groupby()函数。

1. groupby基本用法

1.1 一级分类_分组求和

import pandas as pd
data = [['a', 'A', 109], ['b', 'B', 112], ['c', 'A', 125], ['d', 'C', 120],
        ['e', 'C', 126], ['f', 'B', 133], ['g', 'A', 124], ['h', 'B', 134],
        ['i', 'C', 117], ['j', 'C', 128]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
columns = ['name', 'class', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class').sum()       # 分组统计求和
print(df1)

在这里插入图片描述

1.2 二级分类_分组求和

给groupby()传入一个列表,列表中的元素为分类字段,从左到右分类级别增大。(一级分类、二级分类…)

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby(['class_1', 'class_2']).sum()       # 分组统计求和
print(df1)

在这里插入图片描述

1.3 对DataFrameGroupBy对象列名索引(对指定列统计计算)

其中,df.groupby(‘class_1’)得到一个DataFrameGroupBy对象,对该对象可以使用列名进行索引,以对指定的列进行统计。
如:df.groupby(‘class_1’)[‘num’].sum()

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'B', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'A', '2等', 124], ['h', 'B', '1等', 134],
        ['i', 'A', '2等', 117], ['j', 'A', '2等', 128], ['h', 'A', '1等', 130], ['i', 'B', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("=================================================")
df1 = df.groupby('class_1')['num'].sum()
print(df1)

代码运行结果同上。

2. 对分组数据进行迭代

2.1 对一级分类的DataFrameGroupBy对象进行遍历

for name, group in DataFrameGroupBy_object

其中,name指分类的类名,group指该类的所有数据。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

# 获取目标数据。
df1 = df[['name', 'class_1', 'num']]
for name, group in df1.groupby('class_1'):
        print(name)
        print("=============================")
        print(group)
        print("==================================================")

在这里插入图片描述

在这里插入图片描述

2.2 对二级分类的DataFrameGroupBy对象进行遍历

对二级分类的DataFrameGroupBy对象进行遍历,
for (key1, key2), group in df.groupby([‘class_1’, ‘class_2’]) 为例
不同于一级分类的是, (key1, key2)是一个由多级类别组成的元组,而group表示该多级分类类别下的数据。

import pandas as pd
data = [['a', 'A', '1等', 109], ['b', 'C', '1等', 112], ['c', 'A', '1等', 125], ['d', 'B', '2等', 120],
        ['e', 'B', '1等', 126], ['f', 'B', '2等', 133], ['g', 'C', '2等', 124], ['h', 'A', '1等', 134],
        ['i', 'C', '2等', 117], ['j', 'A', '2等', 128], ['h', 'B', '1等', 130], ['i', 'C', '2等', 122]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")


for (key1, key2), group in df.groupby(['class_1', 'class_2']):
        print(key1, key2)
        print("=============================")
        print(group)
        print("==================================================")

程序运行结果如下:

在这里插入图片描述

在这里插入图片描述

(部分)

3. agg()函数

使用groupby()函数和agg()函数 实现 分组聚合操作运算。

3.1一般写法_对目标数据使用同一聚合函数

以 分组求均值、求和 为例

给agg()传入一个列表

df1.groupby([‘class_1’, ‘class_2’]).agg([‘mean’, ‘sum’])

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'class_2', 'num1', 'num2']]
print(df1.groupby(['class_1', 'class_2']).agg(['mean', 'sum']))

在这里插入图片描述

3.2 对不同列使用不同聚合函数

给agg()方法传入一个字典

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")
df1 = df[['class_1', 'num1', 'num2']]
print(df1.groupby('class_1').agg({'num1': ['mean', 'sum'], 'num2': ['sum']}))

在这里插入图片描述

3.3 自定义函数写法

也可以自定义一个函数(以名为max1为例)传入agg()中。

import pandas as pd
data = [['a', 'A', '1等', 109, 144], ['b', 'C', '1等', 112, 132], ['c', 'A', '1等', 125, 137], ['d', 'B', '2等', 120, 121],
        ['e', 'B', '1等', 126, 136], ['f', 'B', '2等', 133, 127], ['g', 'C', '2等', 124, 126], ['h', 'A', '1等', 134, 125],
        ['i', 'C', '2等', 117, 125], ['j', 'A', '2等', 128, 133], ['h', 'B', '1等', 130, 122], ['i', 'C', '2等', 122, 111]]
index = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
columns = ['name', 'class_1', 'class_2', 'num1', 'num2']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("===============================")

max1 = lambda x: x.value_counts(dropna=False).index[0]
max1.__name__ = "类别数量最多"
df1 = df.agg({'class_1': [max1],
        'num1': ['sum', 'mean'],
        'num2': ['sum', 'mean']})
print(df1)

在这里插入图片描述

4. 通过 字典 和 Series 对象进行分组统计

groupy()不仅仅可以传入单个列,或多个列组成的列表,
也可以传入一个字典或者一个Series来实现分组。

4.1通过一个字典

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a产品产量', 'b产品产量', 'c产品产量', '搬运工数量', '推销员数量', '经理数量', '平均工资']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

mapping = {
    'a产品产量': '产品产量', 'b产品产量': '产品产量',
    'c产品产量': '产品产量', '搬运工数量': '人员数量',
    '推销员数量': '人员数量', '经理数量': '人员数量',
    '平均工资': '平均工资'
}

df1 = df.groupby(mapping, axis=1).sum()
print(df1)

程序运行结果:

在这里插入图片描述

4.2通过一个Series

import pandas as pd
data = [['A', 10000, 20121, 14521, 20, 23, 4, 5000],
        ['B', 12000, 12541, 11220, 14, 25, 5, 6000],
        ['C', 21420, 26452, 34215, 25, 24, 4, 5266],
        ['D', 21025, 23155, 31251, 23, 26, 6, 6452],
        ['E', 30021, 23512, 21452, 30, 27, 5, 7525],
        ['F', 32152, 30214, 26321, 32, 30, 7, 6952]]
columns = ['公司', 'a产品产量', 'b产品产量', 'c产品产量', '搬运工数量', '推销员数量', '经理数量', '平均工资']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, columns=columns)
df = df.set_index(['公司'])
print(df)
print("===============================")

data = {
    'a产品产量': '产品产量', 'b产品产量': '产品产量',
    'c产品产量': '产品产量', '搬运工数量': '人员数量',
    '推销员数量': '人员数量', '经理数量': '人员数量',
    '平均工资': '平均工资'
}
s1 = pd.Series(data)
df1 = df.groupby(s1, axis=1).sum()
print(df1)

程序运行结果:

在这里插入图片描述

参考资源: python数据分析从入门到精通 明日科技编著 清华大学出版社

到此这篇关于python DataFrame数据分组统计groupby()函数的使用的文章就介绍到这了,更多相关python DataFrame groupby() 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python+OpenCV实现信用卡数字识别的方法详解

    Python+OpenCV实现信用卡数字识别的方法详解

    这篇文章主要介绍了如何利用python opencv实现信用卡数字识别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-09-09
  • Django调用支付宝接口代码实例详解

    Django调用支付宝接口代码实例详解

    这篇文章主要介绍了Django调用支付宝接口代码实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Python创建一个自定义视频播放器的实现

    Python创建一个自定义视频播放器的实现

    本文主要介绍了Python创建一个自定义视频播放器的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • pytorch 6 batch_train 批训练操作

    pytorch 6 batch_train 批训练操作

    这篇文章主要介绍了pytorch 6 batch_train 批训练操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  •  Python思维导图汇总

     Python思维导图汇总

    这篇文章主要给大家分享的是 Python思维导图汇总,对大家学习或工作或许有一定参考价值,需要的朋友可以参考一下,洗碗给对你有所帮助
    2022-01-01
  • Python使用colorlog实现控制台管理日志多种颜色显示

    Python使用colorlog实现控制台管理日志多种颜色显示

    colorlog 是一个 Python 日志库,它可以让你在控制台中以彩色的方式显示日志消息,使得日志更易于阅读和理解,下面就跟随小编一起来看看它的具体应用吧
    2024-03-03
  • Python处理日期方法详细大全(30种方法)

    Python处理日期方法详细大全(30种方法)

    这篇文章主要给大家介绍了关于Python处理日期方法详细大全,文中共介绍了30种方法,Python程序能用很多方式处理日期和时间,转换日期格式是一个常见的功能,Python提供了一个time和calendar模块可以用于格式化日期和时间,需要的朋友可以参考下
    2023-12-12
  • 详解Python基础random模块随机数的生成

    详解Python基础random模块随机数的生成

    这篇文章主要介绍了Python基础random模块随机数的生成,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03
  • 解决pandas报错'DataFrame' object has no attribute 'as_matrix'问题

    解决pandas报错'DataFrame' object has no

    这篇文章主要介绍了解决pandas报错'DataFrame' object has no attribute 'as_matrix'问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Numpy 将二维图像矩阵转换为一维向量的方法

    Numpy 将二维图像矩阵转换为一维向量的方法

    今天小编就为大家分享一篇Numpy 将二维图像矩阵转换为一维向量的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06

最新评论