pandas中df.groupby()方法深入讲解

更新时间：2022年12月20日 11:07:41 作者：HTDiiii

在使用pandas进行数据统计分析时遇到了问题,找了很久才找到解决办法,所以下面这篇文章主要给大家介绍了关于pandas中df.groupby()方法的相关资料,需要的朋友可以参考下

分组：根据研究目的，将所有样本点按照一个或多个属性划分为多个组，就是分组。
分组的返回结果
按一列分组：df.groupby(column)
按多列分组：df.groupby([column1, column2])
查看每组的统计数据：df.groupby(column).describe()
组内离散列计数：df.groupby(column)[column2].value_counts()
组内数值列和：df.groupby(column).sum()
组内成员数：df.groupby(column).count()
组内数值列均值：df.groupby(column).mean()
组内数值列最大值：df.groupby(column).max()
组内应用函数：df.groupby(column1)[column2].apply()
组内不同列用不同函数：df.groupby(column).agg({column1:func, column2:func,…})
总结

分组：根据研究目的，将所有样本点按照一个或多个属性划分为多个组，就是分组。

pandas中，数据表就是DataFrame对象，分组就是groupby方法。将DataFrame中所有行按照一列或多列来划分，分为多个组，列值相同的在同一组，列值不同的在不同组。

分组后，就得到一个groupby对象，代表着已经被分开的各个组。后续所有的动作，比如计数，求平均值等，都是针对这个对象，也就是都是针对各个组。即在每个组组内进行计数，求平均值等。

分组的返回结果

df = pd.DataFrame([['a', 'man', 120, 90],
['b', 'woman', 130, 100],
['a', 'man', 110, 108],
['a', 'woman', 120, 118]], columns=['level', 'gender', 'math','chinese'])
group = df.groupby('gender')

df.groupby() 函数返回的对象是一系列键值对，其中键是分组的字段值，值是该字段值下的数据表。分组的结果是无法直接输出的，print()只能看到该结果的数据类型。可以用循环对分组后的结果进行遍历。

print(group)
# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x11cb60f50>
for key, value in group:
    print(key)
    print(value)
    print("")
man
  level gender  math  chinese
0     a    man   120       90
2     a    man   110      108

woman
  level gender  math  chinese
1     b  woman   130      100
3     a  woman   120      118

按一列分组：df.groupby(column)

group = df.groupby('gender') # 按照'gender'列的值来分组，创建一个groupby对象
# group = df.groupby(['gender']) # 等价写法
for key, df in group:
    print(key)
    print(df)
man
  level gender  math  chinese
0     a    man   120       90
2     a    man   110      108

woman
  level gender  math  chinese
1     b  woman   130      100
3     a  woman   120      118

按多列分组：df.groupby([column1, column2])

group = df.groupby(['gender', 'level'])
# 先按照'grade'列的值来分组。每组内，再按'level'列来分组。也返回一个groupby对象
for key, value in group:
    print(key)
    print(value)
    print("")
('man', 'a')
  level gender  math  chinese
0     a    man   120       90
2     a    man   110      108

('woman', 'a')
  level gender  math  chinese
3     a  woman   120      118

('woman', 'b')
  level gender  math  chinese
1     b  woman   130      100

查看每组的统计数据：df.groupby(column).describe()

对数据表中的数值列进行统计，给出包括count = 计数，mean = 平均数，std = 方差，min = 最小值，25% = 四分位数，50% = 二分位数，75% = 四分之三分位数，max = 最大值的信息。不会对非数值列统计。

返回的是一个dataframe。

查看所有列的统计信息

group = df.groupby(['gender'])
df1 = group.describe()
# df1 = df.groupby(['gender']).describe() # 等价写法

print(type(df1)) 
print(df1)
<class 'pandas.core.frame.DataFrame'>

 math                                                     chinese  \
       count   mean       std    min    25%    50%    75%    max   count   
gender                                                                     
man      2.0  115.0  7.071068  110.0  112.5  115.0  117.5  120.0     2.0   
woman    2.0  125.0  7.071068  120.0  122.5  125.0  127.5  130.0     2.0   


         mean        std    min    25%    50%    75%    max  
gender                                                       
man      99.0  12.727922   90.0   94.5   99.0  103.5  108.0  
woman   109.0  12.727922  100.0  104.5  109.0  113.5  118.0

查看指定列的统计信息

group = df.groupby(['gender'])
df1 = group.describe()['math'] # 只看math列的统计信息
print(df1)
count   mean    std    min    25%    50%    75%    max
gender                                                           
man       2.0  115.0  7.071068  110.0  112.5  115.0  117.5  120.0
woman     2.0  125.0  7.071068  120.0  122.5  125.0  127.5  130.0

查看纵向视图

unstack()可以将每列的统计信息垂直排列。

group = df.groupby(['gender'])
df1 = group.describe().unstack()
print(df1)
gender
math     count  man         2.000000
                woman       2.000000
         ...
         max    man       120.000000
                woman     130.000000
chinese  count  man         2.000000
                woman       2.000000
         ...
                woman     113.500000
         max    man       108.000000
                woman     118.000000
dtype: float64

组内离散列计数：df.groupby(column)[column2].value_counts()

数据表中的列按值是否连续，可以分为连续值列、离散值列。对于离散值列，可以统计其不重复值的个数。对于连续值列，统计不重复值一般没有意义。统计结果是一个Series对象。

group = df.groupby(['gender'])
df1 = group['level'].value_counts() # 统计'level'列的不重复值个数

print(type(df1))
print(df1)
<class 'pandas.core.series.Series'>

gender  level
man     a        2
woman   a        1
        b        1py
Name: level, dtype: int64

组内数值列和：df.groupby(column).sum()

group = df.groupby(['gender'])
df1 = group.sum()
print(df1)
math  chinese
gender               
man      230      198
woman    250      218

组内成员数：df.groupby(column).count()

每组内，按列统计每组的成员数。每列的统计结果是一样的

group = df.groupby(['gender'])
df1 = group.count()
print(df1)
level  math  chinese
gender                      
man         2     2        2
woman       2     2        2

组内数值列均值：df.groupby(column).mean()

每组内，统计所有数值列的均值，非数值列无均值。

所有组的均值

group = df.groupby(['gender'])
df1 = group.mean()
print(df1)
math  chinese
gender               
man      115       99
woman    125      109

单组的均值

group = df.groupby(['gender'])
df1 = group['math'].mean()
print(df1)
gender
man      115
woman    125
Name: math, dtype: int64

组内数值列最大值：df.groupby(column).max()

每组内，统计所有数值列的最大值，非数值列无最大值

统计所有数值列的最大值

group = df.groupby(['gender'])
df1 = group.max()
print(df1)
level  math  chinese
gender                     
man        a   120      108
woman      b   130      118

统计单个数值列的最大值

group = df.groupby(['gender'])
df1 = group['math'].max()
print(df1)
gender
man      120
woman    130
Name: math, dtype: int64

组内应用函数：df.groupby(column1)[column2].apply()

group = df.groupby(['gender'])
df1 = group['math'].apply(np.mean) # 求组内均值
print(df1)
gender
man      115.0
woman    125.0
Name: math, dtype: float64

组内不同列用不同函数：df.groupby(column).agg({column1:func, column2:func,…})

group = df.groupby(['gender'])
df1 = group.agg({'math':np.mean, 'chinese':np.std})
print(df1)
math    chinese
gender                 
man      115  12.727922
woman    125  12.727922

总结

到此这篇关于pandas中df.groupby()方法讲解的文章就介绍到这了,更多相关pandas df.groupby()方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

用python实现读取xlsx表格操作
大家好，本篇文章主要讲的是用python实现读取xlsx表格操作，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-01-01
python使用ctypes调用扩展模块的实例方法
在本篇文章里小编给大家整理的是一篇关于python使用ctypes调用扩展模块的实例方法内容，需要的朋友们可以学习参考下。
2020-01-01
Python中numpy数组真值判断的实现
在Python编程中,经常需要对数组进行真值判断,本文就来介绍一下Python中numpy数组真值判断的实现,具有一定的参考价值,感兴趣的可以了解一下
2023-09-09
解读python基于netconf协议获取网元的数据
大多数企业都需要网络支撑企业的ICT运行，针对企业网络中的网元设备（包括交换机，路由器，防火墙等），很多企业希望根据自身的业务特点定制网络管理，如下就以华为的NE40E网元为例，说明如何通过python基于netconf协议实现对于网元配置数据的获取。
2021-05-05
使用python实现飞机大战游戏
这篇文章主要为大家详细介绍了使用python实现飞机大战游戏，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-03-03
python中实现修改图像分辨率大小
这篇文章主要介绍了python中实现修改图像分辨率大小问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-03-03
Python3实现Web网页图片下载
这篇文章主要介绍了Python3通过request.urlopen实现Web网页图片下载，感兴趣的小伙伴们可以参考一下
2016-01-01
tkinter动态显示时间的两种实现方法
这篇文章主要介绍了tkinter动态显示时间的两种实现方法，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-01-01
python实现基于信息增益的决策树归纳
这篇文章主要为大家详细介绍了Python实现基于信息增益的决策树归纳，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-12-12
基于pyinstaller超级加密操作(加壳和转c)
这篇文章主要介绍了基于pyinstaller超级加密操作 (加壳和转c)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03