Python groupby函数图文详解

 更新时间:2022年07月12日 09:07:31   作者:Vergil_Zsh  
pandas中DataFrame提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作,下面这篇文章主要给大家介绍了关于Python groupby函数详解的相关资料,需要的朋友可以参考下

一、分组原理

核心:

1、不论分组键是数组、列表、字典、Series、函数,只要其与待分组变量的轴长度一致都可以传入groupby进行分组。

2、默认axis=0按行分组,可指定axis=1对列分组。

groupby()语法格式

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, group_keys=True, squeeze=False,  observed=False, **kwargs)

groupby原理

groupby就是按XX分组,比如将一个数据集按A进行分组,效果如下

使用groupby实现功能

import numpy as np
import pandas as pd
 
data = pd.DataFrame({
    'name': ['Tom', 'Kaggle', 'Litter', 'Sam', 'Sam', 'Sam'],
    'race': ['B', 'C', 'D', 'E', 'B', 'C'],
    'age': [37.0, 61.0, 56.0, 87.0, 58.0, 34.0],
    'signs_of_mental_illness': [True, True, False, False, False, False]
})
 
data.groupby('race')

 返回结果如上  得到一个叫DataFrameGroupBy的东西,pandas不能直接显示出来 可以调用list显示出来

groupby()的配合函数 函数 适用场景备注.mean()均值.count()计数.min()最小值.mean().unstack()求均值,聚合表的层次索引不堆叠.size()计算分组大小GroupBy的size方法,将返回一个含有分组大小的Series.apply().agg()

这里演示.mean()和.count()

# mean()
data.groupby('name')['age'].mean()
# count()
data.groupby('name')['age'].count()
data.groupby('age').count()

 也可以根据单键多列进行聚合

# 单键多列聚合
data.groupby('name')[['race','age',]].count()

 .agg操作 可以取多个函数进行选择 有时候我们既需要平均值,有需要计数(也可是取一个)

agg为列表

print(data.groupby('name')['age'].agg(['mean']))
 
print(data.groupby('name')['age'].agg(['mean','count']))

也可以传入字典,对组内不同列采取不同的操作

print(data.groupby('race').agg({'age': np.median, 'signs_of_mental_illness': np.mean}))

.apply()

可以使用我们自己所创建的函数

print('apply之前')
grouped = data.groupby('name')
for name, group in grouped:
    print(name)
    print(group)
print('\n')
print('apply之后')
print(data.groupby('name').apply(lambda x: x.head(2)))

 简单操作基本介绍完成

有时候需要将聚合的另一列放到一起 并且取消键的重复值 这个时候可以这样做

上面是构建的数据,需要对订购时间进行处理,这里我们是将月份+天数/30,然后对ID列进行去重,并将后面Time列计算的结果放到一起

import numpy as np
import pandas as pd
 
 
data = pd.read_excel('订购时间预测2.xlsx')
def cut_m_d(x):
	return round(x.month + x.day / 30, 2)
 
data['m_d'] = data['Time'].apply(cut_m_d)
grouped = data.groupby('ID')
# 这一步是去重(ID),不去重会出现错误
result = grouped['m_d'].unique()
result2 = result.reset_index()
print(result2)

总结

到此这篇关于Python groupby函数详解的文章就介绍到这了,更多相关groupby函数详解内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python数据批量写入ScrolledText的优化方法

    python数据批量写入ScrolledText的优化方法

    今天小编就为大家分享一篇python数据批量写入ScrolledText的优化方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python re正则表达式元字符分组()用法分享

    Python re正则表达式元字符分组()用法分享

    在本篇文章里小编给大家整理了关于Python re正则表达式元字符分组()的相关知识点实例,需要的朋友们可以学习下。
    2020-02-02
  • python 接口_从协议到抽象基类详解

    python 接口_从协议到抽象基类详解

    下面小编就为大家带来一篇python 接口_从协议到抽象基类详解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08
  • Python3第三方模块之Pillow模块的使用详解

    Python3第三方模块之Pillow模块的使用详解

    这篇文章主要介绍了Python3第三方模块之Pillow模块的使用详解,在 pillow之前处理图形的库莫过于PIL,但是它支持到python2.7,年久失修,于是一群志愿者在PIL的基础上常见了pillow,支持python3,又丰富和功能特性,需要的朋友可以参考下
    2023-10-10
  • 详解如何使用Python网络爬虫获取招聘信息

    详解如何使用Python网络爬虫获取招聘信息

    在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息。可是招聘信息有一些是错综复杂的。本文将为大家介绍用Python爬虫获取招聘信息的方法,需要的可以参考一下
    2022-03-03
  • 详解Python中的文件操作

    详解Python中的文件操作

    今天这篇文章给大家介绍Python中的文件操作,文章内容介绍的很详细,有需要的可以参考借鉴。
    2016-08-08
  • Python 12306抢火车票脚本 Python京东抢手机脚本

    Python 12306抢火车票脚本 Python京东抢手机脚本

    这篇文章主要为大家详细介绍了Python 12306抢火车票脚本和Python京东抢手机脚本,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • 最新Python idle下载、安装与使用教程图文详解

    最新Python idle下载、安装与使用教程图文详解

    这篇文章主要介绍了最新Python idle下载、安装与使用教程图文详解,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11
  • 使用python3 实现插入数据到mysql

    使用python3 实现插入数据到mysql

    今天小编就为大家分享一篇使用python3 实现插入数据到mysql,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • Django中的CACHE_BACKEND参数和站点级Cache设置

    Django中的CACHE_BACKEND参数和站点级Cache设置

    这篇文章主要介绍了Django中的CACHE_BACKEND参数和站点级Cache设置,Python是最具人气的Python web框架,需要的朋友可以参考下
    2015-07-07

最新评论