Pandas分组聚合之使用自定义函数方法transform()、apply()

 更新时间:2023年01月29日 09:36:13   作者:胡桃の壶  
Pandas具有很多强大的功能,transform就是其中之一,利用它可以高效地汇总数据且不改变数据行数,下面这篇文章主要给大家介绍了关于Pandas分组聚合之使用自定义函数方法transform()、apply()的相关资料,需要的朋友可以参考下

创建一个dataframe结构

import pandas as pd

df = pd.DataFrame(
    data={
        'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'],
        'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80],
        'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2],
        'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'],
        'height': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0]
    },
    index=['stu_' + str(i) for i in np.arange(1, 13, 1)]
)
print('df:\n', df)

def func_add_one(x):
    return x + 1

transform方法

# 调用自定义函数
ret = df.loc[:, 'score'].transform(func_add_one)
print('ret1:\n',ret)
# 调用numpy指标 求均值
ret = df.groupby(by=['cls'])['score'].transform(np.mean)
print('ret2:\n', ret)
# 求 多列的均值
ret = df.groupby(by=['cls'])[['score','height']].transform(np.mean)
print('ret3:\n', ret)

由结果可以发现,transform调用统计指标会将统计结果交给第一项,这样可以保证统计结果的行数与原数组相同,使得之后方便将其拼接到原数组中。

如果想将结果进行聚合,可以调用apply方法:

apply方法

# 调用自定义函数
ret = df.loc[:, 'score'].apply(func_add_one)
print('ret1:\n',ret)

# 调用numpy指标
ret = df.groupby(by=['cls'])[['score','height']].apply(np.mean)
print('ret2:\n', ret)

补充

transporm 方法是将DataFrameSeries中的值同时放入指定的函数中执行,再将结果返回。

获取 name的第0个元素

def func_get_firstnameword(x):
    return x[0]

ret = df['name'].transform(func_get_firstnameword)
print('ret:\n', ret)

自定义方法拥有很大的可操作性,通过自定义方法可以对数据进行一系列操作,最终得到想要的结果。

str

除此之外,还可以使用str方法,这是一种类似于 dt 的方法(dt的使用

ret = df['name'].str.split('_', expand=True)[0]
print('ret:\n', ret)

str 的作用是将整个 Series当作str对象,对Series中的所有元素同时执行.split('_', expand=True)[0]方法,其中expand=True的作用是指定split()方法是对整个Series进行操作的,而不是只对第一个元素进行操作:

ret = df['name'].str.split('_')[0]
print('ret:\n', ret)

总结

到此这篇关于Pandas分组聚合之使用自定义函数方法transform()、apply()的文章就介绍到这了,更多相关Pandas使用自定义函数方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解基于python的图像Gabor变换及特征提取

    详解基于python的图像Gabor变换及特征提取

    这篇文章主要介绍了基于python的图像Gabor变换及特征提取,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2020-10-10
  • Python使用sqlalchemy实现连接数据库的帮助类

    Python使用sqlalchemy实现连接数据库的帮助类

    这篇文章主要为大家详细介绍了Python如何使用sqlalchemy实现连接数据库的帮助类,文中的示例代码讲解详细,具有一定的借鉴价值,需要的可以参考下
    2024-02-02
  • 人脸检测——基于Flask和PaddleHub

    人脸检测——基于Flask和PaddleHub

    这篇文章详细介绍了基于Flask和PaddleHub来进行人脸检测,想详细了解的朋友可以参考阅读
    2023-03-03
  • python中的zip模块

    python中的zip模块

    这篇文章主要介绍了zip文件格式是通用的文档压缩标准,在ziplib模块中,使用ZipFile类来操作zip文件,感兴趣的朋友参考如下
    2021-08-08
  • python基于Node2Vec实现节点分类及其可视化示例详解

    python基于Node2Vec实现节点分类及其可视化示例详解

    这篇文章主要为大家介绍了python基于Node2Vec实现节点分类及其可视化示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-04-04
  • python 使用递归实现打印一个数字的每一位示例

    python 使用递归实现打印一个数字的每一位示例

    今天小编就为大家分享一篇python 使用递归实现打印一个数字的每一位示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python中调用其他程序的方式详解

    Python中调用其他程序的方式详解

    这篇文章主要介绍了Python中调用其他程序的方式详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Python中全局变量和局部变量的理解与区别

    Python中全局变量和局部变量的理解与区别

    这篇文章主要给大家介绍了关于Python中全局变量和局部变量的理解与区别的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • Python如何获取文件指定行的内容

    Python如何获取文件指定行的内容

    在本篇文章里小编给大家分享的是关于Python获取文件指定行的内容的方法,有需要的朋友们可以学习下。
    2020-05-05
  • python检查字符串是否是正确ISBN的方法

    python检查字符串是否是正确ISBN的方法

    这篇文章主要介绍了python检查字符串是否是正确ISBN的方法,涉及Python针对字符串的相关操作技巧,需要的朋友可以参考下
    2015-07-07

最新评论