pandas中apply和transform方法的性能比较及区别介绍

 更新时间:2018年10月30日 11:54:54   作者:Bo_hemian  
这篇文章主要介绍了pandas中apply和transform方法的性能比较,在文中给大家讲解了apply() 与transform()的相同点与不同点,需要的朋友可以参考下

1. apply与transform

首先讲一下apply() 与transform()的相同点与不同点

相同点:

都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。

不同点:

apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注:apply不能直接使用agg()方法 / transform()中的python内置函数,例如sum、max、min、'count‘等方法)

transform() 里面不能跟自定义的特征交互函数,因为transform是真针对每一元素(即每一列特征操作)进行计算,也就是说在使用 transform() 方法时,需要记得三点:

1、它只能对每一列进行计算,所以在groupby()之后,.transform()之前是要指定要操作的列,这点也与apply有很大的不同。

2、由于是只能对每一列计算,所以方法的通用性相比apply()就局限了很多,例如只能求列的最大/最小/均值/方差/分箱等操作

3、transform还有什么用呢?最简单的情况是试图将函数的结果分配回原始的dataframe。也就是说返回的shape是(len(df),1)。注:如果与groupby()方法联合使用,需要对值进行去重

2. 各方法耗时

分别计算在同样简单需求下各组合方法的计算时长

2.1 transform() 方法+自定义函数


2.2 transform() 方法+python内置方法


2.3 apply() 方法+自定义函数


2.4 agg() 方法+自定义函数


2.5 agg() 方法+python内置方法


2.6 结论

agg()+python内置方法的计算速度最快,其次是transform()+python内置方法。而 transform() 方法+自定义函数 的组合方法最慢,需要避免使用!

而下面两图中红框内容可观察发现:python自带的stats统计模块在pandas结构中的计算也非常慢,也需要避免使用!

3. 实例分析

需求:计算每个用户每天

某种行为消费次数、消费总额、消费均额、消费最大额、消费最小额

在几个终端支付、最常支付终端号、最常支付终端号的支付次数、最少支付终端号、最少支付终端号的支付次数

某种行为最常消费发生时间段、最常消费发生时间段的消费次数、最少消费发生时间段、最少消费发生时间段的消费次数

某种行为最早消费时间、最晚消费时间

原始数据信息:306626 x 9


具体选择哪种方法处理,根据实际情况确定,在面对复杂计算时,transform() 与apply()结合使用往往会有意想不到的效果!

需要注意的是,在与apply()一起使用时,transform需要进行去重操作,一般是通过指定一或多个列完成。

此外,匿名函数永远不是一个很好的办法,在进行简单计算时,无论是使用transfrom、agg还是apply,都要尽可能使用自带方法!!!

4. 小技巧

在使用apply()方法处理大数据级时,可以考虑使用joblib中的多线程/多进程模块构造相应函数执行计算,以下分别是采用多进程和单进程的耗时时长。

可以看到,在260W的数据集上,多进程比单进程的计算速度可以提升约17%~61%  。

总结

以上所述是小编给大家介绍的pandas中apply和transform方法的性能比较,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

相关文章

  • python如何给字典的键对应的值为字典项的字典赋值

    python如何给字典的键对应的值为字典项的字典赋值

    这篇文章主要介绍了python如何给字典的键对应的值为字典项的字典赋值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • pytorch hook 钩子函数的用法

    pytorch hook 钩子函数的用法

    这篇文章主要介绍了pytorch hook 钩子函数的用法,Hook 是 PyTorch 中一个十分有用的特性,使用后可以不必改变网络输入输出的结构,方便地获取、改变网络中间层变量的值和梯度,下文详细介绍需要的小伙伴可以参考一下
    2022-03-03
  • 使用Python提取PDF表格到Excel文件的操作步骤

    使用Python提取PDF表格到Excel文件的操作步骤

    在对PDF中的表格进行再利用时,除了直接将PDF文档转换为Excel文件,我们还可以提取PDF文档中的表格数据并写入Excel工作表,本文将介绍如何使用Python提取PDF文档中的表格并写入Excel文件中,需要的朋友可以参考下
    2024-09-09
  • 举例讲解Python编程中对线程锁的使用

    举例讲解Python编程中对线程锁的使用

    Python的threading模块中提供了多种锁的相关方法,Python的多线程不能同时执行,因而锁的使用非常关键,下面我们就来举例讲解Python编程中对线程锁的使用:
    2016-07-07
  • python+pygame简单画板实现代码实例

    python+pygame简单画板实现代码实例

    这篇文章主要介绍了python+pygame简单画板实现代码实例,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • pytorch锁死在dataloader(训练时卡死)

    pytorch锁死在dataloader(训练时卡死)

    这篇文章主要介绍了pytorch锁死在dataloader(训练时卡死),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • Python实现定时执行任务的三种方式简单示例

    Python实现定时执行任务的三种方式简单示例

    这篇文章主要介绍了Python实现定时执行任务的三种方式,结合简单实例形式分析了Python使用time,os,sched等模块定时执行任务的相关操作技巧,需要的朋友可以参考下
    2019-03-03
  • python实现汉诺塔方法汇总

    python实现汉诺塔方法汇总

    本文给大家汇总了几种使用Python结合递归算法实现汉诺塔的方法,非常的简单实用,对大家学习Python很有帮助,希望大家能够喜欢
    2016-07-07
  • python3.6利用pyinstall打包py为exe的操作实例

    python3.6利用pyinstall打包py为exe的操作实例

    今天小编就为大家分享一篇python3.6利用pyinstall打包py为exe的操作实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • Python实现视频自动打码的示例代码

    Python实现视频自动打码的示例代码

    我们在观看视频的时候,有时候会出现一些奇怪的马赛克,影响我们的观影体验,那么这些马赛克是如何精确的加上去的呢?本文就来为大家详细讲讲
    2022-04-04

最新评论