Pandas自定义shift与DataFrame求差集的小技巧

 更新时间:2022年02月28日 09:51:09   作者:小小明-代码实体  
Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统,下面这篇文章主要给大家介绍了关于Pandas自定义shift与DataFrame求差集的相关资料,需要的朋友可以参考下

大家好,我是小小明。今天分享两个小技巧:

Pandas的高级shift偏移

有很多玩量化的朋友经常碰到类似这样的问题:

image-20210719013514514

其中有位量化大佬居然在半年后的今天又问了我一遍怎么实现这样的效果,他居然忘了我之前给他写过实现。为了避免有人再碰到类似的问题,特别写下此文。

我们知道Pandas默认的API是不支持这样的操作的,这个只能自己想办法实现。下面我借助数值索引实现这样的功能,并封装起来。

最终我们封装的方法如下:

import numpy as np
import pandas as pd

def adv_shift(s, n, na_value=pd.NA):
    t = np.arange(s.shape[0])-n
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

然后生成测试数据完成这个需求:

df = pd.DataFrame({"a": [200, 300, 500, 800, 600], "b": [1, 1, 1, 2, 1]})
df['c'] = df.a-adv_shift(df.a, df.b, 0)
df
 abc
02001200
13001100
25001200
38002500
46001-200

可以看到结果完全满足要求。

如果你希望直接给DataFrame对象增加高级偏移adv_shift方法,则可以这样写:

def adv_shift(self, field, n, na_value=pd.NA):
    t = np.arange(self.shape[0])-self[n]
    s = self[field]
    t[t < 0] = s.shape[0]
    tmp = s.append(pd.Series(na_value))
    return pd.Series(tmp.iloc[t].values, index=s.index)

pd.DataFrame.adv_shift = adv_shift

调用方式:

df['c'] = df.a-df.adv_shift("a", "b", 0)
df
 abc
02001200
13001100
25001200
38002500
46001-200

最终结果与上述一致。

Datafream对象求差集

下面我们再看看如何求解Datafream对象的交集、并集和差集:

import pandas as pd

df1 = pd.DataFrame([[1, 11], [2, 22], [3, 33]],
                   columns=['a', 'b'])
df2 = pd.DataFrame([[0, 0], [1, 11], [2, 22], [4, 44]], columns=['a', 'b'])
display(df1)
display(df2)

image-20210719014818463

交集和并集一般的实现都是使用merge方法。

取交集:

df1.merge(df2)

去并集:

df1.merge(df2, how='outer')

关于取差集,我采用的是去重法。思路是,将df1与df2拼接,然后将重复的都去掉不保留,为了将df2全部去掉,将df2拼接两次,这样所有df2的数据都会产生重新而被删除,df1存在于与df2一致的数据也会被删除。

代码为:

pd.concat([df1, df2, df2]).drop_duplicates(keep=False)

测试结果:

image-20210719020032890

总结 

到此这篇关于Pandas自定义shift与DataFrame求差集的文章就介绍到这了,更多相关Pandas shift与DataFrame求差集内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python通过安装itchat包实现微信自动回复收到的春节祝福

    python通过安装itchat包实现微信自动回复收到的春节祝福

    这篇文章主要介绍了python通过安装itchat包实现微信自动回复收到的春节祝福,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友参考下吧
    2020-01-01
  • 如何基于python实现年会抽奖工具

    如何基于python实现年会抽奖工具

    这篇文章主要介绍了如何基于python实现年会抽奖工具,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-10-10
  • 使用python连接Linux服务器发送指定命令的示例代码

    使用python连接Linux服务器发送指定命令的示例代码

    这篇文章主要介绍了使用python连接Linux服务器发送指定命令,首先安装paramiko库,使用paramiko库连接linux,使用paramiko库上传下载文件,结合示例代码给大家介绍的非常详细,需要的朋友可以参考下
    2023-10-10
  • Python学习之异常处理详解

    Python学习之异常处理详解

    正常情况下,我们的程序是自上而下的逐行执行,执行到最后一行才会终止程序的执行。而异常的情况会导致我们的程序半途而废停止了执行。本文将通过示例详细讲解Python中的异常处理,感兴趣的可以学习一下
    2022-03-03
  • Python中字符编码简介、方法及使用建议

    Python中字符编码简介、方法及使用建议

    这篇文章主要介绍了Python中字符编码简介、方法及使用建议,需要的朋友可以参考下
    2015-01-01
  • Python实现图像增强

    Python实现图像增强

    这篇文章主要为大家详细介绍了Python实现图像增强,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-08-08
  • 利用Python进行异常值分析实例代码

    利用Python进行异常值分析实例代码

    数据挖掘工作中的第一步就是异常值检测,异常值的存在会影响实验结果。下面这篇文章主要给大家介绍了关于利用Python进行异常值分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-12-12
  • Python爬虫 urllib2的使用方法详解

    Python爬虫 urllib2的使用方法详解

    这篇文章主要介绍了Python爬虫 urllib2的使用方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • PIL图像处理模块paste方法简单使用详解

    PIL图像处理模块paste方法简单使用详解

    这篇文章主要介绍了PIL图像处理模块paste方法简单使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • python numpy实现文件存取的示例代码

    python numpy实现文件存取的示例代码

    这篇文章主要介绍了python numpy实现文件存取的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-05-05

最新评论