使用pandas中的DataFrame.rolling方法查看时间序列中的异常值

 更新时间:2023年12月25日 09:54:28   作者:阿桐木123  
Pandas是Python中最受欢迎的数据分析和处理库之一,提供了许多强大且灵活的数据操作工具,在Pandas中,DataFrame.rolling方法是一个强大的工具,在本文中,我们将深入探讨DataFrame.rolling方法的各种参数和示例,以帮助您更好地理解和应用这个功能

前言

Pandas是Python中最受欢迎的数据分析和处理库之一,提供了许多强大且灵活的数据操作工具。在Pandas中,DataFrame.rolling方法是一个强大的工具,用于执行滚动窗口计算,能够对数据进行平滑处理、计算移动平均值和其他滚动统计量等操作。在本文中,我们将深入探讨DataFrame.rolling方法的各种参数和示例,以帮助您更好地理解和应用这个功能。

DataFrame.rolling方法的参数说明

window参数

window参数用于指定滚动窗口的大小,可以是整数、时间间隔、字符串、偏移量或BaseIndexer子类。具体如下:

  • 整数:固定窗口大小的观测数量。
  • 时间间隔、字符串、偏移量:每个窗口的时间周期,仅适用于日期时间型索引。
  • BaseIndexer子类:基于定义的get_window_bounds方法的窗口边界。

min_periods参数

min_periods参数指定窗口中所需的最小观测数量,用于计算结果值。默认为None。

center参数

center参数用于设置窗口标签的位置。默认为False。

  • False:将窗口标签设置为窗口索引的右边缘。
  • True:将窗口标签设置为窗口索引的中心。

win_type参数

win_type参数用于指定窗口类型,默认为None。

  • None:所有点均匀加权。
  • 字符串:必须是有效的scipy.signal窗口函数。

on参数

on参数用于DataFrame,指定在哪个列标签或索引级别上计算滚动窗口,而不是使用DataFrame的索引。

axis参数

axis参数指定滚动操作的轴向,默认为0。

  • 0或'index':沿行进行滚动。
  • 1或'columns':沿列进行滚动。

closed参数

closed参数指定窗口的闭合方式,默认为None('right')。

  • 'right':排除窗口中的第一个点。
  • 'left':排除窗口中的最后一个点。
  • 'both':不包括窗口中的任何点。
  • 'neither':排除窗口中的第一个和最后一个点。

step参数

step参数用于在每个步骤处计算窗口结果,相当于切片操作[::step]。在1.5.0版中新增。

method参数

method参数用于指定单列或行('single')或整个对象('table')的滚动操作。在1.3.0版中新增。

返回值

DataFrame.rolling方法返回一个pandas.api.typing.Windowpandas.api.typing.Rolling的实例。

示例

以下是一些DataFrame.rolling方法的使用示例:

  • 使用不同窗口大小进行滚动求和。
  • 在时间序列数据上使用时间间隔进行滚动计算。
  • 使用不同参数进行滚动操作。
  • 在日期列上进行滚动计算。
# 示例代码
import pandas as pd
import numpy as np

# 创建示例数据
df = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]})

# 滚动求和示例
result = df.rolling(2).sum()
print(result)
df.rolling(2).sum()
     B
0  NaN
1  1.0
2  3.0
3  NaN
4  NaN
  • 相当于包括自己往前两个为一个窗口,进行sum(),对于第一个因为前面为0所以为Nan,对于第二个数 = 0 + 1 = 1 ,同理第三个数 = 1 + 2 = 3.

在时间序列上的应用

介绍:基于时间窗口的滚动求和

在数据处理中,经常需要对时间序列数据执行滚动窗口计算以获取更深层次的见解。Pandas库中的DataFrame.rolling方法为我们提供了一种便捷的方式来进行此类操作。特别是,在时间序列数据中,通过指定时间间隔来计算滚动统计量可以洞察数据的趋势和模式。

让我们以一个具体的示例来说明:我们有一个包含时间戳索引的DataFrame df_time,其中的列B包含了一些数值数据。我们希望对这个数据执行滚动求和,并且窗口的宽度是2秒。

import pandas as pd
import numpy as np

# 创建示例数据
df_time = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]},
                       index=[pd.Timestamp('20130101 09:00:00'),
                              pd.Timestamp('20130101 09:00:02'),
                              pd.Timestamp('20130101 09:00:03'),
                              pd.Timestamp('20130101 09:00:05'),
                              pd.Timestamp('20130101 09:00:06')])
print(df_time)

df_time
                       B
2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:03  2.0
2013-01-01 09:00:05  NaN
2013-01-01 09:00:06  4.0

result = df_time.rolling('2s').sum()
print(result)

                       B
2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:03  3.0
2013-01-01 09:00:05  NaN
2013-01-01 09:00:06  4.0

再来一个时间序列查看异常值的例子

# pick a window size 
window_size = 25

![image.png](https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/5f50add371c3406aa9b246dd6e76579e~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1278&h=615&s=112122&e=png&b=f0f0f0)
# calculate rolling mean and standard deviation
xroll = series['value'].rolling(window_size)
series['mean_roll'] = xroll.mean()
series['sd_roll'] = xroll.std()

# calculate the Z-score
series['zscore'] = np.abs( (series['value'] - series['mean_roll']) / series['sd_roll'])
series['zscore'].plot()

series.loc[series['zscore'] > 3][['timestamp', 'value']]

以上是DataFrame.rolling方法的参数说明和示例,该方法提供了强大的滚动窗口计算功能,可在时间序列和数据处理中发挥重要作用。

到此这篇关于使用pandas中的DataFrame.rolling方法查看时间序列中的异常值的文章就介绍到这了,更多相关pandas DataFrame.rolling查看异常值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现的矩阵转置与矩阵相乘运算示例

    Python实现的矩阵转置与矩阵相乘运算示例

    这篇文章主要介绍了Python实现的矩阵转置与矩阵相乘运算,结合实例形式分析了Python针对矩阵进行转置与相乘运算的相关实现技巧与操作注意事项,需要的朋友可以参考下
    2019-03-03
  • go和python调用其它程序并得到程序输出

    go和python调用其它程序并得到程序输出

    这里介绍下用python和go语言的实现将其它程序的输出直接保存成变量供程序使用的方法,大家参考使用吧
    2014-02-02
  • Python实现一个发送程序和接收程序

    Python实现一个发送程序和接收程序

    这篇文章主要介绍了Python实现一个发送程序和接收程序,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-09-09
  • 浅谈Python 的枚举 Enum

    浅谈Python 的枚举 Enum

    下面小编就为大家带来一篇浅谈Python 的枚举 Enum。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-06-06
  • Django中实现一个高性能计数器(Counter)实例

    Django中实现一个高性能计数器(Counter)实例

    这篇文章主要介绍了Django中实现一个高性能计数器(Counter)实例,分解成一步一步去讲解,并配有例子,需要的朋友可以参考下
    2014-07-07
  • Python代码中偏函数的使用详解

    Python代码中偏函数的使用详解

    Python中的偏函数是来自函数式编程的一个强大工具,它的主要目标是减少函数调用的复杂性,本文将详细介绍偏函数的具体使用,需要的小伙伴可以了解下
    2023-12-12
  • Python变量的定义、命名规则与数据类型入门详解

    Python变量的定义、命名规则与数据类型入门详解

    本文介绍了Python编程中变量定义、命名规则与数据类型的重要性和应用,包括核心概念、技术原理、实践应用、常见问题与解决方案和最佳实践等内容,通过学习,读者可以掌握变量的基本操作,提高编程效率和代码质量,同时,提供了一些进阶技巧和安全注意事项
    2026-04-04
  • Python中用format函数格式化字符串的用法

    Python中用format函数格式化字符串的用法

    这篇文章主要介绍了Python中用format函数格式化字符串的用法,格式化字符串是Python学习当中的基础知识,本文主要针对Python2.7.x版本,需要的朋友可以参考下
    2015-04-04
  • Python中文分词工具之结巴分词用法实例总结【经典案例】

    Python中文分词工具之结巴分词用法实例总结【经典案例】

    这篇文章主要介绍了Python中文分词工具之结巴分词用法,结合实例形式总结分析了Python针对中文文件的读取与分词操作过程中遇到的问题与解决方法,需要的朋友可以参考下
    2017-04-04
  • Python 生成 -1~1 之间的随机数矩阵方法

    Python 生成 -1~1 之间的随机数矩阵方法

    今天小编就为大家分享一篇Python 生成 -1~1 之间的随机数矩阵方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-08-08

最新评论