Python中应用Winsorize缩尾处理的操作经验

 更新时间:2022年07月01日 09:39:53   作者:啥都不懂的鳄鱼  
缩尾处理相当于对数据进行掐头(尾)去尾,然后再按照一定的方法填补被掐掉的数据,下面这篇文章主要给给大家介绍了关于Python中应用Winsorize缩尾处理的相关资料,需要的朋友可以参考下

最近搞数据时发现,缩尾时本来是空值或者无效值的地方被填补了数据。传统的研究会将空值剔除后再进行缩尾,但一些不需要剔除空值的数据集需要剔除极端值,因而不能省略缩尾。结合自己的操作经验做些记录:

以保存在Excel中的数据为例:

from scipy.stats.mstats import winsorize
import pandas as pd
df = pd.read_excel('Excel.xlsx', engine='openpyxl', header=0)
df_list=["a","b","c"]#需要进行缩尾的列名

1:直接应用Winsorize,不考虑空值和无效值,缩尾结果可能导致部分空值被填充数据

for i in df_list():
    df[i]=winsorize(df[i],limits=[0.01, 0.01])#对指定列中的连续数据进行1%和99%的缩尾(Winsorize)处理

2.1:屏蔽空值和无效值,仅对其他值进行Winsorize处理,缩尾结果不改变原来的空值和无效值

for i in df_list():
    df[i]=np.where(df[i].isnull(), np.nan, winsorize(np.ma.masked_invalid(df[i]),limits=(0.01,0.01)))
#np.where(condition, x, y),满足condition是x,否则y
#此处判断是否空值,是的话为空,否的话进行屏蔽空值和无效值的1%和99%缩尾处理

2.2:winsorize提供的参数,但这个方法我没有成功…仅供参考

for i in df_list():
    df[i]=winsorize(df[i],limits=[0.01, 0.01], nan_policy='omit')

winsorize官方文档

3:屏蔽空值和无效值,对所有值进行Winsorize处理,缩尾结果不改变原来的空值和无效值,与方法2的区别在于方法3没有改变需要缩尾的数据长度

for i in df_list():
    mask = df[i].notna()
    df.loc[mask,i] = winsorize(df[i].loc[mask],limits=[0.01, 0.01]) 
    #这个mask就是一个bool index,指示哪些位置上是nan
    #比如一列数据是[1, NaN, 2],如果用df['A'].isnan()得到的就是一个[False, True, False]的数组 
    #这个数组就是所谓的mask,它可以把dataframe中的特定数据挑出来

我碰到后续描述性统计有负无穷值的问题,因而将其替换为空值

#如果需要将无穷值换为空值
df=df.replace(-np.Inf,np.NaN) 

(在此鸣谢不厌其烦给我提供参考的张老师、李老师、孙老师!)

参考文章:

1.Winsorize的正确方法但在Python中忽略nan

2.有关numpy.ma.masked_invalid的用法

3.Python数据分析 - 缩尾处理

总结

到此这篇关于Python中应用Winsorize缩尾处理的文章就介绍到这了,更多相关Python应用Winsorize缩尾内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 利用Python实现读取照片的Exif信息

    利用Python实现读取照片的Exif信息

    这篇文章主要为大家详细介绍了如何利用Python实现读取照片的Exif信息,文中的示例代码简洁易懂,具有一定的参考价值,有需要的小伙伴可以参考下
    2023-10-10
  • Python3实现Web网页图片下载

    Python3实现Web网页图片下载

    这篇文章主要介绍了Python3通过request.urlopen实现Web网页图片下载,感兴趣的小伙伴们可以参考一下
    2016-01-01
  • Python二进制文件读取并转换为浮点数详解

    Python二进制文件读取并转换为浮点数详解

    这篇文章主要介绍了Python二进制文件读取并转换为浮点数详解,用python读取二进制文件,这里主要用到struct包,而这个包里面的方法主要是unpack、pack、calcsize。,需要的朋友可以参考下
    2019-06-06
  • Python利用pynput实现划词复制功能

    Python利用pynput实现划词复制功能

    这篇文章主要为大家想详细介绍了Python如何利用pynput实现划词复制功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2022-05-05
  • Python多进程的使用详情

    Python多进程的使用详情

    本篇重点介绍Python多进程的使用,主要介绍其的一些方法及进程的创建等,想进一步了解的小伙伴请跟小编一起进入下文吧
    2021-09-09
  • Python RPA自动化机器人模拟鼠标键盘

    Python RPA自动化机器人模拟鼠标键盘

    这篇文章主要介绍了Python RPA自动化机器人模拟鼠标键盘,RPA,全称为Robotic Process Automation,即机器人流程自动化。我们可以利用RPA技术将工作中可重复的部分流程化,让机器替我们完成这一工作
    2023-02-02
  • python实现对任意大小图片均匀切割的示例

    python实现对任意大小图片均匀切割的示例

    今天小编就为大家分享一篇python实现对任意大小图片均匀切割的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python迭代器和生成器介绍

    Python迭代器和生成器介绍

    这篇文章主要介绍了Python迭代器和生成器介绍,本文分别用代码实例讲解了Python的迭代器和生成器,需要的朋友可以参考下
    2015-03-03
  • 详解Python 多线程 Timer定时器/延迟执行、Event事件

    详解Python 多线程 Timer定时器/延迟执行、Event事件

    这篇文章主要介绍了Python 多线程 Timer定时器/延迟执行、Event事件的相关知识,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-06-06
  • Python数据序列化之pickle模块

    Python数据序列化之pickle模块

    这篇文章主要介绍了Python数据序列化之pickle模块,pickle的本质是将Python数据还原为内存中的二进制数据,供用户转移、储存,更多详细内容,需要的小伙伴可以下面文章内容
    2022-03-03

最新评论