关于pandas的离散化,面元划分详解

 更新时间:2019年11月22日 09:40:31   作者:路在亻壬走  
今天小编就为大家分享一篇关于pandas的离散化,面元划分详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

pd.cut

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)

x:要分箱的输入数组,必须是一维的

bins:int或标量序列

若bins是一个int,它定义在x范围内的等宽单元的数量。然而,在这种情况下,x的范围在每一侧延伸0.1%以包括x的最小值或最大值

若bins是一个序列,它定义了允许非均匀bin宽度的bin边缘。在这种情况下不进行x的范围的扩展

right:bool,可选:决定区间的开闭,如果right == True(默认),则区间[1,2,3,4]指示(1,2],(2,3],(3,4]

labels:array或boolean,默认值为无:用作生成的区间的标签。必须与生成的区间的长度相同。如果为False,则只返回bin的整数指示符

retbins:bool,可选:是否返回bin。如果bin作为标量给出,则可能有用

precision:int:存储和显示容器标签的精度,默认保留三位小数

include_lowest:bool:第一个间隔是否应该包含左边

import numpy as np
import pandas as pd
# 使用pandas的cut函数划分年龄组
ages = [20,22,25,27,21,23,37,31,61,45,32]
bins = [18,25,35,60,100]
cats = pd.cut(ages,bins)
print(cats) # 分类时,当数据不在区间中将变为nan
# 统计落在各个区间的值数量
print(pd.value_counts(cats))
# 使用codes为年龄数据进行标号
print(cats.codes)
# 设置自己想要的面元名称
group_names = ['Youth','YoungAdult','MiddleAged','Senior']
print(pd.cut(ages, bins, labels=group_names))
# 设置区间数学符号为左闭右开
print(pd.cut(ages, bins, right=False))
# 向cut传入面元的数量,则会根据数据的最小值和最大值计算等长面元
print(pd.cut(ages, 4, precision=2)) # precision=2表示设置的精度

pd.qcut

与cut类似,它可以根据样本分位数对数据进行面元划分

pandas.qcut(x, q, labels=None, retbins=False, precision=3) 

x:ndarray或Series

q:整数或分位数阵列分位数。十分位数为10,四分位数为4或者,分位数阵列,例如[0,.25,.5,.75,1.]四分位数

labels:array或boolean,默认值为无:用作生成的区间的标签。必须与生成的区间的长度相同。如果为False,则只返回bin的整数指示符。

retbins:bool,可选:是否返回bin。如果bin作为标量给出,则可能有用。

precision:int:存储和显示容器标签的精度

import numpy as np
import pandas as pd

# qcut可以根据样本分位数对数据进行面元划分
# data = np.random.randn(20) # 正态分布
data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]
cats = pd.qcut(data, 4) # 按四分位数进行切割
print(cats)
print(pd.value_counts(cats))
print("-------------------------------------------------")
# 通过指定分位数(0到1之间的数值,包含端点)进行面元划分
cats_2 = pd.qcut(data, [0, 0.5, 0.8, 0.9, 1])
print(cats_2)
print(pd.value_counts(cats_2))

以上这篇关于pandas的离散化,面元划分详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python中列表(List) 的三种遍历(序号和值)方法小结

    Python中列表(List) 的三种遍历(序号和值)方法小结

    这篇文章主要介绍了Python中列表(List) 的三种遍历(序号和值)方法小结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • python3中set(集合)的语法总结分享

    python3中set(集合)的语法总结分享

    这篇文章主要总结了关于python3中set(集合)的语法的相关资料,文中给出了详细的示例代码,对大家具有一定的参考价值,需要的朋友们下面来一起看看吧。
    2017-03-03
  • 详解如何在Pandas中删除常量列

    详解如何在Pandas中删除常量列

    常数列不提供可变性,这意味着它们无助于区分不同的数据点,在许多机器学习模型中,这些列会引入冗余或不相关的数据,从而对性能产生负面影响,因此,通常必须删除常量列,所以本文我们将探索如何使用Python识别和删除Pandas DataFrame中的常量列,需要的朋友可以参考下
    2025-03-03
  • pandas apply多线程实现代码

    pandas apply多线程实现代码

    这篇文章主要介绍了pandas apply多线程实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • 如何利用Python和OpenCV对图像进行加水印详解

    如何利用Python和OpenCV对图像进行加水印详解

    Python使用opencv是因为觉得它足够强大,很多图像处理这块都是用的它,最近就用opencv添加个水印,这篇文章主要给大家介绍了关于如何利用Python和OpenCV对图像进行加水印的相关资料,需要的朋友可以参考下
    2021-10-10
  • Python使用pandas模块实现表之间的关联

    Python使用pandas模块实现表之间的关联

    在数据分析和处理中,表之间的关联是非常常见的操作,本文为大家介绍了pandas中实现表之间的关联有四种方式,感兴趣的小伙伴可以了解一下
    2023-07-07
  • Python使用FastParquet库处理Parquet文件的方法

    Python使用FastParquet库处理Parquet文件的方法

    在大数据时代,数据存储和处理的效率至关重要,Parquet作为一种列式存储格式,因其高效的压缩和编码方案,成为大数据处理中的热门选择,本文将深入探讨FastParquet库的使用,帮助读者掌握如何利用这一工具高效处理Parquet文件,需要的朋友可以参考下
    2025-02-02
  • Python imread、newaxis用法详解

    Python imread、newaxis用法详解

    这篇文章主要介绍了python imread、newaxis用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • python基于C/S模式实现聊天室功能

    python基于C/S模式实现聊天室功能

    这篇文章主要为大家详细介绍了python基于C/S模式实现聊天室功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-01-01
  • Python实现分段线性插值

    Python实现分段线性插值

    这篇文章主要为大家详细介绍了Python实现分段线性插值,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-12-12

最新评论