Pandas对数值进行分箱操作的4种方法总结

更新时间：2022年05月30日 11:24:27 作者：Python数据分析实例

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化，他可用于将连续数据的间隔分组到“箱”或“桶”中。本文将使用python Pandas库对数值进行分箱的4种方法，感兴趣的可以了解一下

前言

使用 Pandas 的between 、cut、qcut 和 value_count离散化数值变量。

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化，他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中，我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。

我们创建以下合成数据用于演示

import pandas as pd # version 1.3.5 
import numpy as np 
def create_df(): 
 df = pd.DataFrame({'score': np.random.randint(0,101,1000)}) 
 return df 
 
create_df() 
df.head()

数据包括 1000 名学生的 0 到 100 分的考试分数。而这次的任务是将数字分数分为值“A”、“B”和“C”的等级，其中“A”是最好的等级，“C”是最差的等级。

1、between & loc

Pandas .between 方法返回一个包含 True 的布尔向量，用来对应的 Series 元素位于边界值 left 和 right 之间。

参数有下面三个：

left：左边界
right：右边界
inclusive：要包括哪个边界。可接受的值为 {“both”、“neither”、“left”、“right”}。

根据以下间隔规则将学生的分数分为等级：

A: (80, 100]
B: (50, 80]
C: [0, 50]

其中方括号 [ 和圆括号 ) 分别表示边界值是包含的和不包含的。我们需要确定哪个分数在感兴趣的区间之间，并为其分配相应的等级值。注意看下面的不同的参数表示是否包含边界

df.loc[df['score'].between(0, 50, 'both'), 'grade'] = 'C' 
df.loc[df['score'].between(50, 80, 'right'), 'grade'] = 'B' 
df.loc[df['score'].between(80, 100, 'right'), 'grade'] = 'A'

以下是每个分数区间的人数：

df.grade.value_counts()

C 488
B 310
A 202
Name: grade, dtype: int64

此方法需要为每个 bin 编写处理的代码，因此它仅适用于 bin 很少的情况。

2、cut

可以使用 cut将值分类为离散的间隔。此函数对于从连续变量到分类变量也很有用。

cut的参数如下：

x：要分箱的数组。必须是一维的。
bins：标量序列：定义允许非均匀宽度的 bin 边缘。
labels：指定返回的 bin 的标签。必须与上面的 bins 参数长度相同。
include_lowest: (bool) 第一个区间是否应该是左包含的。

bins = [0, 50, 80, 100] 
labels = ['C', 'B', 'A'] 
df['grade'] = pd.cut(x = df['score'], 
                      bins = bins, 
                      labels = labels, 
                      include_lowest = True)

这样就创建一个包含 bin 边界值的 bins 列表和一个包含相应 bin 标签的标签列表。

查看每个区段的人数

df.grade.value_counts()

C 488
B 310
A 202
Name: grade, dtype: int64

结果与上面示例相同。

3、qcut

qcut可以根据排名或基于样本分位数将变量离散为大小相等的桶[3]。

在前面的示例中，我们为每个级别定义了分数间隔，这回使每个级别的学生数量不均匀。在下面的示例中，我们将尝试将学生分类为 3 个具有相等（大约）数量的分数等级。示例中有 1000 名学生，因此每个分箱应该有大约 333 名学生。

qcut参数：

x：要分箱的输入数组。必须是一维的。
q：分位数。10 表示十分位数，4 表示四分位数等。也可以是交替排列的分位数，例如[0, .25, .5, .75, 1.] 四分位数。
labels：指定 bin 的标签。必须与生成的 bin 长度相同。
retbins: (bool) 是否返回 (bins, labels)。

df['grade'], cut_bin = pd.qcut(df['score'], 
                          q = 3, 
                          labels = ['C', 'B', 'A'], 
                          retbins = True) 
df.head()

print (cut_bin) 
>> [  0.  36.  68. 100.]

分数间隔如下：

C：[0, 36]
B：(36, 68]
A：(68, 100]

使用 .value_counts() 检查每个等级有多少学生。理想情况下，每个箱应该有大约 333 名学生。

df.grade.value_counts()

C 340
A 331
B 329
Name: grade, dtype: int64

4、value_counts

虽然 pandas .value_counts 通常用于计算系列中唯一值的数量，但它也可用于使用 bins 参数将值分组到半开箱中。

df['score'].value_counts(bins = 3, sort = False)

默认情况下， .value_counts 按值的降序对返回的系列进行排序。将 sort 设置为 False 以按其索引的升序对系列进行排序。

(-0.101, 33.333]    310
(33.333, 66.667]    340
(66.667, 100.0]     350
Name: score, dtype: int64

series 索引是指每个 bin 的区间范围，其中方括号 [ 和圆括号 ) 分别表示边界值是包含的和不包含的。返回series 的值表示每个 bin 中有多少条记录。

与 .qcut 不同，每个 bin 中的记录数不一定相同（大约）。.value_counts 不会将相同数量的记录分配到相同的类别中，而是根据最高和最低分数将分数范围分成 3 个相等的部分。分数的最小值为 0，最大值为 100，因此这 3 个部分中的每一个都大约在 33.33 范围内。这也解释了为什么 bin 的边界是 33.33 的倍数。

我们还可以通过传入边界列表来定义 bin 边界。

df['score'].value_counts(bins = [0,50,80,100], sort = False)

(-0.001, 50.0] 488
(50.0, 80.0] 310
(80.0, 100.0] 202
Name: score, dtype: int64

这给了我们与示例 1 和 2 相同的结果。

以上就是Pandas对数值进行分箱操作的4种方法总结的详细内容，更多关于Pandas数值分箱的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

pytorch中model.train()和model.eval()用法及说明
在PyTorch中,model.train()用于启用BatchNormalization和Dropout,保证模型在训练阶段能够有效地利用这些层的特性,而model.eval()则是用于测试阶段,确保BatchNormalization和Dropout不会影响测试结果,保持模型的稳定性
2024-09-09
Python标准库re的使用举例(正则化匹配)
正则表达式re是内置函数,通过一定的匹配规则获取指定的数据,下面这篇文章主要给大家介绍了关于Python标准库re的使用举例,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-10-10
python-docx文档格式修改方式
使用python-docx库修改docx文档格式的两种方法：第一种是通过自定义函数设置段落和字体样式，第二种是预设Word中的样式后通过代码替换文档整体样式。这两种方式各有优缺点，第一种方法更灵活，而第二种方法可以更全面地保留格式细节
2024-09-09
python实现在IDLE中输入多行的方法
下面小编就为大家分享一篇python实现在IDLE中输入多行的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
python 3利用BeautifulSoup抓取div标签的方法示例
这篇文章主要介绍了python 3利用BeautifulSoup抓取div标签的方法，文中给出了详细的示例代码供大家参考学习，对大家具有一定的参考学习价值，需要的朋友们下面来一起看看吧。
2017-05-05
浅析Python数据处理
本篇文章给大家分享了关于Python数据处理的相关内容以及要点解释，对此知识点有兴趣的朋友可以参考学习下。
2018-05-05
DataFrame中去除指定列为空的行方法
下面小编就为大家分享一篇DataFrame中去除指定列为空的行方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
Python 不设计 do-while 循环结构的理由
Python作为一种语言不支持do-while循环。但是，我们可以采用一种变通方法来模拟do-while循环。下面通过本文给大家分享下Python 不设计do-while 循环结构的理由,需要的朋友可以参考下
2022-01-01
python PyAutoGUI 模拟鼠标键盘操作和截屏功能
一款跨平台/无依赖的自动化测试工具，目测只能控制鼠标/键盘/获取屏幕尺寸/弹出消息框/截屏。这篇文章主要介绍了python PyAutoGUI 模拟鼠标键盘操作和截屏功能,需要的朋友可以参考下
2019-08-08
python中@符号实例详解
@是一个装饰器,针对函数,起调用传参的作用,下面这篇文章主要给大家介绍了关于python中@符号的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
2022-12-12