python sklearn数据预处理之数据缩放详解

 更新时间:2023年10月07日 11:49:22   作者:databook  
数据的预处理是数据分析,或者机器学习训练前的重要步骤,这篇文章主要为大家详细介绍了sklearn数据预处理中数据缩放的相关知识,感兴趣的小伙伴可以学习一下

数据的预处理是数据分析,或者机器学习训练前的重要步骤。

通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的数据缩放处理,主要目的是消除数据的不同特征之间的量纲差异,使得每个特征的数值范围相同。这样可以避免某些特征对模型的影响过大,从而提高模型的性能。

1. 原理

数据缩放有多种方式,其中有一种按照最小值-最大值缩放的算法是最常用的。
其主要步骤如下:

  • 计算数据列的最小值(min)和最大值(max
  • 对数据列中的每个值进行最小-最大缩放,即将其转换为 **[0,1]区间 **之内的一个值

缩放公式为:new_data=(data−min​)/(max−min)

实现缩放的代码如下:

# 数据缩放的实现原理
data = np.array([10, 20, 30, 40, 50])
min = np.min(data)
max = np.max(data)
data_new = (data - min) / (max-min)
print("处理前: {}".format(data))
print("处理后: {}".format(data_new))
# 运行结果
处理前: [10 20 30 40 50]
处理后: [0.   0.25 0.5  0.75 1.  ]

数值被缩放到 **[0,1]区间 **之内。

这个示例只是为了演示缩放的过程,实际场景中最好使用scikit-learn库中的函数。

scikit-learn中的minmax_scale函数是封装好的数据缩放函数。

from sklearn import preprocessing as pp
data = np.array([10, 20, 30, 40, 50])
pp.minmax_scale(data, feature_range=(0, 1))
# 运行结果
array([0.  , 0.25, 0.5 , 0.75, 1.  ])

使用scikit-learn中的minmax_scale函数得到的结果是一样的,数据也被压缩到 **[0,1]区间 **之内。

所以 数据缩放 的这个操作有时也被称为归一化

不过,数据缩放不一定非得把数据压缩到 **[0,1]区间 **之内,

通过调整feature_range参数,可以把数据压缩到任意的区间。

# 压缩到[0, 1]
print(pp.minmax_scale(data, feature_range=(0, 1)))
# 压缩到[-1, 1]
print(pp.minmax_scale(data, feature_range=(-1, 1)))
# 压缩到[0, 5]
print(pp.minmax_scale(data, feature_range=(0, 5)))
# 运行结果
[0.   0.25 0.5  0.75 1.  ]
[-1.  -0.5  0.   0.5  1. ]
[0.   1.25 2.5  3.75 5.  ]

2. 作用

数据缩放的作用主要有:

2.1. 统一数据尺度

通过缩放处理,将不同量纲、不同尺度、不同单位的数据转换成一个统一的尺度,

避免由于数据量纲不一致而导致的数据分析结果失真或误导。

2.2. 增强数据可比性

通过缩放处理,将不同量纲、不同尺度、不同单位的数据转换成一个统一的尺度,使得不同数据之间的比较更加方便和有意义。

例如,在评价多个样本的性能时,如果采用不同的量纲、不同尺度、不同单位进行比较,会导致比较结果不准确甚至误导。

通过统一的缩放处理之后,可以消除这种影响,使得比较结果更加准确可信。

2.3. 增强数据稳定性

通过缩放处理,将数据的数值范围调整到一个相对较小的区间内,

增加数据的稳定性,避免由于数据分布范围过大或过小而导致的分析误差或计算误差。

2.4. 提高算法效率和精度

通过缩放处理,使得一些计算算法的效率和精度得到提高。

例如,在神经网络算法中,如果输入数据的尺度过大或过小,会导致算法训练时间过长或过短,同时也会影响算法的精度和稳定性。

而缩放处理之后,就可以使算法的训练时间和精度得到优化。

3. 总结

scikit-learn库中,处理数据缩放不是只有上面的最小值-最大值缩放

还可用StandardScaler进行标准化缩放;用RobustScaler实现尺度缩放和平移等等。

进行数据缩放时,需要注意一点,就是缩放处理对异常值非常敏感,

如果数据中存在极大或者极小的异常值时,有可能会破坏原始数据本身。

所以,缩放处理前,最好把异常值过滤掉。

到此这篇关于python sklearn数据预处理之数据缩放详解的文章就介绍到这了,更多相关sklearn数据预处理内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • wxPython窗口的继承机制实例分析

    wxPython窗口的继承机制实例分析

    这篇文章主要介绍了wxPython窗口的继承机制,较为详细的讲述了wxPython窗口的继承机制及相关用法,并对其中的易错点进行了简单的分析,需要的朋友可以参考下
    2014-09-09
  • python机器学习基础K近邻算法详解KNN

    python机器学习基础K近邻算法详解KNN

    这篇文章主要为大家介绍了python机器学习基础K近邻算法详解有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2021-11-11
  • Python正则表达式匹配日期与时间的方法

    Python正则表达式匹配日期与时间的方法

    这篇文章主要介绍了Python正则表达式匹配日期与时间的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-07-07
  • 通过Python的filestools库给图片添加全图水印的示例详解

    通过Python的filestools库给图片添加全图水印的示例详解

    这篇文章主要介绍了通过Python的filestools库给图片添加全图水印,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-04-04
  • python ddt实现数据驱动

    python ddt实现数据驱动

    这篇文章主要为大家详细介绍了python ddt实现数据驱动,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • python实现杨氏矩阵查找

    python实现杨氏矩阵查找

    这篇文章主要为大家详细介绍了Python实现杨氏矩阵查找,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-03-03
  • 关于Python函数对象的名称空间和作用域

    关于Python函数对象的名称空间和作用域

    这篇文章主要介绍了关于Python函数对象的名称空间和作用域,数据的名称是储存到栈区,而数据的内容是储存到堆区,当我们要去使用数据的内容时,我们可以通过数据的名称来直接去表示数据的内容,需要的朋友可以参考下
    2023-04-04
  • python 对象真假值的实例(哪些视为False)

    python 对象真假值的实例(哪些视为False)

    这篇文章主要介绍了python 对象真假值的实例(哪些视为False),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-12-12
  • CentOS 7下Python 2.7升级至Python3.6.1的实战教程

    CentOS 7下Python 2.7升级至Python3.6.1的实战教程

    Centos是目前最为流行的Linux服务器系统,其默认的Python 2.x,这篇文章主要给大家分享了关于在CentOS 7下Python 2.7升级至Python3.6.1的实战教程,文中将升级的步骤一步步的介绍的非常详细,对大家的理解和学习具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-07-07
  • Django中的CACHE_BACKEND参数和站点级Cache设置

    Django中的CACHE_BACKEND参数和站点级Cache设置

    这篇文章主要介绍了Django中的CACHE_BACKEND参数和站点级Cache设置,Python是最具人气的Python web框架,需要的朋友可以参考下
    2015-07-07

最新评论