python三种数据标准化方式

 更新时间:2024年07月19日 11:13:18   作者:DB_UP  
这篇文章主要介绍了python三种数据标准化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

python三种数据标准化

数据变换是数据准备的重要环节,它通过数据平滑数据聚集数据概化规范化 等方式将数据转换成适用于数据挖掘的形式。

常见的变换方法:

  • 1.数据平滑:去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
  • 2.数据聚集:对数据进行汇总,在SQL中有一些聚集函数可以供我们操作(比如Max)反馈某个字段的数值最大值,Sum返回某个字段的数值总和;
  • 3.数据概化:将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
  • 4.数据规范化:使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等;
  • 5.属性构造:构造出新的属性并添加到属性集中。这里会用到特征工程的知识,因为通过属性与属性的连接构造新的属性,其实就是特征工程。比如说,数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和“这个属性,来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。

在这些变换方法中,最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。

1、Min-max 归一化

Min-max规范化方法是将原始数据变换到[0,1]的空间中。

用公式表示就是:

新数值=(原数值-极小值)/(极大值-极小值)。

2、Z-Score标准化

我们定义:

新数值=(原数值一均值)/标准差。

3、小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。

小数点移动多少位取决于属性A的取值中的最大绝对值。

举个例子:

  • 比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。
  • 那么A的取值范围就被规范化为-0.999到0.088。

Python的SciKit-Learn库使用

  • Min-max 规范化
from sklearn import preprocessing 
import numpy as np
#初始化数据,每一行表示一个样本,每一列表示一个特征
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#将数据进行[0,1]规范化
min_max_scaler=preprocessing.MinMaxScaler()
minmax_x=min_max_scaler.fit_transform(x)
print (minmax_x)
  • Z-Score规范化
from sklearn import preprocessing 
import numpy as np
#初始化数据
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#将数据进行Z-Score规范化
scaled_x=preprocessing.scale(x)
print (scaled_x)
  • 小数定标规范化
from sklearn import preprocessing 
import numpy as np
#初始化数据
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#小数定标规范化
j=np.ceil(np.log10(np.max(abs(x)))
scaled_x=X/(10**j)
print (scaled_x)

4、归一化和标准化的区别和联系

区别:

  • 归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内,仅由变量的极值决定,因此区间放缩法是归一化的一种。
  • 标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。
  • 归一化会改变数据的原始距离,分布,信息;
  • 标准化一般不会。

联系:

  • 它们的相同点在于都能取消由于量纲不同引起的误差;
  • 都是一种线性变换,都是对向量X按照比例压缩再进行平移。

5、使用情形:

什么时候用归一化?什么时候用标准化?

(1)如果对输出结果范围有要求,用归一化。

(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。

(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

6、哪些模型必须归一化/标准化?

  • ①SVM
  • ②KNN
  • ③神经网络
  • ④PCA等

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 详解python的sorted函数对字典按key排序和按value排序

    详解python的sorted函数对字典按key排序和按value排序

    这篇文章主要介绍了详解python的sorted函数对字典按key排序和按value排序,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-08-08
  • python教程命名元组示例分析

    python教程命名元组示例分析

    这篇文章是python教程篇,主要为大家介绍了Python中命名元组的示例分析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-09-09
  • Python图像的增强处理操作示例【基于ImageEnhance类】

    Python图像的增强处理操作示例【基于ImageEnhance类】

    这篇文章主要介绍了Python图像的增强处理操作,结合实例形式分析了使用ImageEnhance类处理图片的亮度、对比度、色度以及锐度等相关操作技巧,需要的朋友可以参考下
    2019-01-01
  • Python 利用OpenCV给照片换底色的示例代码

    Python 利用OpenCV给照片换底色的示例代码

    这篇文章主要介绍了Python 利用OpenCV给照片换底色,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-08-08
  • 10 行 Python 代码教你自动发送短信(不想回复工作邮件妙招)

    10 行 Python 代码教你自动发送短信(不想回复工作邮件妙招)

    这篇文章主要介绍了10 行 Python 代码教你自动发送短信(不想回复工作邮件妙招),目前在国内通过手机短信保障信息安全是比较常见的,具体实例代码大家跟随小编一起通过本文学习吧
    2018-10-10
  • Windows8下安装Python的BeautifulSoup

    Windows8下安装Python的BeautifulSoup

    这篇文章主要介绍了Windows8下安装Python的BeautifulSoup,本文着重讲解安装中出现的错误和解决方法,需要的朋友可以参考下
    2015-01-01
  • Python使用Bokeh实现交互式图表的创建

    Python使用Bokeh实现交互式图表的创建

    Bokeh 是一个流行的 Python 数据可视化库,可以生成高质量的交互式图表,这篇文章主要就介绍了Python如何使用Bokeh实现交互式图表的创建,需要的可以参考一下
    2023-06-06
  • Python利用Turtle绘制哆啦A梦和小猪佩奇

    Python利用Turtle绘制哆啦A梦和小猪佩奇

    turtle库是python的基础绘图库,经常被用来介绍编程知识的方法库,是标准库之一,利用turtle可以制作很多复杂的绘图。本文将为大家介绍通过turtle库绘制制哆啦A梦和小猪佩奇,感兴趣的小伙伴可以学习一下
    2022-04-04
  • python如何调用字典的key

    python如何调用字典的key

    在本篇文章里小编给大家分享的是关于python调用字典的key方法实例,有兴趣点朋友们可以参考学习下。
    2020-05-05
  • Python机器学习特征重要性分析的8个常用方法实例探究

    Python机器学习特征重要性分析的8个常用方法实例探究

    本文详细介绍8种常用的方法,涵盖了基于决策树、集成学习模型以及统计学方法的特征重要性分析,从决策树模型到SHAP值,深入探讨每种方法的原理和示例,帮助全面了解如何评估特征的重要性,将能更好地理解特征对模型预测的贡献,为提升模型性能和解释模型决策提供有力支持
    2024-01-01

最新评论