python三种数据标准化方式

更新时间：2024年07月19日 11:13:18 作者：DB_UP

这篇文章主要介绍了python三种数据标准化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

python三种数据标准化

数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化 等方式将数据转换成适用于数据挖掘的形式。

常见的变换方法：

1.数据平滑：去除数据中的噪声，将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
2.数据聚集：对数据进行汇总，在SQL中有一些聚集函数可以供我们操作（比如Max）反馈某个字段的数值最大值，Sum返回某个字段的数值总和；
3.数据概化：将数据由较低的概念抽象成为较高的概念，减少数据复杂度，即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4.数据规范化：使属性数据按比例缩放，这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小一最大规范化、Z-score规范化、按小数定标规范化等；
5.属性构造：构造出新的属性并添加到属性集中。这里会用到特征工程的知识，因为通过属性与属性的连接构造新的属性，其实就是特征工程。比如说，数据表中统计每个人的英语、语文和数学成绩，你可以构造一个“总和“这个属性，来作为新属性。这样“总和这个属性就可以用到后续的数据挖掘计算中。

在这些变换方法中，最简单易用的就是对数据进行规范化处理。下面我来给你讲下如何对数据进行规范化处理。

1、Min-max 归一化

Min-max规范化方法是将原始数据变换到[0，1]的空间中。

用公式表示就是：

新数值=（原数值-极小值）/（极大值-极小值）。

2、Z-Score标准化

我们定义：

新数值=（原数值一均值）/标准差。

3、小数定标规范化

小数定标规范化就是通过移动小数点的位置来进行规范化。

小数点移动多少位取决于属性A的取值中的最大绝对值。

举个例子：

比如属性A的取值范围是-999到88，那么最大绝对值为999，小数点就会移动3位，即新数值=原数值/1000。
那么A的取值范围就被规范化为-0.999到0.088。

Python的SciKit-Learn库使用

Min-max 规范化

from sklearn import preprocessing 
import numpy as np
#初始化数据，每一行表示一个样本，每一列表示一个特征
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#将数据进行[0，1]规范化
min_max_scaler=preprocessing.MinMaxScaler()
minmax_x=min_max_scaler.fit_transform（x）
print (minmax_x)

Z-Score规范化

from sklearn import preprocessing 
import numpy as np
#初始化数据
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#将数据进行Z-Score规范化
scaled_x=preprocessing.scale(x)
print (scaled_x)

小数定标规范化

from sklearn import preprocessing 
import numpy as np
#初始化数据
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1.]])
#小数定标规范化
j=np.ceil(np.log10(np.max(abs(x)))
scaled_x=X/(10**j)
print (scaled_x)

4、归一化和标准化的区别和联系

区别：

归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[a,b]区间内，仅由变量的极值决定，因此区间放缩法是归一化的一种。
标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，转换为标准正态分布，和整体样本分布相关，每个样本点都能对标准化产生影响。
归一化会改变数据的原始距离，分布，信息；
标准化一般不会。

联系：

它们的相同点在于都能取消由于量纲不同引起的误差；
都是一种线性变换，都是对向量X按照比例压缩再进行平移。

5、使用情形：

什么时候用归一化？什么时候用标准化？

（1）如果对输出结果范围有要求，用归一化。

（2）如果数据较为稳定，不存在极端的最大最小值，用归一化。

（3）如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。

6、哪些模型必须归一化/标准化？

①SVM
②KNN
③神经网络
④PCA等

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python绘制指数分布的概率密度函数图
在数据科学和统计学中,指数分布是一种应用广泛的连续概率分布,通常用于建模独立随机事件发生的时间间隔,本文将展示如何在Python中绘制指数分布的概率密度函数图,需要的可以了解下
2024-12-12
pytorch 图像预处理之减去均值,除以方差的实例
今天小编就为大家分享一篇pytorch 图像预处理之减去均值,除以方差的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-01-01
Python绘图之在父组件中使用子组件的函数详解
这篇文章主要为大家详细介绍了Python在项目开发时,如何实现在父组件中使用子组件的函数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起了解一下
2023-08-08
Python数据结构之栈详解
栈和队列是在程序设计中常见的数据类型，从数据结构的角度来讲，栈和队列也是线性表，是操作受限的线性表。本文将详细介绍一下Python中的栈，感兴趣的可以了解一下
2022-03-03
python中匿名函数的应用方法
这篇文章主要介绍了python中匿名函数的应用方法,匿名函数是无需使用def定义的函数，只需使用关键字lambda进行声明，且只可使用一次，只有一个返回值,需要的朋友可以参考下
2023-07-07
Python实现将txt里面多行json字符串转成excel文件
这篇文章主要为大家详细介绍了Python实现将txt里面多行json字符串转成excel文件的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下
2025-12-12
浅谈Python中的可迭代对象、迭代器、For循环工作机制、生成器
这篇文章主要介绍了Python中的可迭代对象、迭代器、For循环工作机制、生成器，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-03-03
对python PLT中的image和skimage处理图片方法详解
今天小编就为大家分享一篇对python PLT中的image和skimage处理图片方法详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
用python给自己做一款小说阅读器过程详解
这篇文章主要介绍了用python给自己做一款小说阅读器过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
Python使用Tkinter制作一个进制转换工具
在平时工作学习当中,我们经常会编写一些简单的 Python GUI 工具,以此来完成各种各样的自动化任务,下面我们就来看看如何使用Python制作一个进制转换工具吧
2024-01-01