浅谈Python几种常见的归一化方法

 更新时间:2023年04月08日 09:08:09   作者:不想敲代码的小杨  
这篇文章主要介绍了几种常见的归一化方法,数据归一化是深度学习数据预处理中非常关键的步骤,可以起到统一量纲,防止小数据被吞噬的作用,需要的朋友可以参考下

数据归一化是深度学习数据预处理中非常关键的步骤,可以起到统一量纲,防止小数据被吞噬的作用。

一:归一化的概念

归一化就是把所有数据都转化成[0,1]或者[-1,1]之间的数,其目的是为了取消各维数据之间的数量级差别,避免因为输入输出数据数量级差别大而造成网络预测误差过大。

二:归一化的作用

  1. 为了后面数据处理的方便,归一化可以避免一些不必要的数值问题。
  2. 为了程序运行时收敛速度更快
  3. 统一量纲。样本数据的评价标准不一样,需要对其量纲化,统一评价标准,这算是应用层面的需求。
  4. 避免神经元饱和。就是说当神经元的激活在接近0或者1时,在这些区域,梯度几乎为0,这样在反向传播过程中,局部梯度就会接近于0,这样非常不利于网络的训练。
  5. 保证输出数据中数值小的不被吞食。

三:归一化的类型

1:线性归一化

线性归一化也被称为最小-最大规范化;离散标准化,是对原始数据的线性变换,将数据值映射到[0,1]之间。用公式表示为:

{x}'=\frac{x-min(x)}{max(x)-min(x)}

差标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单的方法。代码实现如下:

def MaxMinNormalization(x,Max,Min):
    x = (x - Min) / (Max - Min);
    return x

适用范围:比较适用在数值比较集中的情况

缺点:

  1. 如果max和min不稳定,很容易使得归一化的结果不稳定,使得后续使用效果也不稳定。如果遇到超过目前属性[min,max]取值范围的时候,会引起系统报错。需要重新确定min和max。
  2. 如果数值集中的某个数值很大,则规范化后各值接近于0,并且将会相差不大。(如 1,1.2,1.3,1.4,1.5,1.6,10)这组数据。

2:零-均值归一化(Z-score标准化)

Z-score标准化也被称为标准差标准化,经过处理的数据的均值为0,标准差为1。其转化公式为:

{x}'=\frac{x-\mu }{\delta }

其中\mu为原始数据的均值,\delta为原始数据的标准差,是当前用的最多的标准化公式

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,这里的关键在于复合标准正态分布

代码实现如下:

def Z_ScoreNormalization(x,mu,sigma):
    x = (x - mu) / sigma;
    return x

3:小数定标规范化

这种方法通过移动属性值的小数数位,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。转换公式为:

{x}'=\frac{x}{10^{k}}

4:非线性归一化 

这个方法包括log,指数,正切

适用范围:经常用在数据分析比较大的场景,有些数值很大,有些很小,将原始值进行映射。

四:批归一化(BatchNormalization)

1:引入

在以往的神经网络训练时,仅仅只对输入层数据进行归一化处理,却没有在中间层进行归一化处理。虽然我们对输入数据进行了归一化处理,但是输入数据经过了\delta这样的矩阵乘法之后,其数据分布很可能发生很大改变,并且随着网络的层数不断加深。数据分布的变化将越来越大。因此这种在神经网络中间层进行的归一化处理,使得训练效果更好的方法就被称为批归一化(BN)

2:BN算法的优点

  1. 减少了人为选择参数
  2. 减少了对学习率的要求,我们可以使用初始状态下很大的学习率或者当使用较小的学习率时,算法也能够快速训练收敛。
  3. 破换了原来的数据分布,一定程度上缓解了过拟合(防止每批训练中某一个样本经常被挑选到)
  4. 减少梯度消失,加快收敛速度,提高训练精度。

3:批归一化(BN)算法流程

输入:上一层输出结果X={x1,x2,.....xm},学习参数\gamma\beta

算法流程:

1)计算上一层输出数据的均值:

\mu _{\beta }=\frac{1}{m}\sum_{i=1}^{m}x_{i}

其中,m是此次训练样本batch的大小。

2)计算上一层输出数据的标准差:

\delta _{\beta }^{2}=\frac{1}{m}\sum_{i=1}^{m}(x_{i}-\mu _{\beta })^{2}

3)归一化处理得到

\widehat{x_{i}}=\frac{x_{i}+\mu _{\beta }}{\sqrt{\delta _{\beta }^{2}}+\varepsilon }

公式中的\varepsilon是为了避免分母为0而加进去接近于0的很小的值。

4)重构,对经过上面归一化处理得到的数据进行重构,得到:

y_{i}=\gamma \widehat{x_{i}}+\beta

其中\gamma\beta为可学习的参数。

到此这篇关于浅谈一下几种常见的归一化方法的文章就介绍到这了,更多相关常见的归一化方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 中的异步 for 循环示例详解

    Python 中的异步 for 循环示例详解

    这篇文章主要介绍了Python中的异步for循环,我们将讨论 Python 库 asyncio 和运行异步代码所需的函数,需要的朋友可以参考下
    2023-05-05
  • CentOS安装OpenSSL1.1.1全过程

    CentOS安装OpenSSL1.1.1全过程

    文章介绍了从头开始编译安装Python3.10的步骤,包括检查和安装必要的依赖项、下载并解压源码、配置和编译环境、创建软连接以及配置环境变量,最后验证安装是否成功
    2025-03-03
  • python文件绝对路径写法介绍(windows)

    python文件绝对路径写法介绍(windows)

    今天小编就为大家分享一篇python文件绝对路径写法介绍(windows),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python制作个性化的词云图实例讲解

    Python制作个性化的词云图实例讲解

    大家好,本篇文章主要讲的是Python制作个性化的词云图实例讲解,感兴趣的同学赶紧来看一看吧,对你有帮助的话记得收藏一下
    2022-02-02
  • python中reload(module)的用法示例详解

    python中reload(module)的用法示例详解

    与from和import相比,reload是内置函数,而不是语句,下面这篇文章主要给大家介绍了关于python中reload(module)用法的相关资料,文中给出了详细的示例代码供大家参考学习,需要的朋友们下面来一起看看吧。
    2017-09-09
  • 使用Python实现文本情感分析预处理的详细教程

    使用Python实现文本情感分析预处理的详细教程

    在自然语言处理(NLP)领域,文本情感分析是一项重要任务,它旨在通过计算机技术识别和提取文本中的情感倾向(如正面、负面或中性),为了实现准确的情感分析,预处理步骤至关重要,所以本文给大家介绍了使用Python实现文本情感分析预处理的详细教程,需要的朋友可以参考下
    2025-04-04
  • python pandas最常用透视表实现应用案例

    python pandas最常用透视表实现应用案例

    透视表是一种可以对数据动态排布并且分类汇总的表格格式,它在数据分析中有着重要的作用和地位,在本文中,我将为你介绍python中如何使用pandas包实现透视表的功能,以及一些常见的应用案例
    2024-01-01
  • Python中pip安装非PyPI官网第三方库的方法

    Python中pip安装非PyPI官网第三方库的方法

    这篇文章主要介绍了Python中pip安装非PyPI官网第三方库的方法,pip最新的版本(1.5以上的版本), 出于安全的考 虑,pip不允许安装非PyPI的URL,本文就给出两种解决方法,需要的朋友可以参考下
    2015-06-06
  • python发送邮件接收邮件示例分享

    python发送邮件接收邮件示例分享

    这篇文章主要介绍了python发送邮件接收邮件示例,大家参考使用吧
    2014-01-01
  • django 多对多表的创建和插入代码实现

    django 多对多表的创建和插入代码实现

    这篇文章主要介绍了django-多对多表的创建和插入代码实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09

最新评论