python数据分析数据标准化及离散化详解

 更新时间:2018年02月26日 16:19:59   作者:诺坎普奇迹  
这篇文章主要为大家详细介绍了python数据分析数据标准化及离散化,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

本文为大家分享了python数据分析数据标准化及离散化的具体内容,供大家参考,具体内容如下

标准化

1、离差标准化

是对原始数据的线性变换,使结果映射到[0,1]区间。方便数据的处理。消除单位影响及变异大小因素影响。
基本公式为:

x'=(x-min)/(max-min)

代码:

#!/user/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#链接本地数据库
sql = 'select price,comment from taob'#sql语句
data = pd.read_sql(sql,conn)#获取数据
#离差标准化
data1 = (data-data.min())/(data.max()-data.min())
print(data1)

运行结果

2、标准差标准化

消除单位影响以及变量自身变异影响。(零-均值标准化)
基本公式为:

x'=(x-平均数)/标准差

python代码:

#!/user/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#链接本地数据库
sql = 'select price,comment from taob'#sql语句
data = pd.read_sql(sql,conn)#获取数据
#标准差标准化
data1 = (data-data.mean())/data.std()
print(data1)

运行结果:

3、小数定标标准化

消除单位影响
基本公式为:
其中j=lg(max(|x|)),即以10为底的x的绝对值最大的对数

x' = x/10^j

实现代码为:

#!/user/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#链接本地数据库
sql = 'select price,comment from taob'#sql语句
data = pd.read_sql(sql,conn)#获取数据
#标准差标准化
j = np.ceil(np.log10(data.abs().max()))#进一取整,abs()为取绝对值
data1 = data/10**j
print(data1)


结果:

离散化

离散化是程序设计中一个常用的技巧,它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中,只考虑需要用的值。离散化可以改进一个低效的算法,甚至实现根本不可能实现的算法

1、等宽离散化

将连续数据按照等宽区间标准离散化数据,好处之一是处理的数据是有限个数据而不是无限多。
使用pandas的cut方法。非等宽只需要更改cut的第二个参数,例如:第二个参数为[1,100,3000,10000,200000],即划分为了四个区间。

#!/user/bin/env python
#-*- coding:utf-8 -*-
#author:M10
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import mysql.connector
conn = mysql.connector.connect(host='localhost',
            user='root',
            passwd='123456',
            db='python')#链接本地数据库
sql = 'select price,comment from taob'#sql语句
data = pd.read_sql(sql,conn)#获取数据
#离散化
data1 = data['price'].T.values#获取价格的一维数组
lable=['很低','低','中','高','很高']
data2 = pd.cut(data1,5,labels=lable)
print(data2)


执行结果:

2、等频率离散化

将相同数量的数据放进一个区间。

3、一维聚类离散化

按属性对数据进行聚类离散。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python Web程序搭建简单的Web服务器

    Python Web程序搭建简单的Web服务器

    这篇文章主要介绍了Python Web程序搭建简单的Web服务器,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • PySide2出现“ImportError: DLL load failed: 找不到指定的模块”的问题及解决方法

    PySide2出现“ImportError: DLL load failed: 找不到指定的模块”的问题及解决方法

    这篇文章主要介绍了PySide2出现“ImportError: DLL load failed: 找不到指定的模块”的问题及解决方法,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下
    2020-06-06
  • Python骚操作完美实现短视频伪原创

    Python骚操作完美实现短视频伪原创

    剪辑的视频上传到某平台碰到降权怎么办?视频平台都有一套自己的鉴别算法,专门用于处理视频的二次剪辑,本篇我们来用python做一些特殊处理
    2022-02-02
  • python如何导入自己的模块

    python如何导入自己的模块

    这篇文章主要介绍了python如何导入自己的模块,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-02-02
  • python如何将多个映射合并为一个映射

    python如何将多个映射合并为一个映射

    ChainMap类是Python中collections模块的一部分,用于将多个字典合并为一个映射,而不会在物理上合并字典,这使得字典中相同的键可以共存,输出结果取决于键的检索顺序,ChainMap通过维护一个底层映射的列表,重定义字典操作来实现这一功能
    2024-09-09
  • 一文详细介绍PyQt5 QPushButton() 的作用

    一文详细介绍PyQt5 QPushButton() 的作用

    通过本文的介绍,相信你已经对PyQt5中的QPushButton控件有了深入的了解,从基础介绍到常用属性和方法,再到应用场景和样式定制,本文为你提供了全面的指南,感兴趣的朋友跟随小编一起看看吧
    2024-08-08
  • Python导出并分析聊天记录详解流程

    Python导出并分析聊天记录详解流程

    这篇文章主要介绍了Python将QQ聊天记录生成词云的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-02-02
  • Python实现随机选择元素功能

    Python实现随机选择元素功能

    这篇文章主要为大家详细介绍了Python实现随机选择元素功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-09-09
  • 详解Python高阶函数

    详解Python高阶函数

    这篇文章主要介绍了Python高阶函数的相关资料,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-08-08
  • 通过python模糊匹配算法对两个excel表格内容归类

    通过python模糊匹配算法对两个excel表格内容归类

    这篇文章主要介绍了通过python模糊匹配算法对两个excel表格内容归类,比如两个不同的工程项目针对的对象都是A,那么就需要将这两个工程项目归类到A当中,可以减少很大一部分工作量,,需要的朋友可以参考下
    2023-03-03

最新评论