使用pandas模块实现数据的标准化操作

更新时间：2021年05月14日 11:29:30 作者：也许会_hui

这篇文章主要介绍了使用pandas模块实现数据的标准化操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

如下所示：

3σ 原则	(u-3σ ,u+3σ )
离差标准化	(x-min)/(max-min)
标准差标准化	(x-u)/σ
小数定标标准化	x/10**k k=np.ceil(log10(max(\|x\|)))

1.3σ原则

u 均值

σ 标准差

正太分布的数据基本都分布在（u-3σ,u+3σ）范围内

其他的数据

import pandas as pd
import numpy as np
def three_sigma(se):
    """
    自实现3σ原则，进行数据过滤
    :param se:传进来的series结构数据
    :return:去除异常值之后的series数据
    """
    bool_id=((se.mean()-3*se.std())<se) & (se<(se.mean()+3*se.std()))
    print(bool_id)
    return se[bool_id]
 
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
#进行异常值处理
res=three_sigma(detail['amounts'])
print(detail.shape)
print(res.shape)

2.离差标准化

(x-min)/(max-min)

import pandas as pd
import numpy as np
 
def minmax_sca(data):
    """
    离差标准化
    param data:传入的数据
    return:标准化之后的数据
    """
    new_data=(data-data.min())/(data.max()-data.min())
    return new_data
 
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
res=minmax_sca(detail[['amounts','counts']])
print(res)
data=res
bool_id=data.loc[:,'count']==1
print(data.loc[bool_id],'counts')

3.标准差标准化

(x-u)/σ

异常值对标准差标准化的影响不大

转化之后的数据--->均值0 标准差1

import pandas as pd
import numpy as np
def stand_sca(data):
    """
    标准差标准化
    :param data:传入的数据
    :return:标准化之后的数据
    """
    new_data=(data-data.mean())/data.std()
    return new_data
 
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
res=stand_sca(detail[['amounts','counts']])
print(res)
print('res的均值：',res.mean())
print('res的标准差：',res.std())

4.小数定标标准化

x/(10^k)
k=math.ceil(log10(max(|x|)))

以10为底，x的绝对值的最大值的对数最后进行向上取整

import pandas as pd
import numpy as np
def deci_sca(data):
    """
    自实现小数定标标准化
    :param data: 传入的数据
    :return: 标准化之后的数据
    """
    new_data=data/(10**(np.ceil(np.log10(data.abs().max()))))
    return new_data
#加载数据
detail = pd.read_excel('./meal_order_detail.xlsx')
res = deci_sca(detail[['amounts', 'counts']])
print(res)

补充：pandas数据处理基础之标准化与标签数值化

fit(): Method calculates the parameters μ and σ and saves them as internal objects.

解释：简单来说，就是求得训练集X的均值，方差，最大值，最小值,这些训练集X固有的属性。

transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解释：在fit的基础上，进行标准化，降维，归一化等操作（看具体用的是哪个工具，如PCA，StandardScaler等）。

fit_transform(): joins the fit() and transform() method for transformation of dataset.

解释：fit_transform是fit和transform的组合，既包括了训练又包含了转换。 transform()和fit_transform()二者的功能都是对数据进行某种统一处理（比如标准化~N(0,1)，将数据缩放(映射)到某个固定区间，归一化，正则化等）

fit_transform(trainData)对部分数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该trainData进行转换transform，从而实现数据的标准化、归一化等等。

Note:

必须先用fit_transform(trainData)，之后再transform(testData)

如果直接transform(testData)，程序会报错

如果fit_transfrom(trainData)后，使用fit_transform(testData)而不transform(testData)，虽然也能归一化，但是两个结果不是在同一个“标准”下的，具有明显差异。(一定要避免这种情况)

注意：StandardScaler().fit_transform(x，fit_params),fit_params决定标准化的标签数据，就是每个标准化的标杆数据，此参数不同，则每次标准化的过程则不同。

from sklearn import preprocessing
# 获取数据
cols = ['OverallQual','GrLivArea', 'GarageCars','TotalBsmtSF', 'FullBath', 'TotRmsAbvGrd', 'YearBuilt'] ##选取列
x = data_train[cols].values
y = data_train['SalePrice'].values  
x_scaled = preprocessing.StandardScaler().fit_transform(x) ##进行归一化
y_scaled = preprocessing.StandardScaler().fit_transform(y.reshape(-1,1))##先将y转换成一列，再进行归一

还有以下形式，和上面的标准化原理一致，都是先fit，再transform。

由ss决定标准化进程的独特性

# 先将数据标准化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler() ##
#用测试集训练并标准化
ss.fit(missing_age_X_train)##首先fit
missing_age_X_train = ss.transform(missing_age_X_train) #进行transform
missing_age_X_test = ss.transform(missing_age_X_test)

标签数值化

1.当某列数据不是数值型数据时，将难以标准化，此时要将数据转化成数据型形式。

数据处理前数据显示：

经过标签化数据处理

from sklearn import preprocessing
f_names = ['CentralAir', 'Neighborhood'] ##需要处理的数据标签 
for x in f_names:
    label = preprocessing.LabelEncoder()
    data_train[x] = label.fit_transform(data_train[x]) ##数据标准化

处理之后变成：

2.当某列有对应的标签值时，即某个量对应相应确定的标签时，例如oldtown就对应1，sawyer就对应2，分类的str转换为序列类这时使用如下：

数据处理之前

利用转换:

title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}#将标签对应数值
train_df['Title'] = train_df['Title'].map(title_mapping)#处理数据
train_df['Title'] = train_df['Title'].fillna(0)##将其余标签填充为0值

处理过后：

3.多个数据标签需要分列采用one_hot形式时，处理之前

处理之后

train_test.loc[train_test["Age"].isnull() ,"age_nan"] = 1 ##将标签转换成1
train_test.loc[train_test["Age"].notnull() ,"age_nan"] = 0##将此标签成为0
train_test = pd.get_dummies(train_test,columns=['age_nan']) ##columns决定哪几行分列处理，prefix参数是每列前缀

one_hot 形式转变成功。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python代理IP爬虫的新手使用教程
这篇文章主要给大家介绍了关于Python代理IP爬虫的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Python具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-09-09
Python pickle模块实现对象序列化
这篇文章主要介绍了Python pickle模块实现对象序列化,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
Python实现动态加载模块、类、函数的方法分析
这篇文章主要介绍了Python实现动态加载模块、类、函数的方法,结合实例形式分析了Python动态加载模块、类及函数的实现方法及操作技巧,需要的朋友可以参考下
2017-07-07
Python管理Windows服务小脚本
这篇文章主要为大家详细介绍了Python管理Windows服务的小脚本，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-03-03
Python实现基于SVM的分类器的方法
这篇文章主要介绍了Python实现基于SVM的分类器的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-07-07
简单了解python变量的作用域
这篇文章主要介绍了简单了解python变量的作用域,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
django批量导入xml数据
从网上下载的一些数据，excel表格，xml文件，txt文件等有时候我们想把它导入数据库，应该如何操作呢？下面我们就来详细讨论下。
2016-10-10
Python cookbook（数据结构与算法）让字典保持有序的方法
这篇文章主要介绍了Python让字典保持有序的方法,涉及Python基于collections模块中的OrderedDict类实现控制字典顺序的相关操作技巧,需要的朋友可以参考下
2018-02-02
python中 ? : 三元表达式的使用介绍
刚刚学python的时候，时常纠结于python中没有C语言中？：的实现，今天终于发现了两种python的实现方式
2013-10-10
解决python 文本过滤和清理问题
文本过滤和清理所涵盖的范围非常广泛，涉及文本解析和数据处理方面的问题。这篇文章主要介绍了解决python 文本过滤和清理问题,需要的朋友可以参考下
2019-08-08