Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别

 更新时间:2023年02月01日 14:27:06   作者:anshuai_aw1  
这篇文章主要介绍了Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

sklearn数据预处理中fit(),transform()与fit_transform()的区别

概述

注意这是数据预处理中的方法:

Fit(): Method calculates the parameters μ and σ and saves them as internal objects.

解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程

Transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解释:在Fit的基础上,进行标准化,降维,归一化等操作(看具体用的是哪个工具,如PCA,StandardScaler等)。

Fit_transform(): joins the fit() and transform() method for transformation of dataset.

解释:

  • fit_transform是fit和transform的组合,既包括了训练又包含了转换。
  • transform()和fit_transform()二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等)
  • fit_transform(trainData)对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该trainData进行转换transform,从而实现数据的标准化、归一化等等。

根据对之前部分trainData进行fit的整体指标,对剩余的数据(testData)使用同样的均值、方差、最大最小值等指标进行转换transform(testData),从而保证train、test处理方式相同。

所以,一般都是这么用:

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit_tranform(X_train)
sc.tranform(X_test)

Note:

  • 必须先用fit_transform(trainData),之后再transform(testData)
  • 如果直接transform(testData),程序会报错
  • 如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。(一定要避免这种情况)

举例

以PCA预处理,举个栗子:

import pandas as pd
import numpy as np
 
from sklearn.decomposition import PCA 
 
#==========================================================================================
X1=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],
              columns=['one','two','three'])  
 
pca=PCA(n_components=1)
 
newData1=pca.fit_transform(X1)
 
pca.fit(X1)
newData12=pca.transform(X1)
 
"""
newData1和newData2结果一致
"""
#==========================================================================================
a=[[1,2,3],[5,6,7],[4,5,8]]
 
X2=pd.DataFrame(np.array(a),index=['a','b','c'],
              columns=['one','two','three'])  
pca_new=PCA(n_components=1)
pca_new.transform(X2)
"""
没有fit,直接transform报错:
NotFittedError: This PCA instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.
"""

sklearn中归一化的坑

This MinMaxScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.

原因 

归一化时,fit() 和transform() 两个方法要分开.

sc_x = MinMaxScaler(feature_range=(0, 1)).fit(X)
X=sc_x.transform(X)
sc_y = MinMaxScaler(feature_range=(0, 1)).fit(Y)
Y = sc_y.transform(Y)

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python 遍历目录(包括子目录)下所有文件的实例

    python 遍历目录(包括子目录)下所有文件的实例

    今天小编就为大家分享一篇python 遍历目录(包括子目录)下所有文件的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python采集C站高校信息实战示例

    Python采集C站高校信息实战示例

    这篇文章主要为大家介绍了Python采集C站高校信息实战示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05
  • Python实现一个优先级队列的方法

    Python实现一个优先级队列的方法

    这篇文章主要介绍了Python实现一个优先级队列的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • Python中高阶函数的小实践分享

    Python中高阶函数的小实践分享

    这篇文章主要为大家介绍了一些Python中高阶函数的小实践,文中的示例代码讲解详细,对我们深入学习Python有一定的帮助,需要的可以参考下
    2023-05-05
  • Python 处理日期时间的Arrow库使用

    Python 处理日期时间的Arrow库使用

    这篇文章主要介绍了Python 处理日期时间的Arrow库使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Python Django ORM与模型详解

    Python Django ORM与模型详解

    这篇文章主要介绍了django的ORM与模型的实现原理,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧v
    2021-11-11
  • 使用Python实现操作控制鼠标和键盘

    使用Python实现操作控制鼠标和键盘

    Python 有很多的库可以实现各种各样的功能,比如使用 pynput 操作,下面小编就来和大家详细介绍一下如何使用pynput进行操作控制鼠标和键盘吧
    2024-02-02
  • Django ORM外键查询与反向查询技巧

    Django ORM外键查询与反向查询技巧

    Django 的 ORM(对象关系映射)是其最强大的功能之一,它使得数据库操作变得直观和简洁,在复杂的数据库结构中,外键(Foreign Key)的使用及其对应的反向查询是 Django 开发中不可或缺的部分,本文将详细介绍如何在 Django 中利用外键进行数据查询以及执行反向查询
    2023-11-11
  • TensorFlow人工智能学习数据填充复制实现示例

    TensorFlow人工智能学习数据填充复制实现示例

    这篇文章主要为大家介绍了TensorFlow人工智能学习如何进行数据填充复制的实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-11-11
  • SVM基本概念及Python实现代码

    SVM基本概念及Python实现代码

    这篇文章主要为大家详细介绍了SVM基本概念及Python实现代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-12-12

最新评论