Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别

 更新时间:2023年02月01日 14:27:06   作者:anshuai_aw1  
这篇文章主要介绍了Python之sklearn数据预处理中fit(),transform()与fit_transform()的区别及说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

sklearn数据预处理中fit(),transform()与fit_transform()的区别

概述

注意这是数据预处理中的方法:

Fit(): Method calculates the parameters μ and σ and saves them as internal objects.

解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程

Transform(): Method using these calculated parameters apply the transformation to a particular dataset.

解释:在Fit的基础上,进行标准化,降维,归一化等操作(看具体用的是哪个工具,如PCA,StandardScaler等)。

Fit_transform(): joins the fit() and transform() method for transformation of dataset.

解释:

  • fit_transform是fit和transform的组合,既包括了训练又包含了转换。
  • transform()和fit_transform()二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等)
  • fit_transform(trainData)对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该trainData进行转换transform,从而实现数据的标准化、归一化等等。

根据对之前部分trainData进行fit的整体指标,对剩余的数据(testData)使用同样的均值、方差、最大最小值等指标进行转换transform(testData),从而保证train、test处理方式相同。

所以,一般都是这么用:

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit_tranform(X_train)
sc.tranform(X_test)

Note:

  • 必须先用fit_transform(trainData),之后再transform(testData)
  • 如果直接transform(testData),程序会报错
  • 如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。(一定要避免这种情况)

举例

以PCA预处理,举个栗子:

import pandas as pd
import numpy as np
 
from sklearn.decomposition import PCA 
 
#==========================================================================================
X1=pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','b','c'],
              columns=['one','two','three'])  
 
pca=PCA(n_components=1)
 
newData1=pca.fit_transform(X1)
 
pca.fit(X1)
newData12=pca.transform(X1)
 
"""
newData1和newData2结果一致
"""
#==========================================================================================
a=[[1,2,3],[5,6,7],[4,5,8]]
 
X2=pd.DataFrame(np.array(a),index=['a','b','c'],
              columns=['one','two','three'])  
pca_new=PCA(n_components=1)
pca_new.transform(X2)
"""
没有fit,直接transform报错:
NotFittedError: This PCA instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.
"""

sklearn中归一化的坑

This MinMaxScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.

原因 

归一化时,fit() 和transform() 两个方法要分开.

sc_x = MinMaxScaler(feature_range=(0, 1)).fit(X)
X=sc_x.transform(X)
sc_y = MinMaxScaler(feature_range=(0, 1)).fit(Y)
Y = sc_y.transform(Y)

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python基础文件操作方法超详细讲解(详解版)

    Python基础文件操作方法超详细讲解(详解版)

    文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,这篇文章主要介绍了Python基础文件操作方法超详细讲解的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-04-04
  • 如何将python项目部署在一台服务器上

    如何将python项目部署在一台服务器上

    服务器less技术是一种无需管理服务器即可运行应用程序的方法,最流行的服务器less平台是AWS Lambda,这篇文章主要介绍了如何将python项目部署在一台服务器上,需要的朋友可以参考下
    2023-10-10
  • Python中类和对象的绑定及非绑定方法详解

    Python中类和对象的绑定及非绑定方法详解

    类中定义的方法大致可以分为两类:绑定方法和非绑定方法。其中绑定方法又可以分为绑定到对象的方法和绑定到类的方法。本文就来聊聊类和对象的绑定及非绑定方法吧
    2023-03-03
  • PyQt5执行耗时操作导致界面卡死或未响应的原因及解决办法

    PyQt5执行耗时操作导致界面卡死或未响应的原因及解决办法

    这篇文章主要给大家介绍了关于PyQt5执行耗时操作导致界面卡死或未响应的原因及解决办法,由于耗时的操作会独占系统cpu资源,让界面卡死在那里,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-12-12
  • Python文件处理

    Python文件处理

    这篇文章主要介绍了Python文件处理的相关资料,需要的朋友可以参考下
    2016-02-02
  • numpy 产生随机数的几种方法

    numpy 产生随机数的几种方法

    本文主要介绍了numpy 产生随机数的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • pytorch rpc实现分物理机器实现model parallel的过程详解

    pytorch rpc实现分物理机器实现model parallel的过程详解

    这篇文章主要介绍了pytorch rpc实现分物理机器实现model parallel的过程,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-05-05
  • 教你用python实现一个无界面的小型图书管理系统

    教你用python实现一个无界面的小型图书管理系统

    今天带大家学习怎么用python实现一个无界面的小型图书管理系统,文中有非常详细的图文解说及代码示例,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • pandas实现导出数据的四种方式

    pandas实现导出数据的四种方式

    这篇文章主要介绍了pandas实现导出数据的四种方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python用61行代码实现图片像素化的示例代码

    Python用61行代码实现图片像素化的示例代码

    这篇文章主要介绍了Python用61行代码实现图片像素化的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-12-12

最新评论