python优化数据预处理方法Pandas pipe详解

更新时间：2021年11月22日 10:07:54 作者：Python学习与数据挖掘

在本文中，我们将重点讨论一个将多个预处理操作组织成单个操作的特定函数：pipe。我将通过示例方式来展示如何使用它，让我们从数据创建数据帧开始吧

我们知道现实中的数据通常是杂乱无章的，需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一，它提供了多种对原始数据进行预处理的方法。

import numpy as np
import pandas as pd
df = pd.DataFrame({
   "id": [100, 100, 101, 102, 103, 104, 105, 106],
   "A": [1, 2, 3, 4, 5, 2, np.nan, 5],
   "B": [45, 56, 48, 47, 62, 112, 54, 49],
   "C": [1.2, 1.4, 1.1, 1.8, np.nan, 1.4, 1.6, 1.5]
})
df

上述数据中 NaN 表示的缺失值，id 列包含重复的值，B 列中的 112 似乎是一个异常值。

这些就是现实数据中的一些典型问题。我们将创建一个管道来处理刚才描述的问题。对于每个任务，我们都需要一个函数。因此，首先是创建放置在管道中的函数。需要注意的是，管道中使用的函数需要将数据帧作为参数并返回数据帧。

第一个函数是处理缺少的值

def fill_missing_values(df):
   for col in df.select_dtypes(include= ["int","float"]).columns:
      val = df[col].mean()
      df[col].fillna(val, inplace=True)
   return df

我喜欢用列的平均值替换数字列中缺少的值，当然你也可以根据具体场景来定义。只要它将数据帧作为参数并返回数据帧，它就可以在管道中工作。

第二个函数是帮助我们删除重复的值

def drop_duplicates(df, column_name):
   df = df.drop_duplicates(subset=column_name)
   return df

调用 Pandas 内置的 drop duplicates 函数，它可以消除给定列中的重复值。

最后一个函数是用于消除异常值

def remove_outliers(df, column_list):
   for col in column_list:
      avg = df[col].mean()
      std = df[col].std()
      low = avg - 2 * std
      high = avg + 2 * std
      df = df[df[col].between(low, high, inclusive=True)]
   return df

此函数的作用如下：

需要一个数据帧和一列列表
对于列表中的每一列，它计算平均值和标准偏差
计算标准差，并使用下限平均值
删除下限和上限定义的范围之外的值

与前面的函数一样，你可以选择自己的检测异常值的方法。

创建管道

我们现在有3个函数来进行数据预处理的任务。接下来就是使用这些函数创建管道。

df_processed = (df.pipe(fill_missing_values).pipe(drop_duplicates, "id").pipe(remove_outliers, ["A","B"]))

此管道按给定顺序执行函数。我们可以将参数和函数名一起传递给管道。

这里需要提到的一点是，管道中的一些函数修改了原始数据帧。因此，使用上述管道也将更新df。

解决此问题的一个方法是在管道中使用原始数据帧的副本。如果你不关心保持原始数据帧的原样，那么可以在管道中使用它。

我将更新管道，如下所示：

my_df = df.copy()
df_processed = (my_df.pipe(fill_missing_values).pipe(drop_duplicates, "id").pipe(remove_outliers, ["A","B"]))

让我们看一下原始数据帧和处理后的数据帧：

结论

当然，你可以通过单独使用这些函数来完成相同的任务。但是，管道函数提供了一种结构化和有组织的方式，可以将多个功能组合到单个操作中。

根据原始数据和任务，预处理可能包括更多步骤。可以根据需要在管道函数中添加任意数量的步骤。随着步骤数量的增加，与单独执行函数相比，管道函数的语法变得更清晰。

以上就是python优化数据预处理方法Pandas pipe详解的详细内容，更多关于pandas pipe数据预处理优化的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python编程itertools模块处理可迭代集合相关函数
本篇博客将为你介绍Python函数式编程itertools模块中处理可迭代集合的相关函数，有需要的朋友可以借鉴参考下，希望可以有所帮助
2021-09-09
Python实现简单的HttpServer服务器示例
本篇文章主要介绍了Python实现简单的HttpServer服务器示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-09-09
python numpy和list查询其中某个数的个数及定位方法
今天小编就为大家分享一篇python numpy和list查询其中某个数的个数及定位方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
详解Python使用tensorflow入门指南
本篇文章主要介绍了详解Python使用tensorflow入门指南，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-02-02
Python matplotlib绘制散点图配置(万能模板案例)
这篇文章主要介绍了Python matplotlib绘制散点图配置(万能模板案例),散点图是指在回归分析中，数据点在直角坐标系平面上的分布图，散点图表示因变量随自变量而变化的大致趋势，据此可以选择合适的函数对数据点进行拟合
2022-07-07
跟老齐学Python之大话题小函数(1)
今天本讲要讲什么呢？今天要介绍几个python中的小函数，这几个函数都是从函数式编程借鉴过来的，它们就是：filter、map、reduce、lambda、yield 有了它们，最大的好处是程序更简洁
2014-10-10
python用plotly实现绘制局部放大图
大家好，本篇文章主要讲的是python用plotly实现绘制局部放大图，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-02-02
Pandas检查dataFrame中的NaN实现
本文主要介绍了Pandas检查dataFrame中的NaN实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-01-01
python 协程中的迭代器，生成器原理及应用实例详解
这篇文章主要介绍了python 协程中的迭代器，生成器原理及应用,结合具体实例形式详细分析了Python协程中的迭代器，生成器概念、原理及应用操作技巧,需要的朋友可以参考下
2019-10-10
python xpath获取页面注释的方法
今天小编就为大家分享一篇python xpath获取页面注释的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01