Python数据分析之缺失值检测与处理详解

 更新时间:2021年12月02日 15:35:17   作者:Dream丶Killer  
在实际的数据处理中,缺失值是普遍存在的,如何使用 Python 检测和处理缺失值,就是本文要讲的主要内容。感兴趣的同学可以关注一下

检测缺失值

我们先创建一个带有缺失值的数据框(DataFrame)。

import pandas as pd

df = pd.DataFrame(
    {'A': [None, 2, None, 4],
     'B': [10, None, None, 40], 
     'C': [100, 200, None, 400],
     'D': [None, 2000, 3000, None]})
df

数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。

df.isnull()

使用 sum() 来检测每列中的缺失值的数量。

df.isnull().sum()

通过 .T 将 DataFrame 转置,获取检测每行中缺失值的数量。

df.isnull().T.sum()

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna() 删除带有缺失值的行/列。

df.dropna(axis=0,
          how='any',
          thresh=None,
          subset=None,
          inplace=False)

参数含义

  • axis:控制行列的参数,0 行,1 列。
  • how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。
  • thresh:指定 NaN 的数量,当 NaN 数量达到才删除。
  • subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
  • inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。

指定 axis = 1,如果列中有缺失值,则删除该列。

df.dropna(axis=1, how='any')

由于每列都有缺失值,所以只剩索引。

指定 axis = 0(默认),如果行中有缺失值,则删除该行。

df.dropna(axis=0, how='any')

以 ABC 列为参照,删除这三列都是缺失值的行。

df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')

保留至少有3个非NaN值的行。

df.dropna(axis=0, thresh=3)

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。

df.fillna(value=None,
          method=None,
          axis=0,
          inplace=False,
          limit=None)

1. 直接指定填充值

df.fillna(666)

2.用缺失值前/后的值填充

按前一个值填充

当method 值为 ffill 或 pad时,按前一个值进行填充。

当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。

当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。

df.fillna(axis=0, method='pad')

按后一个值填充

当method 值为 backfill 或 bfill时,按后一个值进行填充。

当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。

当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。

df.fillna(axis=0, method='bfill')

指定相应的方法来填充

df.fillna(df.mean())

limit限制填充次数

在ABCD列上,每列只填充第一个空值。

df.fillna(value=666, axis=1, limit=1)

以上就是Python数据分析之缺失值检测与处理详解的详细内容,更多关于Python 缺失值检测处理的资料请关注脚本之家其它相关文章!

相关文章

  • python中二维阵列的变换实例

    python中二维阵列的变换实例

    这篇文章主要介绍了python中二维阵列的变换实例,通过对比两种不同的方法分析了二维阵列变换的实现方法,需要的朋友可以参考下
    2014-10-10
  • Python多线程编程(二):启动线程的两种方法

    Python多线程编程(二):启动线程的两种方法

    这篇文章主要介绍了Python多线程编程(一):启动线程的两种方法,本文讲解了将函数传递进Thread对象、继承自threading.Thread类两种方法,需要的朋友可以参考下
    2015-04-04
  • 使用DataFrame删除行和列的实例讲解

    使用DataFrame删除行和列的实例讲解

    下面小编就为大家分享一篇使用DataFrame删除行和列的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python isinstance函数介绍

    Python isinstance函数介绍

    这篇文章主要介绍了Python isinstance函数介绍,本文用实例讲解了判断变量是否是某个指定类型,需要的朋友可以参考下
    2015-04-04
  • python将数据插入数据库的代码分享

    python将数据插入数据库的代码分享

    在本篇文章里小编给大家整理的是关于python将数据插入数据库的代码内容,有兴趣的朋友们可以参考下。
    2020-08-08
  • Python批量写入ES索引数据的示例代码

    Python批量写入ES索引数据的示例代码

    这篇文章主要为大家详细介绍了如何使用python脚本批量写ES数据(需要使用pip提前下载安装es依赖库),感兴趣的小伙伴可以学习一下
    2024-02-02
  • 在Python中封装GObject模块进行图形化程序编程的教程

    在Python中封装GObject模块进行图形化程序编程的教程

    这篇文章主要介绍了在Python中封装GObject模块进行图形化程序编程的教程,本文来自于IBM官方网站技术文档,需要的朋友可以参考下
    2015-04-04
  • Python实现SQL注入检测插件实例代码

    Python实现SQL注入检测插件实例代码

    这篇文章主要给大家介绍了关于Python实现SQL注入检测插件的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-02-02
  • numpy数组广播的机制

    numpy数组广播的机制

    这篇文章主要介绍了numpy数组广播的机制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Python成功解决读文件出现:IOError: [Errno 0] Error的错误

    Python成功解决读文件出现:IOError: [Errno 0] Error的错误

    在Python编程中,处理文件是常见的任务之一,但偶尔也会遇到各种错误,包括IOError,尽管Python 3.x中IOError已被OSError和FileNotFoundError等更具体的异常所取代,由于[Errno 0]不直接指向具体的错误类型,我们将讨论一系列可能导致IOError的常见情况,需要的朋友可以参考下
    2024-07-07

最新评论