Python数据分析之缺失值检测与处理详解

 更新时间:2021年12月02日 15:35:17   作者:Dream丶Killer  
在实际的数据处理中,缺失值是普遍存在的,如何使用 Python 检测和处理缺失值,就是本文要讲的主要内容。感兴趣的同学可以关注一下

检测缺失值

我们先创建一个带有缺失值的数据框(DataFrame)。

import pandas as pd

df = pd.DataFrame(
    {'A': [None, 2, None, 4],
     'B': [10, None, None, 40], 
     'C': [100, 200, None, 400],
     'D': [None, 2000, 3000, None]})
df

数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。

df.isnull()

使用 sum() 来检测每列中的缺失值的数量。

df.isnull().sum()

通过 .T 将 DataFrame 转置,获取检测每行中缺失值的数量。

df.isnull().T.sum()

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna() 删除带有缺失值的行/列。

df.dropna(axis=0,
          how='any',
          thresh=None,
          subset=None,
          inplace=False)

参数含义

  • axis:控制行列的参数,0 行,1 列。
  • how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。
  • thresh:指定 NaN 的数量,当 NaN 数量达到才删除。
  • subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
  • inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。

指定 axis = 1,如果列中有缺失值,则删除该列。

df.dropna(axis=1, how='any')

由于每列都有缺失值,所以只剩索引。

指定 axis = 0(默认),如果行中有缺失值,则删除该行。

df.dropna(axis=0, how='any')

以 ABC 列为参照,删除这三列都是缺失值的行。

df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')

保留至少有3个非NaN值的行。

df.dropna(axis=0, thresh=3)

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。

df.fillna(value=None,
          method=None,
          axis=0,
          inplace=False,
          limit=None)

1. 直接指定填充值

df.fillna(666)

2.用缺失值前/后的值填充

按前一个值填充

当method 值为 ffill 或 pad时,按前一个值进行填充。

当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。

当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。

df.fillna(axis=0, method='pad')

按后一个值填充

当method 值为 backfill 或 bfill时,按后一个值进行填充。

当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。

当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。

df.fillna(axis=0, method='bfill')

指定相应的方法来填充

df.fillna(df.mean())

limit限制填充次数

在ABCD列上,每列只填充第一个空值。

df.fillna(value=666, axis=1, limit=1)

以上就是Python数据分析之缺失值检测与处理详解的详细内容,更多关于Python 缺失值检测处理的资料请关注脚本之家其它相关文章!

相关文章

  • Numpy数组的组合与分割实现的方法

    Numpy数组的组合与分割实现的方法

    本文主要介绍了Numpy数组的组合与分割实现的方法,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-08-08
  • Python中encode和encoding的区别小结

    Python中encode和encoding的区别小结

    Python是一种非常流行的高级编程语言,它提供了许多内置函数和库来方便地处理文本数据,其中,encode和encoding是处理文本编码的重要概念,本文就来介绍一下Python中encode和encoding的区别小结,感兴趣的可以了解一下
    2023-11-11
  • python基础之文件处理知识总结

    python基础之文件处理知识总结

    今天带大家了解python文件处理的相关知识,文中介绍的非常详细,对正在学习python的小伙伴们很有帮助,需要的朋友可以参考下
    2021-05-05
  • python实现的守护进程(Daemon)用法实例

    python实现的守护进程(Daemon)用法实例

    这篇文章主要介绍了python实现的守护进程(Daemon)用法,实例分析了Python进程操作的相关技巧,需要的朋友可以参考下
    2015-06-06
  • python二叉树常用算法总结

    python二叉树常用算法总结

    这篇文章主要分享的是python二叉树常用算法,二叉树的递归思想很重要,还有递归的复杂度分析,需下面文章就来详细解说该算法,要的朋友可以参考一下
    2021-09-09
  • flask后端request获取参数的几种方式整理

    flask后端request获取参数的几种方式整理

    这篇文章主要为大家介绍了flask后端request获取参数的几种方式整理,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • 新一代Python包管理工具

    新一代Python包管理工具

    这篇文章主要介绍了新一代Python包管理工具,Python包管理工具,一般就会想到想到pip、conda等经典工具,本篇文章要介绍的是一款新颖的Python包管理工具pdm,需要的小伙伴可以参考一下
    2022-02-02
  • Python实现将Excel内容批量导出为PDF文件

    Python实现将Excel内容批量导出为PDF文件

    这篇文章主要为大家介绍了如何利用Python实现将Excel表格内容批量导出为PDF文件,文中的实现步骤讲解详细,感兴趣的小伙伴可以了解一下
    2022-04-04
  • 漂亮的Django Markdown富文本app插件的实现

    漂亮的Django Markdown富文本app插件的实现

    这篇文章主要介绍了漂亮的Django Markdown富文本app插件的实现,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-01-01
  • python requests.post带head和body的实例

    python requests.post带head和body的实例

    今天小编就为大家分享一篇python requests.post带head和body的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01

最新评论