pandas || df.dropna() 缺失值删除操作

 更新时间:2021年03月25日 10:21:23   作者:一个还在挣扎的码农  
这篇文章主要介绍了pandas || df.dropna() 缺失值删除操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

df.dropna()函数用于删除dataframe数据中的缺失数据,即 删除NaN数据.

官方函数说明:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
 Remove missing values.
 See the User Guide for more on which values are considered missing, 
 and how to work with missing data.
Returns
 DataFrame
 DataFrame with NA entries dropped from it.

参数说明:

Parameters 说明
axis 0为行 1为列,default 0,数据删除维度
how {‘any', ‘all'}, default ‘any',any:删除带有nan的行;all:删除全为nan的行
thresh int,保留至少 int 个非nan行
subset list,在特定列缺失值处理
inplace bool,是否修改源文件

测试:

>>>df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
          "toy": [np.nan, 'Batmobile', 'Bullwhip'],
          "born": [pd.NaT, pd.Timestamp("1940-04-25"),
              pd.NaT]})
>>>df
    name    toy    born
0  Alfred    NaN    NaT
1  Batman Batmobile 1940-04-25
2 Catwoman  Bullwhip    NaT

删除至少缺少一个元素的行:

>>>df.dropna()
   name    toy    born
1 Batman Batmobile 1940-04-25

删除至少缺少一个元素的列:

>>>df.dropna(axis=1)
    name
0  Alfred
1  Batman
2 Catwoman

删除所有元素丢失的行:

>>>df.dropna(how='all')
    name    toy    born
0  Alfred    NaN    NaT
1  Batman Batmobile 1940-04-25
2 Catwoman  Bullwhip    NaT

只保留至少2个非NA值的行:

>>>df.dropna(thresh=2)
    name    toy    born
1  Batman Batmobile 1940-04-25
2 Catwoman  Bullwhip    NaT

从特定列中查找缺少的值:

>>>df.dropna(subset=['name', 'born'])
    name    toy    born
1  Batman Batmobile 1940-04-25

修改原数据:

>>>df.dropna(inplace=True)
>>>df
   name    toy    born
1 Batman Batmobile 1940-04-25

以上。

补充:Pandas 之Dropna滤除缺失数据

约定:

import pandas as pd
import numpy as np
from numpy import nan as NaN

滤除缺失数据

pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。

使用dropna使得滤除缺失数据更加得心应手。

一、处理Series对象

通过**dropna()**滤除缺失数据:

se1=pd.Series([4,NaN,8,NaN,5])
print(se1)
se1.dropna()

代码结果:

0  4.0
1  NaN
2  8.0
3  NaN
4  5.0
dtype: float64
0  4.0
2  8.0
4  5.0
dtype: float64

通过布尔序列也能滤除:

se1[se1.notnull()]

代码结果:

0  4.0
2  8.0
4  5.0
dtype: float64

二、处理DataFrame对象

处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN。

df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])
df1

代码结果:

0 1 2
0 1.0 2.0 3.0
1 NaN NaN 2.0
2 NaN NaN NaN
3 8.0 8.0 NaN

默认滤除所有包含NaN:

df1.dropna()

代码结果:

0 1 2
0 1.0 2.0 3.0

传入**how=‘all'**滤除全为NaN的行:

df1.dropna(how='all')

代码结果:

0 1 2
0 1.0 2.0 3.0
1 NaN NaN 2.0
3 8.0 8.0 NaN

传入axis=1滤除列:

df1[3]=NaN
df1

代码结果:

0 1 2 3
0 1.0 2.0 3.0 NaN
1 NaN NaN 2.0 NaN
2 NaN NaN NaN NaN
3 8.0 8.0 NaN NaN
df1.dropna(axis=1,how="all")

代码结果:

0 1 2
0 1.0 2.0 3.0
1 NaN NaN 2.0
2 NaN NaN NaN
3 8.0 8.0 NaN

传入thresh=n保留至少有n个非NaN数据的行:

df1.dropna(thresh=1)

代码结果:

0 1 2 3
0 1.0 2.0 3.0 NaN
1 NaN NaN 2.0 NaN
3 8.0 8.0 NaN NaN
df1.dropna(thresh=3)

代码结果:

0 1 2 3
0 1.0 2.0 3.0 NaN

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

您可能感兴趣的文章:

相关文章

  • Python加速程序运行的方法

    Python加速程序运行的方法

    这篇文章主要介绍了Python加速程序运行的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • python__name__原理及用法详解

    python__name__原理及用法详解

    这篇文章主要介绍了python__name__原理及用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • Python捕获全局的KeyboardInterrupt异常的方法实现

    Python捕获全局的KeyboardInterrupt异常的方法实现

    KeyboardInterrupt异常是Python中的一个标准异常,它通常发生在用户通过键盘中断了一个正在运行的程序,本文主要介绍了Python捕获全局的KeyboardInterrupt异常的方法实现,感兴趣的可以了解一下
    2024-08-08
  • 浅谈Python 列表字典赋值的陷阱

    浅谈Python 列表字典赋值的陷阱

    今天小编就为大家分享一篇浅谈Python 列表字典赋值的陷阱,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • 解决Django中调用keras的模型出现的问题

    解决Django中调用keras的模型出现的问题

    今天小编就为大家分享一篇解决Django中调用keras的模型出现的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Python自定义线程池实现方法分析

    Python自定义线程池实现方法分析

    这篇文章主要介绍了Python自定义线程池实现方法,结合实例形式较为详细的分析了Python自定义线程池的概念、原理、实现方法及相关注意事项,需要的朋友可以参考下
    2018-02-02
  • Python 数据化运营之KMeans聚类分析总结

    Python 数据化运营之KMeans聚类分析总结

    这篇文章主要介绍了Python 数据化运营KMeans聚类相关的一些总结,感兴趣的话一起来阅读下文吧
    2021-08-08
  • pyqt4教程之实现半透明的天气预报界面示例

    pyqt4教程之实现半透明的天气预报界面示例

    这篇文章主要介绍了pyqt4实现半透明的天气预报界面示例,需要的朋友可以参考下
    2014-03-03
  • Python实现简单的四则运算计算器

    Python实现简单的四则运算计算器

    相信大家在学习数据结构时,就学习了简单四则运算表达式求解的一个算法,可惜一直没有自己动手实现过这个算法。最近重拾数据结构与算法,恰巧又正在用Python比较频繁,所幸就用它来实现这个算法,虽然网上有很多代码,不过作为一个学习者,还是应当亲自动手实现。
    2016-11-11
  • python深度优先搜索和广度优先搜索

    python深度优先搜索和广度优先搜索

    这篇文章主要介绍了python实现图的深度优先搜索和广度优先搜索相关知识点,对此有兴趣的朋友学习下。
    2018-02-02

最新评论