pandas || df.dropna() 缺失值删除操作

 更新时间:2021年03月25日 10:21:23   作者:一个还在挣扎的码农  
这篇文章主要介绍了pandas || df.dropna() 缺失值删除操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

df.dropna()函数用于删除dataframe数据中的缺失数据,即 删除NaN数据.

官方函数说明:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
 Remove missing values.
 See the User Guide for more on which values are considered missing, 
 and how to work with missing data.
Returns
 DataFrame
 DataFrame with NA entries dropped from it.

参数说明:

Parameters 说明
axis 0为行 1为列,default 0,数据删除维度
how {‘any', ‘all'}, default ‘any',any:删除带有nan的行;all:删除全为nan的行
thresh int,保留至少 int 个非nan行
subset list,在特定列缺失值处理
inplace bool,是否修改源文件

测试:

>>>df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
          "toy": [np.nan, 'Batmobile', 'Bullwhip'],
          "born": [pd.NaT, pd.Timestamp("1940-04-25"),
              pd.NaT]})
>>>df
    name    toy    born
0  Alfred    NaN    NaT
1  Batman Batmobile 1940-04-25
2 Catwoman  Bullwhip    NaT

删除至少缺少一个元素的行:

>>>df.dropna()
   name    toy    born
1 Batman Batmobile 1940-04-25

删除至少缺少一个元素的列:

>>>df.dropna(axis=1)
    name
0  Alfred
1  Batman
2 Catwoman

删除所有元素丢失的行:

>>>df.dropna(how='all')
    name    toy    born
0  Alfred    NaN    NaT
1  Batman Batmobile 1940-04-25
2 Catwoman  Bullwhip    NaT

只保留至少2个非NA值的行:

>>>df.dropna(thresh=2)
    name    toy    born
1  Batman Batmobile 1940-04-25
2 Catwoman  Bullwhip    NaT

从特定列中查找缺少的值:

>>>df.dropna(subset=['name', 'born'])
    name    toy    born
1  Batman Batmobile 1940-04-25

修改原数据:

>>>df.dropna(inplace=True)
>>>df
   name    toy    born
1 Batman Batmobile 1940-04-25

以上。

补充:Pandas 之Dropna滤除缺失数据

约定:

import pandas as pd
import numpy as np
from numpy import nan as NaN

滤除缺失数据

pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。

使用dropna使得滤除缺失数据更加得心应手。

一、处理Series对象

通过**dropna()**滤除缺失数据:

se1=pd.Series([4,NaN,8,NaN,5])
print(se1)
se1.dropna()

代码结果:

0  4.0
1  NaN
2  8.0
3  NaN
4  5.0
dtype: float64
0  4.0
2  8.0
4  5.0
dtype: float64

通过布尔序列也能滤除:

se1[se1.notnull()]

代码结果:

0  4.0
2  8.0
4  5.0
dtype: float64

二、处理DataFrame对象

处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN。

df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])
df1

代码结果:

0 1 2
0 1.0 2.0 3.0
1 NaN NaN 2.0
2 NaN NaN NaN
3 8.0 8.0 NaN

默认滤除所有包含NaN:

df1.dropna()

代码结果:

0 1 2
0 1.0 2.0 3.0

传入**how=‘all'**滤除全为NaN的行:

df1.dropna(how='all')

代码结果:

0 1 2
0 1.0 2.0 3.0
1 NaN NaN 2.0
3 8.0 8.0 NaN

传入axis=1滤除列:

df1[3]=NaN
df1

代码结果:

0 1 2 3
0 1.0 2.0 3.0 NaN
1 NaN NaN 2.0 NaN
2 NaN NaN NaN NaN
3 8.0 8.0 NaN NaN
df1.dropna(axis=1,how="all")

代码结果:

0 1 2
0 1.0 2.0 3.0
1 NaN NaN 2.0
2 NaN NaN NaN
3 8.0 8.0 NaN

传入thresh=n保留至少有n个非NaN数据的行:

df1.dropna(thresh=1)

代码结果:

0 1 2 3
0 1.0 2.0 3.0 NaN
1 NaN NaN 2.0 NaN
3 8.0 8.0 NaN NaN
df1.dropna(thresh=3)

代码结果:

0 1 2 3
0 1.0 2.0 3.0 NaN

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

您可能感兴趣的文章:

相关文章

  • Python中文字符串截取问题

    Python中文字符串截取问题

    web应用难免会截取字符串的需求,Python中截取英文很容易,但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来分享给大家
    2015-06-06
  • 深入学习Python中的装饰器使用

    深入学习Python中的装饰器使用

    @这个操作符让装饰器在Python代码中非常醒目,而装饰器的运用中也包含着很多Python编程中的高级技巧,这里我们就来共同深入学习Python中的装饰器使用
    2016-06-06
  • keras和tensorflow使用fit_generator 批次训练操作

    keras和tensorflow使用fit_generator 批次训练操作

    这篇文章主要介绍了keras和tensorflow使用fit_generator 批次训练操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • keras用auc做metrics以及早停实例

    keras用auc做metrics以及早停实例

    这篇文章主要介绍了keras用auc做metrics以及早停实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • 一文教会你利用Python程序读取Excel创建折线图

    一文教会你利用Python程序读取Excel创建折线图

    不同类型的图表有不同的功能,柱形图主要用于对比数据,折线图主要用于展示数据变化的趋势,散点图主要用于判断数据的相关性,下面这篇文章主要给大家介绍了关于如何通过一文教你利用Python程序读取Excel创建折线图的相关资料,需要的朋友可以参考下
    2022-11-11
  • 在PyCharm中三步完成PyPy解释器的配置的方法

    在PyCharm中三步完成PyPy解释器的配置的方法

    今天小编就为大家分享一篇在PyCharm中三步完成PyPy解释器的配置的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-10-10
  • 使用python实现深度优先遍历搜索(DFS)的示例代码

    使用python实现深度优先遍历搜索(DFS)的示例代码

    深度优先搜索算法(Depth-First-Search,DFS)是一种用于遍历或搜索树或图的算法,沿着树的深度遍历树的节点,尽可能深的搜索树的分支,本文给大家介绍了如何基于python实现深度优先遍历搜索(DFS),需要的朋友可以参考下
    2024-01-01
  • Django 再谈一谈json序列化

    Django 再谈一谈json序列化

    这篇文章主要介绍了Django json序列化,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python工具之清理 Markdown 中没有引用的图片

    python工具之清理 Markdown 中没有引用的图片

    这篇文章主要介绍了python工具之清理 Markdown 中没有引用的图片,文章围绕主题展开详细的的内容介绍,需要的朋友可以参考一下
    2022-06-06
  • Pandas实现复制dataframe中的每一行

    Pandas实现复制dataframe中的每一行

    这篇文章主要介绍了Pandas实现复制dataframe中的每一行方式,
    2024-02-02

最新评论