在Pandas中处理NaN值的方法

 更新时间:2019年06月25日 10:44:55   作者:Johnny丶me  
这篇文章主要介绍了在Pandas中处理NaN值的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

关于NaN值

-在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据, 也就是说,我们需要通过某个方法检测并更正数据中的错误。
- 任何给定数据集可能会出现各种糟糕的数据,例如离群值或不正确的值,但是我们几乎始终会遇到的糟糕数据类型是缺少值。
- Pandas 会为缺少的值分配 NaN 值。

创建一个具有NaN值得 Data Frame

import pandas as pd

# We create a list of Python dictionaries
# 创建一个字典列表
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

# 创建一个DataFrame并设置行索引
store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])

# 显示
store_items

显示:

数据量大时统计NaN的个数

# 计算在store_items中NaN值的个数
x = store_items.isnull().sum().sum()

# 输出
print('在我们DataFrame中NaN的数量:', x)

输出:

在我们DataFrame中NaN的数量: 3

.isnull() 方法返回一个大小和 store_items 一样的布尔型 DataFrame,并用 True 表示具有 NaN 值的元素,用 False 表示非 NaN 值的元素。

store_items.isnull()

显示:

在 Pandas 中,逻辑值 True 的数字值是 1,逻辑值 False 的数字值是 0。

因此,我们可以通过数逻辑值 True 的数量数出 NaN 值的数量。

为了数逻辑值 True 的总数,我们使用 .sum() 方法两次。

要使用该方法两次,是因为第一个 sum() 返回一个 Pandas Series,其中存储了列上的逻辑值 True 的总数

第二个 sum() 将上述 Pandas Series 中的 1 相加

除了数 NaN 值的数量之外,我们还可以采用相反的方式,我们可以数非 NaN 值的数量。为此,我们可以使用 .count() 方法

print('在我们DataFrame的列中具有非NaN值得数量分别为:\n', store_items.count())

输出:

在我们DataFrame的列中具有非NaN值得数量:
bikes 3
glasses 2
pants 3
shirts 2
shoes 3
suits 2
watches 3
dtype: int64

处理这些 NaN 值

  • 如果 axis = 0,.dropna(axis) 方法将删除包含 NaN 值的任何行
  • 如果 axis = 1,.dropna(axis) 方法将删除包含 NaN 值的任何列
# 删除包含NaN值得任何行
store_items.dropna(axis = 0)

显示为:

store_items.dropna(axis = 1)

显示为:

注意:

- .dropna() 方法不在原地地删除具有 NaN 值的行或列。
- 原始 DataFrame 不会改变。你始终可以在 dropna() 方法中将关键字 inplace 设为 True,在原地删除目标行或列。

将NaN值替换为合适的值

我们不再删除 NaN 值,而是将它们替换为合适的值。例如,我们可以选择将所有 NaN 值替换为 0。为此,我们可以使用 .fillna() 方法

store_items.fillna(0)

显示:

我们还可以使用 .fillna() 方法将 NaN 值替换为 DataFrame 中的上个值,称之为前向填充

.fillna(method = 'ffill', axis) 将通过前向填充 (ffill) 方法沿着给定 axis 使用上个已知值替换 NaN 值

store_items.fillna(method = 'ffill', axis = 0)

显示:

注意 store 3 中的两个 NaN 值被替换成了它们所在列中的上个值。

但是注意, store 1 中的 NaN 值没有被替换掉。因为这列前面没有值,因为 NaN 值是该列的第一个值。

现在,使用上个行值进行前向填充

store_items.fillna(method = 'ffill', axis = 1)

显示:

在这种情况下:所有 NaN 值都被替换成了之前的行值

同时,也可以选择用 DataFrame 中之后的值替换 NaN 值,称之为后向填充

# 向后填充列,即为NaN的列值,用其列中的后一个来填充
store_items.fillna(method = 'backfill', axis = 0)

同理:也可以向后填充行,即为NaN的行值,用其行中的后一个来填充

# 向后填充行,即为NaN的行值,用其行中的后一个来填充
store_items.fillna(method = 'backfill', axis = 1)

注意:.fillna() 方法不在原地地替换(填充)NaN 值。也就是说,原始 DataFrame 不会改变。你始终可以在 fillna() 函数中将关键字 inplace 设为 True,在原地替换 NaN 值。

还可以选择使用不同的插值方法替换 NaN 值

.interpolate(method = 'linear', axis) 方法将通过 linear 插值使用沿着给定 axis 的值替换 NaN 值, 这个差值也就是前后或者上下的中间值

store_items.interpolate(method = 'linear', axis = 0)

同时,也可用行值插入

store_items.interpolate(method = 'linear', axis = 1)

和我们看到的其他方法一样,.interpolate() 方法不在原地地替换 NaN 值,图片就省略了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python实现求笛卡尔乘积的方法

    Python实现求笛卡尔乘积的方法

    这篇文章主要介绍了Python实现求笛卡尔乘积的方法,结合实例形式分析了Python计算笛卡尔乘积的原理与实现技巧,需要的朋友可以参考下
    2017-09-09
  • 浅析python协程相关概念

    浅析python协程相关概念

    本篇文章给大家分析了一下python协程的概念以及代码相关实例,有兴趣的朋友跟着小编学习下吧。
    2018-01-01
  • Python中操作各种多媒体,视频、音频到图片的代码详解

    Python中操作各种多媒体,视频、音频到图片的代码详解

    这篇文章主要介绍了Python玩转各种多媒体,视频、音频到图片,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • Python重写父类的三种方法小结

    Python重写父类的三种方法小结

    本文主要介绍了Python重写父类的三种方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-03-03
  • python数组的复制与列表中的pop

    python数组的复制与列表中的pop

    这篇文章主要介绍了python数组的复制与列表中的pop, Python 中复制数组有只需使用赋值运算符、浅拷贝、深拷贝三种方法,下文详细内容需要的小伙伴可以参考一下
    2022-04-04
  • 浅谈python3 构造函数和析构函数

    浅谈python3 构造函数和析构函数

    这篇文章主要介绍了浅谈python3 构造函数和析构函数,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • pytorch通过训练结果的复现设置随机种子

    pytorch通过训练结果的复现设置随机种子

    这篇文章主要介绍了pytorch通过训练结果的复现设置随机种子的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-06-06
  • pyinstaller将python程序打包为可执行文件

    pyinstaller将python程序打包为可执行文件

    这篇文章主要介绍了pyinstaller将python程序打包为可执行文件,pyinstaller是一个python打包工具,它将python程序及所需依赖都打包成一个可执行文件
    2022-08-08
  • Python多线程使用方法详细讲解

    Python多线程使用方法详细讲解

    这篇文章主要介绍了Python中的多线程实例,一个CPU,将时间切成一片一片的,CPU轮转着去处理一件一件的事情,到了规定的时间片就处理下一件事情,更多的相关内容需要的小伙伴可以参考下面文章详细
    2022-10-10
  • Python正则表达式如何进行字符串替换实例

    Python正则表达式如何进行字符串替换实例

    Python正则表达式在使用中会经常应用到字符串替换的代码。这篇文章主要介绍了Python正则表达式如何进行字符串替换,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
    2016-12-12

最新评论