python常用数据重复项处理方法

 更新时间:2019年11月22日 14:54:48   作者:另一个起点  
在本篇文章里小编给大家整理的是关于python常用数据重复项处理方法,需要的朋友们参考下。

在数据的处理过程中,一般都需要进行数据清洗工作,如数据集是否存在重复,是否存在缺失,数据是否具有完整性和一致性,数据中是否存在异常值等.发现诸如此类的问题都需要针对性地处理,下面我们一起学习常用的数据清洗方法.

重复观测处理

重复观测:指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数据分析和建模之前需要进行观测的重复性检验,如果存在重复观测,

还需要进行重复项的删除

在数据的收集过程中,可能会存在重复观测的出现,例如通过网络爬虫,就比较容易产生重复数据.如下表,是通过爬虫获得某APP市场中电商类APP的下载量数据(部分)

通过观测可以看出唯品会和当当出现了三次.如果收集上来的不是10行,而是10万行,甚至更多是,就无法通过肉眼的方式检测数据是否存在重复项了.

下面我们看用python怎么来处理重复项的检查,以及如何删除数据项中的重复项

代码:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('数据集是否存在重复观测: \n',any(df.duplicated()))

out:

数据集是否存在重复观测:

True

代码就是简单的两行就处理好了

可以看出检测数据集的记录是否存在重复,使用duplicated (英文单词的意思就是重复,复制的意思)方法,但是该方法返回的是数据集每一行的检验结果,为了能够得到最直接的结果,可以使用any函数,该函数表示的是在多个条件判断中,只有一个条件为True,则any函数的结果就为True.正如结果所示,any函数的运用返回True值,说明

该数据集是存在重复观测的.

删除数据集中的重复观测:

df.drop_duplicates(inplace = True)
df

得出的结果如上图所示,原先的10行在派出重复项后得到7行,被删除的行号为:3,8和9.该方法中又有inplace参数,设置为True就表示直接在原始数据集上做操作

以上就是本次介绍的全部知识点,感谢大家对脚本之家的支持。

相关文章

  • python控制台英汉汉英电子词典

    python控制台英汉汉英电子词典

    这篇文章主要为大家详细介绍了python控制台英汉汉英电子词典,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2014-06-06
  • Sanic框架配置操作分析

    Sanic框架配置操作分析

    这篇文章主要介绍了Sanic框架配置操作,简单分析了Sanic框架中常见的加载配置使用方法,并简单说明了内置配置的预定义变量与对应功能,需要的朋友可以参考下
    2018-07-07
  • Python Process创建进程的2种方法详解

    Python Process创建进程的2种方法详解

    这篇文章主要介绍了Python Process创建进程的2种方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • python pyinstaller打包exe报错的解决方法

    python pyinstaller打包exe报错的解决方法

    这篇文章主要给大家介绍了关于python pyinstaller打包exe报错的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者使用python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-11-11
  • python定时器(Timer)用法简单实例

    python定时器(Timer)用法简单实例

    这篇文章主要介绍了python定时器(Timer)用法,以一个简单实例形式分析了定时器(Timer)实现延迟调用的技巧,需要的朋友可以参考下
    2015-06-06
  • 安装Anaconda3及使用Jupyter的方法

    安装Anaconda3及使用Jupyter的方法

    这篇文章主要介绍了安装Anaconda3及使用Jupyter的方法,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-10-10
  • Python爬取网页中的图片(搜狗图片)详解

    Python爬取网页中的图片(搜狗图片)详解

    没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来。下面这篇文章主要给大家介绍了利用Python3.6爬取搜狗图片网页中图片的相关资料,需要的朋友可以参考下。
    2017-03-03
  • python数据可视化自制职位分析生成岗位分析数据报表

    python数据可视化自制职位分析生成岗位分析数据报表

    之前网上也有不少关于行业的分析数据,今天我们就根据不同岗位,公司类型规模,学历要求,薪资分布等来进行分析,把职位分析功能集合封装起来,做成一个小工具分享给大家吧
    2021-09-09
  • Python实现的在特定目录下导入模块功能分析

    Python实现的在特定目录下导入模块功能分析

    这篇文章主要介绍了Python实现的在特定目录下导入模块功能,结合实例形式分析了Python基于系统函数及import语句实现模块导入的相关操作技巧,需要的朋友可以参考下
    2019-02-02
  • Python多个MP4合成视频的实现方法

    Python多个MP4合成视频的实现方法

    最近接触了个项目,需要把多个文件合成一个视频,本文主要使用Python把多个MP4合成视频,感兴趣的可以了解一下
    2021-07-07

最新评论