pandas中DataFrame检测重复值的实现

 更新时间:2021年05月26日 10:20:10   作者:乘风破浪的熊爸  
本文主要介绍了pandas DataFrame检测重复值,主要包括了检查整行整列的检测,以及多列是否重复,需要的朋友们下面随着小编来一起学习学习吧

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df 

在这里插入图片描述

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()

结果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")

结果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重复的为True
df.duplicated(keep=False)

结果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')

结果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])

结果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 显示重复记录,通过布尔索引
df[df.duplicated()]

在这里插入图片描述

# 查询重复值的个数。
df.duplicated().sum()

结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用Python的Twisted框架编写简单的网络客户端

    使用Python的Twisted框架编写简单的网络客户端

    这篇文章主要介绍了使用Python的Twisted框架编写简单的网络客户端,翻译自Twisted文档,包括一个简单的IRC客户端的实现,需要的朋友可以参考下
    2015-04-04
  • Python离线安装包教程分享

    Python离线安装包教程分享

    这篇文章主要介绍了Python离线安装包教程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Django实现drf搜索过滤和排序过滤

    Django实现drf搜索过滤和排序过滤

    当我们需要对后台的数据进行过滤的时候,drf有两种,搜索过滤和排序过滤。本文就详细的介绍这两种的实现,感兴趣的可以了解一下
    2021-06-06
  • 基于OpenCV4.2实现单目标跟踪

    基于OpenCV4.2实现单目标跟踪

    这篇文章主要介绍了如何和何时使用OpenCV 4.2中可用的8种不同的跟踪器- BOOSTING, MIL, KCF, TLD, MEDIANFLOW, GOTURN, MOSSE和CSRT,并用他们实现单目标跟踪,需要的可以参考一下
    2022-03-03
  • Python 中的 typing 模块常见用法

    Python 中的 typing 模块常见用法

    Python的typing模块提供类型提示功能,增强代码可读性和类型安全性,通过定义变量、参数、返回值的类型,可以帮助IDE和静态分析工具提高代码质量,支持List、Dict、Tuple等类型定义,以及Optional、Union、Any等高级用法,还可以使用mypy等工具进行类型检查
    2024-09-09
  • Python可视化学习之seaborn绘制线型回归曲线

    Python可视化学习之seaborn绘制线型回归曲线

    这篇文章主要为大家介绍了如何利用seaborn绘制变量之间线型回归(linear regression)曲线,2文中涉及如下两个重要函数:seaborn.regplot和seaborn.lmplot,感兴趣的小伙伴可以跟随小编一起学习一下
    2022-02-02
  • Python爬虫_城市公交、地铁站点和线路数据采集实例

    Python爬虫_城市公交、地铁站点和线路数据采集实例

    下面小编就为大家分享一篇Python爬虫_城市公交、地铁站点和线路数据采集实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-01-01
  • Python实现学生管理系统的示例代码

    Python实现学生管理系统的示例代码

    学生管理系统是一个常见的应用程序,它可以帮助学校、教育机构或教师管理学生的信息,本文将介绍如何利用Python开发一个学生管理系统,需要的可以参考一下
    2023-07-07
  • Python中关于print和return的区别

    Python中关于print和return的区别

    这篇文章主要介绍了Python中关于print和return的区别,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • 学会这29个常用函数,你就是Pandas专家

    学会这29个常用函数,你就是Pandas专家

    Pandas 无疑是 Python 处理表格数据最好的库之一,但是很多新手无从下手,这里总结出最常用的 29 个函数,感兴趣的小伙伴可以跟随小编一起学习一下
    2022-11-11

最新评论