python pandas dataframe 去重函数的具体使用

 更新时间:2020年07月20日 10:45:21   作者:张某人ER  
这篇文章主要介绍了python pandas dataframe 去重函数的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame
 
data = DataFrame({'k': [1, 1, 2, 2]})
 
print data
 
IsDuplicated = data.duplicated()
 
print IsDuplicated
print type(IsDuplicated)
 
data = data.drop_duplicates()
print data

执行结果是:

   k
0  1
1  1
2  2
3  2

0    False
1     True
2    False
3     True

   k
0  1
2  2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
  • subset: 列名,可选,默认为None
    • keep: {‘first', ‘last', False}, 默认值 ‘first'
    • first: 保留第一次出现的重复行,删除后面的重复行。
    • last: 删除重复项,除了最后一次出现。
  • False: 删除所有重复项。
  • inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 聊聊pytorch中Optimizer与optimizer.step()的用法

    聊聊pytorch中Optimizer与optimizer.step()的用法

    这篇文章主要介绍了pytorch中Optimizer与optimizer.step()的用法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • Python获取二维矩阵每列最大值的方法

    Python获取二维矩阵每列最大值的方法

    下面小编就为大家分享一篇Python获取二维矩阵每列最大值的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • python批量处理txt文件的实例代码

    python批量处理txt文件的实例代码

    这篇文章主要介绍了python批量处理txt文件的实例代码,代码简单易懂,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • python str转json的具体步骤

    python str转json的具体步骤

    使用Python内置的json模块,可以将str转换为JSON,本文给大家介绍python str转json的具体步骤,文中补充介绍了Python-字符串str和json格式的转换问题,感兴趣的朋友一起看看吧
    2024-01-01
  • 在python的WEB框架Flask中使用多个配置文件的解决方法

    在python的WEB框架Flask中使用多个配置文件的解决方法

    所谓配置文件管理,就是在不改变源代码的前提下,拥有两套(甚至多套)配置文件,分别用于开发环境和生产环境,通过命令行选择配置文件
    2014-04-04
  • Python备份Mysql脚本

    Python备份Mysql脚本

    特点是多平台,一个脚本内可以备份多个数据库,并分别打包上传到ftp进行备份。调用了mysqldump及tar来进行数据库dump及打包。 具体参数说明参见源文件
    2008-08-08
  • django 利用Q对象与F对象进行查询的实现

    django 利用Q对象与F对象进行查询的实现

    这篇文章主要介绍了django 利用Q对象与F对象进行查询的实现,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • django基础之数据库操作方法(详解)

    django基础之数据库操作方法(详解)

    下面小编就为大家带来一篇django基础之数据库操作方法(详解)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-05-05
  • 如何利用python脚本自动部署k8s

    如何利用python脚本自动部署k8s

    这篇文章主要介绍了利用python脚本自动部署k8s的方法,本文通过脚本代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-08-08
  • 一文带你探索Python中的eventlet通信机制

    一文带你探索Python中的eventlet通信机制

    这篇文章主要为大家详细介绍了Python中的eventlet通信机制的相关知识,文中的示例代码讲解详细,对我们深入了解Python有一定帮助,需要的可以参考一下
    2023-06-06

最新评论