Pandas去除重复项函数详解drop_duplicates()

 更新时间:2024年02月20日 17:01:28   作者:ckSpark  
这篇文章主要介绍了Pandas去除重复项函数drop_duplicates(),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

drop_duplicates函数用途

pandas中的drop_duplicates()函数

可以通过SQL中关键字distinct的用法来理解

根据指定的字段对数据集进行去重处理

drop_duplicates()函数的具体参数

用法:

DataFrame.drop_duplicates(subset=None, keep=‘first', inplace=False)

参数说明:

参数说明
subset根据指定的列名进行去重,默认整个数据集
keep可选{‘first’, ‘last’, False},默认first,即默认保留第一次出现的重复值,并删去其他重复的数据,False是指删去所有重复数据。
inplace是否对数据集本身进行修改,默认False

drop_duplicates用法举例

根据指定字段进行去重

保留第一次出现的数据

import pandas as pd
#创建数据框
df=pd.DataFrame({
    'a':[1,2,4,3,3,3,4],
    'b':[2,3,3,4,4,5,3]
})
print('去重前:\n',df)

#根据字段a进行去重,保留第一次出现的数据
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重后:\n',df)

>>>
去重前:
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
4  3  4
5  3  5
6  4  3
去重后:
    a  b
0  1  2
1  2  3
2  4  3
3  3  4

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python实现滑雪者小游戏

    python实现滑雪者小游戏

    这篇文章主要为大家详细介绍了python实现滑雪者小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-02-02
  • Python随机数种子(random seed)的设置小结

    Python随机数种子(random seed)的设置小结

    随机数种子是控制伪随机数生成器的初始值,通过设置相同的种子,可以确保随机数序列的一致性,本文主要介绍了Python随机数种子(random seed)的设置,感兴趣的可以了解一下
    2025-03-03
  • 解析Python中的__getitem__专有方法

    解析Python中的__getitem__专有方法

    __getitem__是Python双下划线包围的special method之一,这里我们就来解析Python中的__getitem__专有方法的使用,需要的朋友可以参考下:
    2016-06-06
  • python中有帮助函数吗

    python中有帮助函数吗

    在本篇文章里小编给大家分享的是一篇关于python帮助函数详解内容,有兴趣的朋友们可以学习下。
    2020-06-06
  • Python pydash库处理大规模数据集执行复杂操作

    Python pydash库处理大规模数据集执行复杂操作

    在数据处理和分析领域,Python一直是一种强大的编程语言,然而,在处理大规模数据集和执行复杂操作时,有时候需要更高效的工具,在本文中,我们将深入探讨pydash库,这是一个专注于提高Python代码性能的工具
    2023-12-12
  •  python 中的条件判断语句的使用介绍

     python 中的条件判断语句的使用介绍

    这篇文章主要介绍了 python 中的条件判断语句的使用,主要学习内容有封装过于复杂的逻辑判断,不同分支下的重复代码等,更多相关内容,需要的小伙伴可以参考下面文章详细介绍内容
    2022-03-03
  • 如何读取.npy文件以及如何实现将数组保存为图片

    如何读取.npy文件以及如何实现将数组保存为图片

    这篇文章主要介绍了如何读取.npy文件以及如何实现将数组保存为图片问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python基础之python循环控制语句break/continue详解

    Python基础之python循环控制语句break/continue详解

    Python中提供了两个关键字用来控制循环语句,分别是break和continue,接下来通过两个案例来区分这两个控制语句的不同,感兴趣的朋友一起看看吧
    2021-09-09
  • Python 虚拟环境的价值和常用命令详解

    Python 虚拟环境的价值和常用命令详解

    在实际项目开发中,我们通常会根据自己的需求去下载各种相应的框架库,如Scrapy、Beautiful Soup等,但是可能每个项目使用的框架库并不一样,或使用框架的版本不一样,今天给大家分享下Python 虚拟环境的价值和常用命令,感兴趣的朋友一起看看吧
    2022-05-05
  • Python的Django框架使用入门指引

    Python的Django框架使用入门指引

    这篇文章主要介绍了Python的Django框架使用入门指引,本文来自于IBM官方网站技术文档,需要的朋友可以参考下
    2015-04-04

最新评论