Pandas 中的 drop_duplicates()详解

 更新时间:2023年09月26日 11:25:53   作者:红水母  
Pandas 中的 drop_duplicates() 函数用于从 DataFrame 中删除重复的行,该函数有一些参数,允许你进行不同方式的重复行处理,本文给大家介绍Pandas 中的 drop_duplicates(),感兴趣的朋友跟随小编一起看看吧

Pandas 中的 drop_duplicates()

Pandas 中的 drop_duplicates() 函数用于从 DataFrame 中删除重复的行。该函数有一些参数,允许你进行不同方式的重复行处理。以下是 drop_duplicates() 函数的主要参数解析:

subset(可选参数):

作用:指定要考虑重复的列。

默认值:None,表示考虑整个行的重复。

示例:df.drop_duplicates(subset=[‘column1’, ‘column2’])

keep(可选参数):

作用:指定保留哪些重复行。

可选值:‘first’:保留第一次出现的重复行(默认值)。

‘last’:保留最后一次出现的重复行。

False:删除所有重复行,不保留任何重复行。示例:df.drop_duplicates(keep=‘last’)

inplace(可选参数):

作用:如果设置为 True,将在原始 DataFrame 上执行删除操作,不返回新的 DataFrame。

默认值:False,表示返回一个新的 DataFrame,原始 DataFrame 不受影响。

示例:df.drop_duplicates(inplace=True)

ignore_index(可选参数):

作用:如果设置为 True,删除后的 DataFrame 将重新索引,以便索引从零开始。

默认值:False。

示例:df.drop_duplicates(ignore_index=True)

subset 和 keep 参数的组合:

通常,subset 参数用于指定要考虑重复的列,而 keep 参数用于控制保留哪些重复行。例如,df.drop_duplicates(subset=[‘column1’, ‘column2’], keep=‘last’) 表示在 ‘column1’ 和 ‘column2’ 列上考虑重复,但保留最后一次出现的重复行。

drop_duplicates() 函数通常用于数据清洗,以删除数据中的重复记录,以便进行分析或建模。

你可以根据具体的需求使用不同的参数组合来执行不同的重复行处理操作。

补充:

Pandas-去重函数drop_duplicates()详解

Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates(),本节对该函数的用法做详细介绍。

格式介绍

drop_duplicates()函数的语法格式如下:

data.drop_duplicates(subset=['a','b','b'],keep='first',inplace=True)

参数说明如下:
subset:表示要进去重的列名,默认为 None。
keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。
inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项。

示例数据

代码:

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
print (data)

打印结果

实际应用

1、默认保留第一次出现的重复项

代码:

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates()
print (data_del)

打印结果

在这里插入图片描述

2、删除所有重复项

代码:

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates(keep=False)
print (data_del)

打印结果

在这里插入图片描述

3、根据指定列标签去重

代码:

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates(subset=['b'],keep=False)
print (data_del)

打印结果

在这里插入图片描述

4、指定多列同时去重

代码:

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates(subset=['b','c'],keep=False)
print (data_del)

打印结果

到此这篇关于Pandas 中的 drop_duplicates()的文章就介绍到这了,更多相关Pandas drop_duplicates()内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python中round函数保留两位小数的方法

    python中round函数保留两位小数的方法

    在本篇内容里小编给各位分享的是一篇关于python中round函数保留两位小数的方法及相关知识点,有兴趣的朋友们可以学习下。
    2020-12-12
  • python中numpy 数组过滤详解

    python中numpy 数组过滤详解

    这篇文章主要介绍了python中numpy 数组过滤详解的相关资料,需要的朋友可以参考下
    2023-06-06
  • Numpy中的repeat函数使用

    Numpy中的repeat函数使用

    Numpy是Python强大的数学计算库,和Scipy一起构建起Python科学计算生态,在本节下面我们重点介绍下repeat函数的用法,需要的朋友可以参考下
    2022-11-11
  • 跟老齐学Python之类的细节

    跟老齐学Python之类的细节

    前面对类的有关内容已经描述不少了,其实话题远远没有结束,不过对于初学者,掌握这些已经算是入门,在以后的实践中,还需要进行体会和感悟。
    2014-10-10
  • 微信跳一跳辅助python代码实现

    微信跳一跳辅助python代码实现

    这篇文章主要为大家详细介绍了微信跳一跳辅助的python代码实现资料,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • django中静态文件配置static的方法

    django中静态文件配置static的方法

    我们可以使用Template 设置我们的网页,同时,一个完美的网页需要css,js,image 等静态文件的支持,这篇文章主要介绍了django中静态文件配置static的方法,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • Tensorflow 查看变量的值方法

    Tensorflow 查看变量的值方法

    今天小编就为大家分享一篇Tensorflow 查看变量的值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • Python Django 前后端分离 API的方法

    Python Django 前后端分离 API的方法

    今天小编就为大家分享一篇Python Django 前后端分离 API的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • Python中数组,列表:冒号的灵活用法介绍(np数组,列表倒序)

    Python中数组,列表:冒号的灵活用法介绍(np数组,列表倒序)

    下面小编就为大家分享一篇Python中数组,列表:冒号的灵活用法介绍(np数组,列表倒序),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • 如何使用Python的OpenCV库处理图像和视频

    如何使用Python的OpenCV库处理图像和视频

    基于opencv可以显示图片,并进行相应的处理,下面这篇文章主要给大家介绍了关于如何使用Python的OpenCV库处理图像和视频的相关资料,需要的朋友可以参考下
    2022-10-10

最新评论