详解pandas使用drop_duplicates去除DataFrame重复项参数

 更新时间:2019年08月01日 11:12:45   作者:OraYang  
这篇文章主要介绍了详解pandas使用drop_duplicates去除DataFrame重复项参数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

Pandas之drop_duplicates:去除重复项

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional 用来指定特定的列,默认所有列
  • keep : {‘first', ‘last', False}, default ‘first' 删除重复项并保留第一次出现的项
  • inplace : boolean, default False 是直接在原来数据上修改还是保留一个副本

DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下:

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行,是默认值。keep另外两个取值为"last"和False,分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。

将副本赋值给dataframe:

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效,但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误:

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame. 

所以如果想对DataFrame去重,最好采用开头提到的那行代码。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • pandas读取Excel批量转换时间戳的实践

    pandas读取Excel批量转换时间戳的实践

    本文主要介绍了pandas读取Excel批量转换时间戳的实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • python实现有序遍历dict(字典)

    python实现有序遍历dict(字典)

    这篇文章主要介绍了python实现有序遍历dict(字典),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • 详解基于django实现的webssh简单例子

    详解基于django实现的webssh简单例子

    这篇文章主要介绍了基于 django 实现的 webssh 简单例子,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • python脚本第一行如何写

    python脚本第一行如何写

    在本篇内容里小编给大家整理的是一篇关于python脚本第一行如何写相关文章,有需要的朋友们可以参考下。
    2020-08-08
  • python 计算一个字符串中所有数字的和实例

    python 计算一个字符串中所有数字的和实例

    今天小编就为大家分享一篇python 计算一个字符串中所有数字的和实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python 命令行解析工具 argparse基本用法

    Python 命令行解析工具 argparse基本用法

    在工作中,我们经常需要从命令行当中解析出指定的参数,而 Python 也提供了相应的标准库来做这件事情,比如 sys, optparse, getopt, argparse,这里面功能最强大的莫过于 argparse,下面就来看看它用法,需要的朋友可以参考下
    2022-12-12
  • python安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))问题解决

    python安装包出现Retrying (Retry(total=4, connect=None, read=No

    这篇文章主要给大家介绍了关于python安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))问题的解决方法,需要的朋友可以参考下
    2022-09-09
  • Python 最大概率法进行汉语切分的方法

    Python 最大概率法进行汉语切分的方法

    今天小编就为大家分享一篇Python 最大概率法进行汉语切分的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • python中from import的使用解读

    python中from import的使用解读

    本文总结了Python中from和import的使用方法,包括导入模块和导入模块中的对象,强调了模块和对象的概念,并给出了具体的使用示例,最后,建议根据代码维护性和团队编码风格来选择合适的导入方式
    2025-03-03
  • Python使用百度api做人脸对比的方法

    Python使用百度api做人脸对比的方法

    今天小编就为大家分享一篇Python使用百度api做人脸对比的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08

最新评论