pandas数据处理之取出重复数据实践

 更新时间:2026年04月22日 09:13:40   作者:星越华夏  
本文介绍了使用Pandas库处理重复数据的方法,方法一通过将duplicate_bool设为True,保留重复数据;方法二通过两次drop_duplicates操作,得到重复数据

pandas取出重复数据

平常我们用pandas做重复数据处理时,常常调用到drop_duplicates方法来去除重。

现在我不想完全去除重复,而是把重复数据输出,现有数据如下所示:

dic = {'序号':[2,3,4,5,6,7,8,9,10,11,12,13,14,15],'地市缩写': ['LF', 'CZ', 'HS', 'ZJ', 'TS', 'HD', '广阳', 'CD', 'QH', 'XT', 'XA', 'BD', 'SJ', '栾城'],
       '地市': ['廊坊', '沧州', '衡水', '张家口', '唐山', '邯郸', '廊坊', '承德', '秦皇岛', '邢台', '雄安', '保定',
                '石家庄', '石家庄']}
p_city = pd.DataFrame(dic)
print(p_city )

输出:

方法一

重复数据保留一个,duplicate_bool输出的是bool类型值,通过判断bool==True,取出重复行。

duplicate_bool = p_city.duplicated(subset=['地市'], keep='first')
print(duplicate_bool )
repeat =p_city.loc[duplicate_bool == True]
print(repeat)

输出:

方法二

采用drop_duplicates对数据去两次重,一次将重复数据全部去除(keep=False),一次将重复数据保留一个(keep=last/first),将两个去重后的数据做差集,取出重复行。

# 重复数据全部去除
data1 = p_city.drop_duplicates(subset=['地市'], keep=False)
print(data1)

输出:

# 重复数据保留一个
data2 = p_city.drop_duplicates(subset=['地市'], keep='last')
print(data2)

输出:

# 做差集,取出重复行
data1 = p_city.drop_duplicates(subset=['地市'], keep=False)
data2 = p_city.drop_duplicates(subset=['地市'], keep='last')
repeat = pd.concat([data2,data1]).drop_duplicates(keep=False)
print(repeat)

输出:

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python Selenium截图功能实现代码

    Python Selenium截图功能实现代码

    这篇文章主要介绍了Python Selenium截图功能实现代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • python re模块findall()函数实例解析

    python re模块findall()函数实例解析

    这篇文章主要介绍了python re模块findall()函数实例解析,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • 浅谈tensorflow与pytorch的相互转换

    浅谈tensorflow与pytorch的相互转换

    本文主要介绍了简单介绍一下tensorflow与pytorch的相互转换,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Python绘制饼图、圆环图的实例

    Python绘制饼图、圆环图的实例

    这篇文章主要介绍了Python绘制饼图、圆环图的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python能干什么、Python主要应用于哪些方面

    Python能干什么、Python主要应用于哪些方面

    无论是从入门级选手到专业级选手都在做的爬虫,还是Web程序开发、桌面程序开发还是科学计算、图像处理, Python都可以胜任。Python为我们提供了非常完善的基础代码库,覆盖了网络、文件、GUI、 数据库、文本等大量内容。用Python开发,许多功能不必从零编写
    2023-06-06
  • 在Python dataframe中出生日期转化为年龄的实现方法

    在Python dataframe中出生日期转化为年龄的实现方法

    这篇文章主要介绍了在Python dataframe中出生日期转化为年龄的实现方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-10-10
  • python利用拉链法实现字典方法示例

    python利用拉链法实现字典方法示例

    这篇文章主要介绍了python利用拉链法实现字典的方法,文中给出了详细的示例代码,相信对大家具有一定的参考价值,需要的朋友可以们下面来一起看看吧。
    2017-03-03
  • Python实现将Excel内容批量导出为PDF文件

    Python实现将Excel内容批量导出为PDF文件

    这篇文章主要为大家介绍了如何利用Python实现将Excel表格内容批量导出为PDF文件,文中的实现步骤讲解详细,感兴趣的小伙伴可以了解一下
    2022-04-04
  • python3.6.3安装图文教程 TensorFlow安装配置方法

    python3.6.3安装图文教程 TensorFlow安装配置方法

    这篇文章主要为大家详细介绍了python3.6.3及TensorFlow安装配置方法图文教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-09-09
  • 解决python spyder 突然打不开的问题

    解决python spyder 突然打不开的问题

    这篇文章主要介绍了解决python spyder 突然打不开的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05

最新评论