Pandas统计重复的列里面的值方法

 更新时间:2019年01月30日 08:58:00   作者:耗子来啦  
今天小编就为大家分享一篇Pandas统计重复的列里面的值方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

pandas

代码如下:

import pandas as pd
import numpy as np

salaries = pd.DataFrame({
 'name': ['BOSS', 'Lilei', 'Lilei', 'Han', 'BOSS', 'BOSS', 'Han', 'BOSS'],
 'Year': [2016, 2016, 2016, 2016, 2017, 2017, 2017, 2017],
 'Salary': [1, 2, 3, 4, 5, 6, 7, 8],
 'Bonus': [2, 2, 2, 2, 3, 4, 5, 6]
})
print(salaries)
print(salaries['Bonus'].duplicated(keep='first'))
print(salaries[salaries['Bonus'].duplicated(keep='first')].index)
print(salaries[salaries['Bonus'].duplicated(keep='first')])
print(salaries['Bonus'].duplicated(keep='last'))
print(salaries[salaries['Bonus'].duplicated(keep='last')].index)
print(salaries[salaries['Bonus'].duplicated(keep='last')])

输出如下:

 Bonus Salary Year name
0  2  1 2016 BOSS
1  2  2 2016 Lilei
2  2  3 2016 Lilei
3  2  4 2016 Han
4  3  5 2017 BOSS
5  4  6 2017 BOSS
6  5  7 2017 Han
7  6  8 2017 BOSS
0 False
1  True
2  True
3  True
4 False
5 False
6 False
7 False
Name: Bonus, dtype: bool
Int64Index([1, 2, 3], dtype='int64')
 Bonus Salary Year name
1  2  2 2016 Lilei
2  2  3 2016 Lilei
3  2  4 2016 Han
0  True
1  True
2  True
3 False
4 False
5 False
6 False
7 False
Name: Bonus, dtype: bool
Int64Index([0, 1, 2], dtype='int64')
 Bonus Salary Year name
0  2  1 2016 BOSS
1  2  2 2016 Lilei
2  2  3 2016 Lilei

非pandas

对于如nunpy中的这些操作主要如下:

假设有数组

a = np.array([1, 2, 1, 3, 3, 3, 0])

想找出 [1 3]

则有

方法1

m = np.zeros_like(a, dtype=bool)
m[np.unique(a, return_index=True)[1]] = True
a[~m]
方法2

a[~np.in1d(np.arange(len(a)), np.unique(a, return_index=True)[1], assume_unique=True)]
方法3

np.setxor1d(a, np.unique(a), assume_unique=True)
方法4

u, i = np.unique(a, return_inverse=True)
u[np.bincount(i) > 1]
方法5

s = np.sort(a, axis=None)
s[:-1][s[1:] == s[:-1]]

参考:https://stackoverflow.com/questions/11528078/determining-duplicate-values-in-an-array

以上这篇Pandas统计重复的列里面的值方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python实现Word文档样式批量处理

    Python实现Word文档样式批量处理

    这篇文章主要为大家详细介绍了如何利用Python中的python-docx非标准库实现word文档样式批量处理,文中示例代码讲解详细,感兴趣的可以了解一下
    2022-05-05
  • 浅谈pytorch中的nn.Sequential(*net[3: 5])是啥意思

    浅谈pytorch中的nn.Sequential(*net[3: 5])是啥意思

    这篇文章主要介绍了pytorch中的nn.Sequential(*net[3: 5])是啥意思,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • Python如何遍历JSON所有数据

    Python如何遍历JSON所有数据

    这篇文章主要介绍了Python如何遍历JSON所有数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-08-08
  • Python利用PyMuPDF实现PDF文件处理

    Python利用PyMuPDF实现PDF文件处理

    PyMuPDF是MuPDF的Python绑定-“轻量级PDF和XPS查看器”。本文将利用PyMuPDF实现PDF的一些基本操作,文中的示例代码讲解详细,感兴趣的可以了解一下
    2022-05-05
  • Python实现计算长方形面积(带参数函数demo)

    Python实现计算长方形面积(带参数函数demo)

    今天小编就为大家分享一篇Python实现计算长方形面积(带参数函数demo),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python的virtualenv虚拟环境常见问题和命令

    python的virtualenv虚拟环境常见问题和命令

    在Python中,venv是一个用于创建和管理虚拟环境的模块,虚拟环境可以帮助你在项目之间隔离不同的Python包和依赖关系,这篇文章主要介绍了python的virtualenv虚拟环境常见问题和命令,需要的朋友可以参考下
    2024-07-07
  • 名片管理系统python版

    名片管理系统python版

    这篇文章主要为大家详细介绍了名片管理系统python版的相关代码,数据保存导入Excel,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01
  • Ubuntu下Anaconda和Pycharm配置方法详解

    Ubuntu下Anaconda和Pycharm配置方法详解

    这篇文章主要为大家详细介绍了Ubuntu下Anaconda和Pycharm配置方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-06-06
  • 在 Python 中使用通配符匹配字符串的方法

    在 Python 中使用通配符匹配字符串的方法

    这篇文章主要介绍了在 Python 中使用通配符匹配字符串的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • Python 获取指定开头指定结尾所夹中间内容(推荐)

    Python 获取指定开头指定结尾所夹中间内容(推荐)

    获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的,今天小编给大家介绍通过Python 获取指定开头指定结尾所夹中间内容,感兴趣的朋友一起看看吧
    2023-02-02

最新评论