Pandas中的unique()和nunique()区别详解

更新时间：2022年08月08日 11:04:45 作者：追风少年？

Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法，本文详细的介绍了两者的区别，具有一定的参考价值，感兴趣的可以了解一下

Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法。这两个方法作用很简单，都是求Series或Pandas中的不同值。而unique()方法返回的是去重之后的不同值，而nunique()方法则直接放回不同值的个数。

具体如下：

如果Series或DataFrame中没有None值，则unique()方法返回的序列数据的长度等于nunique()方法的返回值（如上述代码中所展示的）。则当Series或DataFrame中有None值时，这两个就不一定相等了。具体如下：

从上述结果可知, nunique(）可以通过参数dropna来自定义设置在统计不同值过程中是否需要包含None值，而unique()方法中没有可设置的参数，该方法在统计时无法排除None值。

1 unique()

统计list中的不同值时，返回的是array.它有三个参数，可分别统计不同的量，返回的都是array.

当list中的元素也是list时，尽量不要用这种方法.

import numpy as np
a = [1,5,4,2,3,3,5]
# 返回一个array
print(np.unique(a))
# [1 2 3 4 5]
 
# 返回该元素在list中第一次出现的索引
print(np.unique(a,return_index=True))
# (array([1, 2, 3, 4, 5]), array([0, 3, 4, 2, 1]))
 
# 返回原list中每个元素在新的list中对应的索引
print(np.unique(a,return_inverse=True))
# (array([1, 2, 3, 4, 5]), array([0, 4, 3, 1, 2, 2, 4]))
 
# 返回该元素在list中出现的次数
print(np.unique(a,return_counts=True))
# (array([1, 2, 3, 4, 5]), array([1, 1, 2, 1, 2]))
 
# 当加参数时，unique()返回的是一个tuple,这里利用了tuple的性质，即有多少个元素即可赋值给对应的多少个变量
p,q,m,n = np.unique(a,return_index=True,return_inverse=True,return_counts=True)
print(p,q,m,n)
# [1 2 3 4 5] [0 3 4 2 1] [0 4 3 1 2 2 4] [1 1 2 1 2]
 
# 注意当list中的元素不是数字而是list的时候,输出的数据类型与list中元素的长度有关
# 利用这种方法对list中元素去重或求里面元素的个数都不是好方法，很容易出错

统计series中的不同值时，返回的是array，它没有其它参数

import pandas as pd
se = pd.Series([1,3,4,5,2,2,3])
print(se.unique())
# [1 3 4 5 2]

2.nunique()

可直接统计dataframe中每列的不同值的个数,也可用于series,但不能用于list.返回的是不同值的个数.

df=pd.DataFrame({'A':[0,1,1],'B':[0,5,6]})
print(df)
print(df.nunique())
#    A  B
# 0  0  0
# 1  1  5
# 2  1  6
# A    2
# B    3
# dtype: int64

也可与groupby结合使用,统计每个块的不同值的个数.

all_user_repay = all_user_repay.groupby(['user_id'])['listing_id'].agg(['nunique']).reset_index()
#    user_id  nunique
# 0       40        1
# 1       56        1
# 2       98        1
# 3      103        1
# 4      122        1

到此这篇关于Pandas中的unique()和nunique()区别详解的文章就介绍到这了,更多相关Pandas unique()和nunique()内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

有关Python的22个编程技巧
本文给大家分享python的22个编程技巧，非常不错，具有一定的参考借鉴价值，需要的朋友参考下吧
2018-08-08
Pycharm添加虚拟解释器报错问题解决方案
这篇文章主要介绍了Pycharm添加虚拟解释器报错问题解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-10-10
pytest-fixture简介及其用法讲解
这篇文章主要介绍了pytest-fixture及其用法,最基本的用法就是一个fixture作为一个测试用例的参数传入，然后就可以在该测试用例中使用该fixture，需要的朋友可以参考下
2023-01-01
Django REST Framework之频率限制的使用
这篇文章主要介绍了Django REST Framework之频率限制的使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-09-09
Python封装adb命令的操作详解
在日常的 Android 项目开发中,我们通常会使用 adb 命令来获取连接设备的内存、屏幕、CPU等信息,这些信息的获取,每次都在command 中输入相关命令进行重复的操作让人感到厌倦和疲乏,现在,可以尝试使用 python 来简化这一部分工作,所以本文介绍了Python封装adb命令的操作
2024-01-01
Django CBV与FBV原理及实例详解
这篇文章主要介绍了Django CBV与FBV原理及实例详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Python map及filter函数使用方法解析
这篇文章主要介绍了Python map及filter函数使用方法解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-08-08
提升Python代码质量巧妙整理包引入顺序
在Python编程中,优化导入包的顺序可以提高代码的可读性、可维护性和性能,一个良好的导入顺序不仅使代码更易于理解,还可以帮助减少潜在的循环依赖和提高导入速度,本文将介绍如何快速、有效地优化Python导入包的顺序,并提供丰富的示例代码以帮助更好地理解
2024-01-01
使用python requests模块发送http请求及接收响应的方法
用 python 编写 http request 消息代码时,建议用requests库,因为requests比urllib内置库更为简捷,requests可以直接构造get,post请求并发送,本文给大家介绍了使用python requests模块发送http请求及接收响应的方法,需要的朋友可以参考下
2024-03-03
Python Melt函数将宽格式的数据表转换为长格式
在数据处理和清洗中,melt函数是Pandas库中一个强大而灵活的工具,它的主要功能是将宽格式的数据表转换为长格式,从而更方便进行分析和可视化,本文将深入探讨melt函数的用法、参数解析以及实际应用场景
2023-12-12

Pandas中的unique()和nunique()区别详解

1 unique()

2.nunique()

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具