Pandas计算元素的数量和频率的方法(出现的次数)

 更新时间:2023年02月22日 15:07:22   作者:饺子大人  
本文主要介绍了Pandas计算元素的数量和频率的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

在pandas.Series的pandas.DataFrame列中,将描述获取唯一元素数(不包括重复项的案例数)和每个元素的出现频率(出现数)的方法。

使用pandas.Series方法的unique(),value_counts()和nunique()。还提供了nunique()作为pandas.DataFrame的方法。

在这里:

  • pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表
  • pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。
  • pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。

在解释了基本用法之后,对一下内容进行介绍。

  • 唯一元素的数量(不包括重复项的)
  • 唯一元素值列表
  • 唯一元素的频率(出现次数)
  • 独特元素及其出现的字典
  • 模式及其频率
  • 归一化频率

以下面的数据为例。

import pandas as pd
import numpy as np

df = pd.read_csv('./data/15/sample_pandas_normal.csv')
df.iloc[1] = np.nan
print(df)
#       name   age state  point
# 0    Alice  24.0    NY   64.0
# 1      NaN   NaN   NaN    NaN
# 2  Charlie  18.0    CA   70.0
# 3     Dave  68.0    TX   70.0
# 4    Ellen  24.0    CA   88.0
# 5    Frank  30.0    NY   57.0

pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表

unique()返回唯一元素值的列表。一维NumPy数组ndarray类型而不是列表类型(Python内置类型)。还包括缺失值NaN。

u = df['state'].unique()
print(u)
print(type(u))
# ['NY' nan 'CA' 'TX']
# <class 'numpy.ndarray'>

pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。

value_counts()返回pandas.Series,其中唯一元素的值是index,出现的次数是data。当需要元素的频率(出现次数)时使用此选项。

vc = df['state'].value_counts()
print(vc)
print(type(vc))
# NY    2
# CA    2
# TX    1
# Name: state, dtype: int64
# <class 'pandas.core.series.Series'>

默认情况下,它按出现次数的降序排序,但是如果参数ascending = True,则以升序排序,如果参数sort = False,则不进行排序。

print(df['state'].value_counts(ascending=True))
# TX    1
# CA    2
# NY    2
# Name: state, dtype: int64

print(df['state'].value_counts(sort=False))
# CA    2
# NY    2
# TX    1
# Name: state, dtype: int64

默认情况下,NaN被排除,但如果参数dropna = False,则也计入NaN。

print(df['state'].value_counts(dropna=False))
# NY     2
# CA     2
# TX     1
# NaN    1
# Name: state, dtype: int64

如果指定了参数normalize = True,则将值归一化,以使总数变为1。

请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。

print(df['state'].value_counts(dropna=False, normalize=True))
# NY     0.333333
# CA     0.333333
# TX     0.166667
# NaN    0.166667
# Name: state, dtype: float64

pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。

pandas.Series.nunique()以整数int形式返回唯一元素的数量。

默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。

nu = df['state'].nunique()
print(nu)
print(type(nu))
# 3
# <class 'int'>

print(df['state'].nunique(dropna=False))
# 4

pandas.DataFrame.nunique()计算每列的唯一元素数。返回pandas.Series类型。

默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。

默认情况下,该值为每列,但是如果参数axis = 1或axis =‘columns’,则返回每行的值。

nu_col = df.nunique()
print(nu_col)
print(type(nu_col))
# name     5
# age      4
# state    3
# point    4
# dtype: int64
# <class 'pandas.core.series.Series'>

print(df.nunique(dropna=False))
# name     6
# age      5
# state    4
# point    5
# dtype: int64

print(df.nunique(dropna=False, axis='columns'))
# 0    4
# 1    1
# 2    4
# 3    4
# 4    4
# 5    4
# dtype: int64

唯一元素的数量(不包括重复项的)

如上所述,pandas.Series.nunique()和pandas.DataFrame.nunique()可以计算唯一元素的数量(唯一元素的数量)。

print(df['state'].nunique())
# 3

print(df.nunique())
# name     5
# age      4
# state    3
# point    4
# dtype: int64

唯一元素值列表

使用unique(),您可以获取NumPy数组ndarray类型的唯一元素值的列表。如果要使用列表类型(Python内置类型),则可以使用tolist()方法将其转换。

print(df['state'].unique().tolist())
print(type(df['state'].unique().tolist()))
# ['NY', nan, 'CA', 'TX']
# <class 'list'>

可以将tolist()方法应用于通过value_counts()获得的pandas.Series的索引。也可以作为NumPy数组ndarray类型的值来获取。

print(df['state'].value_counts().index.tolist())
print(type(df['state'].value_counts().index.tolist()))
# ['NY', 'CA', 'TX']
# <class 'list'>

print(df['state'].value_counts(dropna=False).index.values)
print(type(df['state'].value_counts().index.values))
# ['NY' 'CA' 'TX' nan]
# <class 'numpy.ndarray'>

如上所述,在unique()的情况下,始终包含NaN,但是value_counts()可以指定参数dropna是否包含NaN。

唯一元素的频率(出现次数)

要获取每个唯一元素的频率(出现次数),请访问通过value_counts()获得的pandas.Series的值。

print(df['state'].value_counts()['NY'])
# 2

print(df['state'].value_counts().NY)
# 2

使用iteritems()方法检索for循环中的元素值和频率(出现次数)。

for index, value in df['state'].value_counts().iteritems():
    print(index, ': ', value)
# NY :  2
# CA :  2
# TX :  1

独特元素及其出现的字典

也可以将to_dict()方法应用于value_counts()获得的pandas.Series使其成为字典。

d = df['state'].value_counts().to_dict()
print(d)
print(type(d))
# {'NY': 2, 'CA': 2, 'TX': 1}
# <class 'dict'>

print(d['NY'])
# 2

使用items()方法在for循环中检索元素值和频率(出现次数)。

for key, value in d.items():
    print(key, ': ', value)
# NY :  2
# CA :  2
# TX :  1

模式及其频率

默认情况下,value_counts()返回pandas.Series,它以出现次数的降序排列,因此顶部是最频繁出现的值及其频率。

print(df['state'].value_counts())
# NY    2
# CA    2
# TX    1
# Name: state, dtype: int64

print(df['state'].value_counts().index[0])
# NY

print(df['state'].value_counts().iat[0])
# 2

原始pandas.Series的元素成为所得pandas.Series的索引。当数值为索引时,无法使用[Number]指定该值(这会导致错误),因此严格使用iat [Number]进行指定。 (由于示例是字符串,因此[Number]无关紧要)

使用apply()方法将其应用于pandas.DataFrame的每一列。

Pandas中map(),applymap(),apply()函数的使用方法

print(df.apply(lambda x: x.value_counts().index[0]))
# name     Frank
# age         24
# state       NY
# point       70
# dtype: object

print(df.apply(lambda x: x.value_counts().iat[0]))
# name     1
# age      2
# state    2
# point    2
# dtype: int64

如果存在多种模式,则上述方法只能获得一种模式。

mode()

pandas.Series的mode()方法将模式值返回为pandas.Series。如果使用tolist()列出此结果,则可以将模式值作为列表获取。请注意,即使只有一种模式,也将是一个列表。

print(df['state'].mode())
# 0    CA
# 1    NY
# dtype: object

print(df['state'].mode().tolist())
# ['CA', 'NY']

print(df['age'].mode().tolist())
# [24.0]

使用apply()方法将mode()应用于每列将产生具有列表类型元素的pandas.Series()。

s_mode = df.apply(lambda x: x.mode().tolist())
print(s_mode)
# name     [Alice, Charlie, Dave, Ellen, Frank]
# age                                    [24.0]
# state                                [CA, NY]
# point                                  [70.0]
# dtype: object

print(type(s_mode))
# <class 'pandas.core.series.Series'>

print(s_mode['name'])
# ['Alice', 'Charlie', 'Dave', 'Ellen', 'Frank']

print(type(s_mode['name']))
# <class 'list'>

mode()也作为pandas.DataFrame的方法提供。返回pandas.DataFrame。由于各列的模式数不同,所以空缺部分成为缺失值NaN。

print(df.mode())
#       name   age state  point
# 0    Alice  24.0    CA   70.0
# 1  Charlie   NaN    NY    NaN
# 2     Dave   NaN   NaN    NaN
# 3    Ellen   NaN   NaN    NaN
# 4    Frank   NaN   NaN    NaN

可以使用count()方法获得每列中的模式数,该方法对不缺少值NaN的元素数进行计数。

print(df.mode().count())
# name     5
# age      1
# state    2
# point    1
# dtype: int64

describe()

同样,正如我在开始时所写的那样,describe()方法可用于共同计算每一列的唯一元素的数量,模式值及其频率(出现的次数)。每个项目都可以使用loc []获得。

print(df.astype('str').describe())
#          name   age state point
# count       6     6     6     6
# unique      6     5     4     5
# top     Frank  24.0    CA  70.0
# freq        1     2     2     2

print(df.astype('str').describe().loc['top'])
# name     Frank
# age       24.0
# state       CA
# point     70.0
# Name: top, dtype: object

在describe()中,由列类型dtype计算出的项是不同的,因此使用astype()进行类型转换(转换)。

归一化频率

如上所述,当将value_counts()的参数归一化设置为True时,将归一化以使总数变为1的值被返回。

请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。

比较多个数据的频率分布时,很方便。

print(df['state'].value_counts(dropna=False, normalize=True))
# NY     0.333333
# CA     0.333333
# TX     0.166667
# NaN    0.166667
# Name: state, dtype: float64

到此这篇关于Pandas计算元素的数量和频率(出现的次数)的文章就介绍到这了,更多相关Pandas计算元素数量和频率内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python 使用 docopt 解析json参数文件过程讲解

    Python 使用 docopt 解析json参数文件过程讲解

    这篇文章主要介绍了Python 使用 docopt 解析json参数文件过程讲解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • Pycharm在指定目录下生成文件和删除文件的实现

    Pycharm在指定目录下生成文件和删除文件的实现

    这篇文章主要介绍了Pycharm在指定目录下生成文件和删除文件的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python超细致探究面向对象

    Python超细致探究面向对象

    面向对象编程是一种编程方式,此编程方式的落地需要使用“类”和 “对象”来实现,所以,面向对象编程其实就是对 “类”和“对象” 的使用,今天给大家介绍下python 面向对象开发及基本特征,感兴趣的朋友一起看看吧
    2022-06-06
  • 用python进行线性/非线性拟合的三种方法

    用python进行线性/非线性拟合的三种方法

    这篇文章主要给大家介绍了关于用python进行线性/非线性拟合的三种方法,数据分析中经常会使用到数据拟合,文中通过实例代码以及图文介绍的非常详细,需要的朋友可以参考下
    2023-07-07
  • 使用python爬取微博数据打造一颗“心”

    使用python爬取微博数据打造一颗“心”

    这篇文章主要介绍了使用python基于微博数据打造一颗“心”,作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗“爱心”,我想她一定会感动得哭了吧,需要的朋友可以参考下
    2019-06-06
  • python 数据生成excel导出(xlwt,wlsxwrite)代码实例

    python 数据生成excel导出(xlwt,wlsxwrite)代码实例

    这篇文章主要介绍了python 数据生成excel导出(xlwt,wlsxwrite)代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-08-08
  • python 监控服务器是否有人远程登录(详细思路+代码)

    python 监控服务器是否有人远程登录(详细思路+代码)

    这篇文章主要介绍了python 监控服务器是否有人远程登录的方法,帮助大家利用python 监控服务器,感兴趣的朋友可以了解下
    2020-12-12
  • Python编程matplotlib绘图挑钻石seaborn小提琴和箱线图

    Python编程matplotlib绘图挑钻石seaborn小提琴和箱线图

    这篇文章主要为大家介绍了Python编程如何使用matplotlib绘图来挑出完美的钻石以及seaborn小提琴和箱线图,有需要的朋友可以借鉴参考下,希望能够优速帮助
    2021-10-10
  • 让你一文弄懂Pandas文本数据处理

    让你一文弄懂Pandas文本数据处理

    文本数据具有数据维度高、数据量大且语义复杂等特点,是一种较为复杂的数据类型,下面这篇文章主要给大家介绍了关于Pandas文本数据处理的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2021-08-08
  • Python之tkinter进度条Progressbar用法解读

    Python之tkinter进度条Progressbar用法解读

    这篇文章主要介绍了Python之tkinter进度条Progressbar用法解读,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05

最新评论