Python 使用pandas实现查询和统计示例详解

 更新时间:2023年08月20日 09:03:20   作者:全栈若城  
这篇文章主要为大家介绍了Python 使用pandas实现查询和统计示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

前言

在使用 Pandas 进行数据分析时,我们需要经常进行查询和统计分析。

但是Pandas 是如何进行查询和统计分析得嘞, let's go :

数据筛选查询

通过列名索引筛选数据:

import pandas as pd

data = {'name': ['Tom', 'Jerry', 'Lucy', 'Amy'],
      'age': [18, 19, 20, 21],
      'gender': ['M', 'M', 'F', 'F']}
df = pd.DataFrame(data)
# 选取 'name' 属性
df['name']
# 选取 'age' 和 'gender' 属性
df[['age', 'gender']]

通过位置索引筛选数据:

# 通过位置索引选取第一行数据
df.iloc[0]
# 通过位置索引选取第一行和第二行数据
df.iloc[0:2]

通过布尔索引筛选数据:

# 选取年龄大于等于 20 的记录
df[df['age'] >= 20]
# 选取性别为女的记录
df[df['gender'] == 'F']

数据统计分析

Pandas 提供丰富的统计函数,可以方便地进行数据分析。

描述性统计分析:

# 统计数值型数据的基本描述性统计信息
df.describe()
# 统计各属性的非空值数量
df.count()
# 统计各属性的平均值
df.mean()
# 统计各属性的方差
df.var()
# 统计各属性的标准差
df.std()

分组统计分析:

# 按照性别分组,统计年龄均值
df.groupby('gender')['age'].mean()
# 按照性别和年龄分组,统计人数
df.groupby(['gender', 'age'])['name'].count()

交叉表分析:

# 构造一个交叉表,统计不同性别和年龄的人数
pd.crosstab(df['gender'], df['age'])

数据排序

按照某列数据进行升序排列:

df.sort_values(by='age')

按照某列数据进行降序排列:

df.sort_values(by='age', ascending=False)

数据聚合

对整个 DataFrame 进行聚合操作:

# 聚合函数:求和、均值、中位数、最大值、最小值
df.aggregate([sum, 'mean', 'median', max, min])

对某列数据进行聚合操作:

# 统计年龄平均值
df['age'].mean()
# 统计年龄总和
df['age'].sum()
# 统计年龄最大值
df['age'].max()

处理缺失数据

判断数据是否为缺失值:

# 返回一个布尔型 DataFrame,表明各元素是否为缺失值
df.isnull()

删除缺失值所在的行或列:

# 删除所有含有缺失值的行
df.dropna()
# 删除所有含有缺失值的列
df.dropna(axis=1)

用指定值填充缺失值:

# 将缺失值使用 0 填充
df.fillna(0)

数据去重

对 DataFrame 去重:

# 根据所有列值的重复性进行去重
df.drop_duplicates()
# 根据指定列值的重复性进行去重
df.drop_duplicates(subset=['name', 'age'])

对 Series 去重:

# 对 'name' 列进行去重
df['name'].drop_duplicates()

数据合并

横向(按列)合并 DataFrame:

# 创建一个新的 DataFrame
other_data = {'name': ['Tom', 'Jerry', 'Lucy', 'Amy'],
            'score': [80, 90, 85, 95]}
other_df = pd.DataFrame(other_data)
# 将两个 DataFrame 在列上合并
pd.concat([df, other_df], axis=1)

纵向(按行)合并 DataFrame:

# 创建一个新的 DataFrame
other_data = {'name': ['Kate', 'Jack'],
            'age': [19, 20],
            'gender': ['F', 'M']}
other_df = pd.DataFrame(other_data)
# 将两个 DataFrame 在行上合并
pd.concat([df, other_df], axis=0)

数据透视表

创建数据透视表:

# 统计不同性别和年龄的人数,以 'gender' 为行、'age' 为列,'name' 计数
pd.pivot_table(df, values='name', index='gender', columns='age', aggfunc='count')

以上就是Python 使用pandas实现查询和统计示例详解的详细内容,更多关于Python pandas查询统计的资料请关注脚本之家其它相关文章!

相关文章

  • Matlab、Python为工具解析数据可视化之美

    Matlab、Python为工具解析数据可视化之美

    下面介绍一些数据可视化的作品(包含部分代码),主要是地学领域,可迁移至其他学科,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2021-11-11
  • python创建字典(dict)的几种方法小结(含代码示例)

    python创建字典(dict)的几种方法小结(含代码示例)

    字典(Dictionary)是Python中一种非常灵活的数据结构,用于存储键值对(key-value pairs),在Python中创建字典有多种方法,每种方法都有其特定的使用场景和优势,本文将详细介绍Python中创建字典的几种常见方法,需要的朋友可以参考下
    2024-09-09
  • python sorted函数原理解析及练习

    python sorted函数原理解析及练习

    这篇文章主要介绍了python sorted函数原理解析及练习,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • python快速查找算法应用实例

    python快速查找算法应用实例

    这篇文章主要介绍了python快速查找算法,是一个比较经典的算法应用,有一定的借鉴价值,需要的朋友可以参考下
    2014-09-09
  • pandas调整列的顺序以及添加列的实现

    pandas调整列的顺序以及添加列的实现

    这篇文章主要介绍了pandas调整列的顺序以及添加列的实现操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • Python虚拟环境的创建和使用详解

    Python虚拟环境的创建和使用详解

    这篇文章主要给大家介绍了关于Python虚拟环境的创建和使用的相关资料,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Python如何获取模块中类以及类的属性方法信息

    Python如何获取模块中类以及类的属性方法信息

    python对属性权限的控制是通过属性名来实现的,下面这篇文章主要给大家介绍了关于Python如何获取模块中类以及类的属性方法信息的相关资料,需要的朋友可以参考下
    2021-12-12
  • Python实现语音转文本的两种方法

    Python实现语音转文本的两种方法

    这篇文章主要给大家介绍了关于Python实现语音转文本的两种方法,Python提供了许多工具和库来进行这些任务,本文通过实例代码介绍的非常详细,需要的朋友可以参考下
    2023-06-06
  • Python基于SciPy库实现统计分析与建模

    Python基于SciPy库实现统计分析与建模

    SciPy是一个强大的Python库,提供了丰富的科学计算和数据分析工具,本文我们将探讨如何使用Python和SciPy库进行统计分析和建模,感兴趣的可以学习一下
    2023-06-06
  • Python实现周日历与时间相互转换

    Python实现周日历与时间相互转换

    周日历是日常生活中不常用到的历法系统,一般用于政府、商务的会计年度或者学校教学日历中。本文为大家介绍了如何利用Python语言实现周日历与时间相互转换,感兴趣的可以学习一下
    2022-07-07

最新评论