Pandas中case_when()方法使用小结

 更新时间:2025年05月07日 10:03:29   作者:aobulaien001  
本文主要介绍了Pandas中case_when()方法使用小结,它可以用于条件性地创建新的列,类似于 SQL 中的 CASE WHEN 语句,下面就来介绍一下,感兴趣的可以了解一下

在 Python 数据分析中,Pandas 是一个强大的库,用于处理和分析数据。它提供了各种各样的方法和函数,使数据转换和操作变得更加容易。在本文中,将深入探讨 Pandas 中的 case_when() 方法,它可以用于条件性地创建新的列,类似于 SQL 中的 CASE WHEN 语句。我们将详细讨论该方法的用法,并提供丰富的示例代码。

什么是 case_when() 方法?

case_when() 方法是 Pandas 库中的一个函数,它允许我们根据条件创建新的列。这个方法通常用于根据数据的某些特征或条件来生成新的数据列,类似于使用 if-else 语句进行条件判断。

在 Pandas 中,case_when() 方法通常与 apply() 方法结合使用,以便根据条件对每一行数据进行操作。它提供了一种更灵活的方式来处理数据,而不需要编写大量的条件判断语句。

case_when() 方法的语法

case_when() 方法的语法如下:

pandas.Series.case_when(conditions, values, default=None, *args, **kwargs)

参数说明:

  • conditions:条件列表,用于定义何时应用哪个值。
  • values:与条件列表中的每个条件相对应的值列表,用于指定满足条件时要应用的值。
  • default:可选参数,用于指定默认值,当没有条件匹配时将使用该值。
  • *args 和 **kwargs:其他参数,用于传递给 apply() 方法。

示例代码

通过几个示例来演示 case_when() 方法的用法。

示例 1:基本用法

假设有一个包含学生分数的数据集,我们想根据分数判断他们的等级。

可以使用 case_when() 方法来实现这个任务:

import pandas as pd

# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        '分数': [85, 70, 95, 60, 75]}

df = pd.DataFrame(data)

# 定义条件和对应的值
conditions = [df['分数'] >= 90, (df['分数'] >= 80) & (df['分数'] < 90), df['分数'] < 80]
values = ['优秀', '良好', '及格']

# 使用 case_when() 方法创建新列
df['等级'] = df['分数'].case_when(conditions, values, default='不及格')

# 输出结果
print(df)

以上代码将根据学生的分数创建一个新的等级列,并根据条件将相应的等级分配给每个学生。

示例 2:使用默认值

有时候,某些数据可能不满足任何条件。在这种情况下,可以使用默认值来处理这些情况:

import pandas as pd

# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        '分数': [85, 70, 95, 60, None]}

df = pd.DataFrame(data)

# 定义条件和对应的值
conditions = [df['分数'] >= 90, (df['分数'] >= 80) & (df['分数'] < 90), df['分数'] < 80]
values = ['优秀', '良好', '及格']

# 使用 case_when() 方法创建新列,并设置默认值为 '未知'
df['等级'] = df['分数'].case_when(conditions, values, default='未知')

# 输出结果
print(df)

在这个示例中,使用了一个包含空值的数据集,并使用 default 参数将没有匹配条件的行标记为“未知”。

示例 3:使用 apply() 方法

case_when() 方法通常与 apply() 方法一起使用,以便根据多个条件对数据集的每一行进行操作。

以下是一个示例,根据学生的分数和出勤情况来计算他们的最终成绩:

import pandas as pd

# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        '分数': [85, 70, 95, 60, 75],
        '出勤率': [90, 80, 95, 70, 85]}

df = pd.DataFrame(data)

# 使用 apply() 方法将多个条件应用于每一行
def calculate_grade(row):
    if row['分数'] >= 90 and row['出勤率'] >= 90:
        return '优秀'
    elif row['分数'] >= 80 and row['出勤率'] >= 80:
        return '良好'
    elif row['分数'] >= 60 and row['出勤率'] >= 70:
        return '及格'
    else:
        return '不及格'

df['最终成绩'] = df.apply(calculate_grade, axis=1)

# 输出结果
print(df)

在这个示例中,使用 apply() 方法定义了一个自定义函数 calculate_grade(),该函数基于多个条件来计算最终成绩,并将其应用于数据集的每一行。

示例 4:多条件的复杂情况

有时候,需要根据多个条件的组合来生成新的列。

例如,可以根据学生的分数和出勤情况来确定他们是否能够获得奖学金:

import pandas as pd

# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        '分数': [85, 70, 95, 60, 75],
        '出勤率': [90, 80, 95, 70, 85]}

df = pd.DataFrame(data)

# 定义多条件和对应的值
conditions = [(df['分数'] >= 90) & (df['出勤率'] >= 90),
              (df['分数'] >= 80) & (df['出勤率'] >= 80),
              (df['分数'] >= 60) & (df['出勤率'] >= 70)]

values = ['获奖学金', '荣誉奖', '合格']

# 使用 case_when() 方法创建新列
df['奖励'] = df.apply(lambda row: row['分数'].case_when(conditions, values, default='未获奖'), axis=1)

# 输出结果
print(df)

在这个示例中,定义了多个条件和对应的值,并使用 apply() 方法将 case_when() 方法应用于每一行数据,根据多个条件的组合来确定是否获得奖学金。

示例 5:根据多列生成新列

有时候,需要根据多列的值生成新的列。

例如,可以根据学生的分数和出勤情况来生成一个总分列:

import pandas as pd

# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        '分数1': [85, 70, 95, 60, 75],
        '分数2': [90, 80, 85, 70, 90]}

df = pd.DataFrame(data)

# 使用 apply() 方法生成新列
df['总分'] = df.apply(lambda row: row['分数1'] + row['分数2'], axis=1)

# 输出结果
print(df)

在这个示例中,使用 apply() 方法将两列分数相加,生成了一个新的总分列。

示例 6:处理缺失值

case_when() 方法也可以用于处理缺失值。

例如,可以根据分数是否缺失来为学生分配等级:

import pandas as pd
import numpy as np

# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        '分数': [85, np.nan, 95, 60, 75]}

df = pd.DataFrame(data)

# 定义条件和对应的值
conditions = [df['分数'].notna() & (df['分数'] >= 90),
              df['分数'].notna() & (df['分数'] >= 80),
              df['分数'].notna() & (df['分数'] >= 60)]

values = ['优秀', '良好', '及格']

# 使用 case_when() 方法创建新列,并处理缺失值
df['等级'] = df['分数'].case_when(conditions, values, default='不及格')

# 输出结果
print(df)

在这个示例中,使用 notna() 方法来检查分数是否缺失,并根据条件来为每个学生分配等级。

总结

在本文中,深入探讨了 Pandas 中的 case_when() 方法的用法,包括基本用法和高级用法。这个方法对于数据分析和数据转换任务非常有用,可以根据条件创建新的列,处理多条件组合和缺失值,并生成新的数据集。希望通过本文的示例代码和解释,能更好地理解和运用 case_when() 方法。这将有助于更灵活地处理各种数据分析和数据处理任务。

到此这篇关于Pandas中case_when()方法使用小结的文章就介绍到这了,更多相关Pandas case_when()方法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python绘制BA无标度网络示例代码

    python绘制BA无标度网络示例代码

    今天小编就为大家分享一篇python绘制BA无标度网络示例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • python的pytest框架之命令行参数详解(下)

    python的pytest框架之命令行参数详解(下)

    这篇文章主要介绍了python的pytest框架之命令行参数详解,今天将继续更新其他一些命令选项的使用,和pytest收集测试用例的规则,需要的朋友可以参考下
    2019-06-06
  • Python的deque双端队列详解

    Python的deque双端队列详解

    这篇文章主要介绍了Python的deque双端队列详解,deque(双端队列)是一种数据结构,允许使用O(1)时间复杂度从两端添加和删除元素, Python的deque类实现了此数据结构,需要的朋友可以参考下
    2023-09-09
  • Python实用秘技之快速优化导包顺序详解

    Python实用秘技之快速优化导包顺序详解

    这篇文章主要来和大家分享一个Python中的实用秘技,那就是如何快速优化导包顺序,文中的示例代码简洁易懂,快跟随小编一起学习起来吧
    2023-06-06
  • python列表推导和生成器表达式知识点总结

    python列表推导和生成器表达式知识点总结

    在本篇文章里小编给大家整理的是关于python列表推导和生成器表达式的相关知识点内容,需要的朋友们可以参考下。
    2020-01-01
  • Python+Tableau广东省人口普查可视化的实现

    Python+Tableau广东省人口普查可视化的实现

    本文将结合实例代码,介绍Python+Tableau广东省人口普查可视化,第七次人口普查数据分析,绘制历次人口普查人口数量变化图,需要的朋友们下面随着小编来一起学习学习吧
    2021-06-06
  • python使用xlrd实现检索excel中某列含有指定字符串记录的方法

    python使用xlrd实现检索excel中某列含有指定字符串记录的方法

    这篇文章主要介绍了python使用xlrd实现检索excel中某列含有指定字符串记录的方法,涉及Python使用xlrd模块检索Excel的技巧,非常具有实用价值,需要的朋友可以参考下
    2015-05-05
  • 浅析Django接口版本控制

    浅析Django接口版本控制

    一个项目在升级迭代的时候,不会立马抛弃旧的版本,甚至会出现多个版本共存同时维护的情况,因此需要版本控制
    2021-06-06
  • Python生成图文并茂的PDF报告的方法详解

    Python生成图文并茂的PDF报告的方法详解

    reportlab是Python的一个标准库,可以画图、画表格、编辑文字,最后可以输出PDF格式。本文将利用reportlab模块生成图文并茂的PDF报告,感兴趣的可以了解一下
    2022-06-06
  • 详解Python利用APScheduler框架实现定时任务

    详解Python利用APScheduler框架实现定时任务

    在做一些python工具的时候,常常会碰到定时器问题,总觉着使用threading.timer或者schedule模块非常不优雅。所以本文将利用APScheduler框架实现定时任务,需要的可以参考一下
    2022-03-03

最新评论