Pandas搭配lambda组合使用详解

 更新时间:2022年01月21日 14:31:45   作者:Python学习与数据挖掘  
大家好,在之前文章中,我们介绍了很多 Python 用法。喜欢的朋友可以看一下历史文章。今天我给大家讲讲lambda与pandas模块配合使用方法,熟练掌握可以极大地提高数据分析与挖掘的效率

导入模块与读取数据

我们第一步需要导入模块以及数据集

import pandas as pd

df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()

创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列,例如

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的,那么lambda方法就很多必要被运用到了,我们先来定义一个函数方法

def custom_rating(genre,rating):
    if 'Thriller' in genre:
        return min(10,rating+1)
    elif 'Comedy' in genre:
        return max(0,rating-1)
    elif 'Drama' in genre:
        return max(5, rating-1)
    else:
        return rating

我们对于不同类别的电影采用了不同方式的评分方法,例如对于“惊悚片”,评分的方法则是在“原来的评分+1”和10分当中取一个最小的,而对于“喜剧”类别的电影,则是在0分和“原来的评分-1”当中取一个最大的,然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)

我们这里需要说明一下axis参数的作用,其中axis=1代表跨列而axis=0代表跨行,如下图所示

图片

筛选数据

pandas当中筛选数据相对来说比较容易,可以用到& | ~这些操作符,代码如下

# 单个条件,评分大于5分的
df_gt_5 = df[df['Rating']>5]

# 多个条件: AND - 同时满足评分高于5分并且投票大于100000的
And_df = df[(df['Rating']>5) & (df['Votes']>100000)]

# 多个条件: OR - 满足评分高于5分或者投票大于100000的
Or_df = df[(df['Rating']>5) | (df['Votes']>100000)]

# 多个条件:NOT - 将满足评分高于5分或者投票大于100000的数据排除掉
Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]

这些都是非常简单并且是常见的例子,但是要是我们想要筛选出电影的影名长度大于5的部分,要是也采用上面的方式就会报错

df[len(df['Title'].split(" "))>=5]

output

AttributeError: 'Series' object has no attribute 'split'

这里我们还是采用applylambda相结合,来实现上面的功能

#创建一个新的列来存储每一影片名的长度
df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1)

#筛选出影片名长度大于5的部分
new_df = df[df['num_words_title']>=5]

当然要是大家觉得上面的方法有点繁琐的话,也可以一步到位

new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]

例如我们想要筛选出那些影片的票房低于当年平均水平的数据,可以这么来做。

我们先要对每年票房的的平均值做一个归总,代码如下

year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况,返回的是布尔值

def bool_provider(revenue, year):
    return revenue<year_revenue_dict[year]

然后我们通过结合apply方法和lambda方法应用到数据集当中去

new_df = df[df.apply(lambda x : bool_provider(x['Revenue(Millions)'],x['Year']),axis=1)]

我们筛选数据的时候,主要是用.loc方法,它同时也可以和lambda方法联用,例如我们想要筛选出评分在5-8分之间的电影以及它们的票房,代码如下

df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]]

转变指定列的数据类型

通常我们转变指定列的数据类型,都是调用astype方法来实现的,例如我们将“Price”这一列的数据类型转变成整型的数据,代码如下

df['Price'].astype('int')

会出现如下所示的报错信息

ValueError: invalid literal for int() with base 10: '12,000'

因此当出现类似“12,000”的数据的时候,调用astype方法实现数据类型转换就会报错,因此我们还需要将到applylambda结合进行数据的清洗,代码如下

df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)

方法调用过程的可视化

有时候我们在处理数据集比较大的时候,调用函数方法需要比较长的时间,这个时候就需要有一个要是有一个进度条,时时刻刻向我们展示数据处理的进度,就会直观很多了。

这里用到的是tqdm模块,我们将其导入进来

from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()

然后将apply方法替换成progress_apply即可,代码如下

df["CustomRating"] = df.progress_apply(lambda x: custom_rating(x['Genre'],x['Rating']),axis=1)

output

图片

当lambda方法遇到if-else

当然我们也可以将if-else运用在lambda自定义函数当中,代码如下

Bigger = lambda x, y : x if(x > y) else y
Bigger(2, 10)

output

10

当然很多时候我们可能有多组if-else,这样写起来就有点麻烦了,代码如下

df['Rating'].apply(lambda x:"低分电影" if x < 3 else ("中等电影" if x>=3 and x < 5 else("高分电影" if x>=8 else "值得观看")))

看上去稍微有点凌乱了,这个时候,小编这里到还是推荐大家自定义函数,然后通过applylambda方法搭配使用。

到此这篇关于Pandas搭配lambda组合使用详解的文章就介绍到这了,更多相关Python Pandas 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 利用Python编写个有趣的记仇本

    利用Python编写个有趣的记仇本

    这篇文章主要为大家介绍了一个有趣的小案例——利用Python编写个有趣的记仇本,文中的示例代码讲解详细,感兴趣的小伙伴可以尝试一下
    2023-04-04
  • 基于python批量处理dat文件及科学计算方法详解

    基于python批量处理dat文件及科学计算方法详解

    今天小编就为大家分享一篇基于python批量处理dat文件及科学计算方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-05-05
  • Python列表list操作符实例分析【标准类型操作符、切片、连接字符、列表解析、重复操作等】

    Python列表list操作符实例分析【标准类型操作符、切片、连接字符、列表解析、重复操作等】

    这篇文章主要介绍了Python列表list操作符,结合实例形式分析了标准类型操作符、切片、连接字符、列表解析、重复操作等使用技巧,需要的朋友可以参考下
    2017-07-07
  • Python 的类、继承和多态详解

    Python 的类、继承和多态详解

    本文通过实例给大家详细解释了Python 的类、继承和多态的定义和用法,非常实用,有需要的小伙伴可以参考下
    2017-07-07
  • Python写的贪吃蛇游戏例子

    Python写的贪吃蛇游戏例子

    这篇文章主要介绍了Python写的贪吃蛇游戏例子,练手作品,又好玩又可以学到东西,需要的朋友可以参考下
    2014-06-06
  • python append、extend与insert的区别

    python append、extend与insert的区别

    这篇文章主要介绍了python append、extend与insert的区别的相关资料,初学者对这几个概念经常搞混,这里就帮大家理清楚,需要的朋友可以参考下
    2016-10-10
  • python数据结构输入输出及控制和异常

    python数据结构输入输出及控制和异常

    这篇文章主要介绍了python数据结构输入输出及控制和异常,上一章节中我们介绍了python的基础数据类型和集合数据类型,这章节给大家介绍一下python的输入输出、控制和异常,对数据类型感兴趣的同学可以查看一下文章<BR>
    2021-12-12
  • Python:二维列表下标互换方式(矩阵转置)

    Python:二维列表下标互换方式(矩阵转置)

    今天小编就为大家分享一篇Python:二维列表下标互换方式(矩阵转置),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python零钱兑换的实现代码

    Python零钱兑换的实现代码

    假如有这样一个问题给你一个整数数组 coins ,表示不同面额的硬币以及一个整数 amount ,表示总金额,计算并返回可以凑成总金额所需的最少的硬币个数,接下来通过示例代码给大家介绍Python零钱兑换问题,感兴趣的朋友一起看看吧
    2022-05-05
  • Python在图片中插入大量文字并且自动换行

    Python在图片中插入大量文字并且自动换行

    今天小编就为大家分享一篇关于Python在图片中插入大量文字并且自动换行,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-01-01

最新评论