Pandas搭配lambda组合使用详解

更新时间：2022年01月21日 14:31:45 作者：Python学习与数据挖掘

大家好，在之前文章中，我们介绍了很多 Python 用法。喜欢的朋友可以看一下历史文章。今天我给大家讲讲lambda与pandas模块配合使用方法，熟练掌握可以极大地提高数据分析与挖掘的效率

导入模块与读取数据

我们第一步需要导入模块以及数据集

import pandas as pd

df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()

创建新的列

一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列，例如

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2

但是如果要新创建的列是经过相当复杂的计算得来的，那么lambda方法就很多必要被运用到了，我们先来定义一个函数方法

def custom_rating(genre,rating):
    if 'Thriller' in genre:
        return min(10,rating+1)
    elif 'Comedy' in genre:
        return max(0,rating-1)
    elif 'Drama' in genre:
        return max(5, rating-1)
    else:
        return rating

我们对于不同类别的电影采用了不同方式的评分方法，例如对于“惊悚片”，评分的方法则是在“原来的评分+1”和10分当中取一个最小的，而对于“喜剧”类别的电影，则是在0分和“原来的评分-1”当中取一个最大的，然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中

df["CustomRating"] = df.apply(lambda x: custom_rating(x['Genre'], x['Rating']), axis = 1)

我们这里需要说明一下axis参数的作用，其中axis=1代表跨列而axis=0代表跨行，如下图所示

筛选数据

在pandas当中筛选数据相对来说比较容易，可以用到& | ~这些操作符，代码如下

# 单个条件，评分大于5分的
df_gt_5 = df[df['Rating']>5]

# 多个条件: AND - 同时满足评分高于5分并且投票大于100000的
And_df = df[(df['Rating']>5) & (df['Votes']>100000)]

# 多个条件: OR - 满足评分高于5分或者投票大于100000的
Or_df = df[(df['Rating']>5) | (df['Votes']>100000)]

# 多个条件：NOT - 将满足评分高于5分或者投票大于100000的数据排除掉
Not_df = df[~((df['Rating']>5) | (df['Votes']>100000))]

这些都是非常简单并且是常见的例子，但是要是我们想要筛选出电影的影名长度大于5的部分，要是也采用上面的方式就会报错

df[len(df['Title'].split(" "))>=5]

output

AttributeError: 'Series' object has no attribute 'split'

这里我们还是采用apply和lambda相结合，来实现上面的功能

#创建一个新的列来存储每一影片名的长度
df['num_words_title'] = df.apply(lambda x : len(x['Title'].split(" ")),axis=1)

#筛选出影片名长度大于5的部分
new_df = df[df['num_words_title']>=5]

当然要是大家觉得上面的方法有点繁琐的话，也可以一步到位

new_df = df[df.apply(lambda x : len(x['Title'].split(" "))>=5,axis=1)]

例如我们想要筛选出那些影片的票房低于当年平均水平的数据，可以这么来做。

我们先要对每年票房的的平均值做一个归总，代码如下

year_revenue_dict = df.groupby(['Year']).agg({'Revenue(Millions)':np.mean}).to_dict()['Revenue(Millions)']

然后我们定义一个函数来判断是否存在该影片的票房低于当年平均水平的情况，返回的是布尔值

def bool_provider(revenue, year):
    return revenue<year_revenue_dict[year]

然后我们通过结合apply方法和lambda方法应用到数据集当中去

new_df = df[df.apply(lambda x : bool_provider(x['Revenue(Millions)'],x['Year']),axis=1)]

我们筛选数据的时候，主要是用.loc方法，它同时也可以和lambda方法联用，例如我们想要筛选出评分在5-8分之间的电影以及它们的票房，代码如下

df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]]

转变指定列的数据类型

通常我们转变指定列的数据类型，都是调用astype方法来实现的，例如我们将“Price”这一列的数据类型转变成整型的数据，代码如下

df['Price'].astype('int')

会出现如下所示的报错信息

ValueError: invalid literal for int() with base 10: '12,000'

因此当出现类似“12,000”的数据的时候，调用astype方法实现数据类型转换就会报错，因此我们还需要将到apply和lambda结合进行数据的清洗，代码如下

df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)

方法调用过程的可视化

有时候我们在处理数据集比较大的时候，调用函数方法需要比较长的时间，这个时候就需要有一个要是有一个进度条，时时刻刻向我们展示数据处理的进度，就会直观很多了。

这里用到的是tqdm模块，我们将其导入进来

from tqdm import tqdm, tqdm_notebook
tqdm_notebook().pandas()

然后将apply方法替换成progress_apply即可，代码如下

df["CustomRating"] = df.progress_apply(lambda x: custom_rating(x['Genre'],x['Rating']),axis=1)

output

当lambda方法遇到if-else

当然我们也可以将if-else运用在lambda自定义函数当中，代码如下

Bigger = lambda x, y : x if(x > y) else y
Bigger(2, 10)

output

10

当然很多时候我们可能有多组if-else，这样写起来就有点麻烦了，代码如下

df['Rating'].apply(lambda x:"低分电影" if x < 3 else ("中等电影" if x>=3 and x < 5 else("高分电影" if x>=8 else "值得观看")))

看上去稍微有点凌乱了，这个时候，小编这里到还是推荐大家自定义函数，然后通过apply和lambda方法搭配使用。

到此这篇关于Pandas搭配lambda组合使用详解的文章就介绍到这了,更多相关Python Pandas 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python实现画图工具
这篇文章主要为大家详细介绍了python实现画图工具，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-08-08
Python正则表达式学习小例子
这篇文章主要介绍了Python正则表达式学习小例子，学习python的朋友可以参考一下
2020-03-03
Python中yield返回生成器的详细方法
这篇文章主要介绍了Python中的yield返回生成器,生成器是Python编程进阶中的重要知识点,需要的朋友可以参考下，希望能够给你带来帮助
2021-11-11
Python使用Selenium批量自动化获取并下载图片的方法
在现代的Web开发中,自动化测试和数据抓取已经成为不可或缺的一部分,Selenium作为一款强大的自动化测试工具,可以用于批量获取网页上的图片,所以本文给大家介绍了Python如何使用Selenium批量自动化获取并下载图片的方法
2024-11-11
Python利用pandas进行数据合并详解
当使用Python中的pandas库时，merge函数是用于合并（或连接）两个数据框（DataFrame）的重要工具。它类似于SQL中的JOIN操作，下面我们就来看看它的具体操作吧
2023-11-11
python自定义类并使用的方法
这篇文章主要介绍了python自定义类并使用的方法,涉及Python中类的定义与使用技巧,需要的朋友可以参考下
2015-05-05
Unicode和Python的中文处理
在Python语言中，Uincode字符串处理一直是一个容易让人迷惑的问题。许多Python爱好者经常因为搞不清Unicode、UTF-8还有其它许许多多的编码之间的区别而大伤脑筋。本文将介绍Unicode和Python的中文处理的相关知识。下面跟着小编一起来看下吧
2017-03-03
django 解决model中类写不到数据库中,数据库无此字段的问题
这篇文章主要介绍了django 解决model中类写不到数据库中,数据库无此字段的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随想过来看看吧
2020-05-05
win10下opencv-python特定版本手动安装与pip自动安装教程
这篇文章主要介绍了win10下opencv-python特定版本手动安装与pip自动安装教程，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2020-03-03
Python中用memcached来减少数据库查询次数的教程
这篇文章主要介绍了Python中用memcached来减少数据库查询次数的教程,memcached是一种分布式的内存缓存工具,使用后可以减少对硬盘的I/O次数,需要的朋友可以参考下
2015-04-04