pandas 实现分组后取第N行

更新时间：2021年03月26日 10:55:10 作者：NoOne-csdn

这篇文章主要介绍了pandas 实现分组后取第N行的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

目的：

把question_id 对应的user_answer转成ABCD

solution

dfa=df.groupby('question_id').nth(0).reset_index()
dfa['flag']='A'
dfb=df.groupby('question_id').nth(1).reset_index()
dfb['flag']='B'
dfc=df.groupby('question_id').nth(2).reset_index()
dfc['flag']='C'
dfd=df.groupby('question_id').nth(3).reset_index()
dfd['flag']='D'

resdf=dfa.append([dfb,dfc,dfd])
resdf.sort_values(by='question_id')

result：

focus：

g.nth(0) 
#同 
g.first()
g.head(1)
g.last()

g.nth(2)
g.nth(-1)

g.nth(0,dropna='any')
g.B.nth(0,dropna='all')
g.groups
g.get_group(134429)
g.discribe()
g.agg([np.mean,np.sum.np,std])

补充：pandas的分组取最大多行并求和函数nlargest()

在pandas库里面，我们常常关心的是最大的前几个，比如销售最好的几个产品，几个店，等。之前讲到的head(), 能够看到看到DF里面的前几行，如果需要看到最大或者最小的几行就需要先进行排序。max()和min()可以看到最大或者最小值，但是只能看到一个值。

所以我们可以使用nlargest()函数，nlargest()的优点就是能一次看到最大的几行，而且不需要排序。缺点就是只能看到最大的，看不到最小的。

我们来看看单价排在前十的数据：

单价排在前十的数据

nlargest()的第一个参数就是截取的行数。第二个参数就是依据的列名。

这样就可以筛选出单价最高的前十行，而且是按照单价从最高到最低进行排列的，所以还是按照之前的索引。

还可以按照total_price来进行排名：

按照total_price排名

nlargest还有一个参数，keep='first'或者'last'。当出现重复值的时候，keep='first',会选取在原始DataFrame里排在前面的，keep='last'则去排后面的。

由于nlagerst()不能去最小的多个值，如果我们一定要使用这个函数进行选取也是可以的.

先设置一个辅助列：

先设置一个辅助列

然后在进行选取：

以辅助列进行选取

当然了，也可以通过head()加上排序进行选取的。

那以前这些操作都可以通过其它函数来进行替代的话，nlargest()有什么必要介绍吗？或者说学不学这个函数有什么关系吗？

这就是我们今天要重点介绍的，如果说要选择不同location_road下的前五名要怎么操作呢？

很多人可能第一反应会想到先分组然后进行max()操作，但是这样的操作只能选择最大的一列：

使用max()

但是使用max有一个问题，就是选取的是每一列的最大值，而不是选取最大值的那一行，也就是说只能在选取单列的最大值的时候才是准确的。

这个时候我们就要想到apply和lambda的自定义函数了：

选取多个指标的TOP(N)

这样就选出了不同loaction_road的price排在前五的行了。

nlargest()函数在这种场景下使用是非常方便的，而且结果也已经默认排好顺序了。

还有一些场景下需要计算分组的前几名，然后在进行求和的，这个我们也可以使用nlargest进行操作：

分组之后进行求和

使用这种方法会出现报错提示，这个因为在列和索引都存在loaction_road，有重复，系统有警告，在实际使用时可以先改列名再操作。我们也可以换一种方式直接按照索引进行求和，这样就没有警告了：

以上为个人经验，希望能给大家一个参考，也希望大家多多支持脚本之家。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

深入了解Python iter() 方法的用法
这篇文章主要介绍了深入了解Python iter() 方法的知识,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-07-07
numpy 计算两个数组重复程度的方法
今天小编就为大家分享一篇numpy 计算两个数组重复程度的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-11-11
python中的插入排序的简单用法
在本篇内容里小编给各位分享的是一篇关于python中的插入排序的简单用法，有兴趣的朋友们可以参考学习下。
2021-01-01
pandas获取某列最大值的所有数据的两种方法
本文主要介绍了pandas获取某列最大值的所有数据实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2024-07-07
浅析Python 简单工厂模式和工厂方法模式的优缺点
这篇文章主要介绍了Python 工厂模式的相关资料，文中示例代码非常详细，帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2020-07-07
python3实现将json对象存入Redis以及数据的导入导出
这篇文章主要介绍了python3实现将json对象存入Redis以及数据的导入导出，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-07-07
Python OpenCV一个窗口中显示多幅图像
大家好，本篇文章主要讲的是Python OpenCV一个窗口中显示多幅图像，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下，方便下次浏览
2022-01-01
python之如何查找多层嵌套字典的值
这篇文章主要介绍了python之如何查找多层嵌套字典的值问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
教你用python将数据写入Excel文件中
Python作为一种脚本语言相较于shell具有更强大的文件处理能力,下面这篇文章主要给大家介绍了关于如何用python将数据写入Excel文件中的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-02-02
Python Pickling 和 Unpickling 的区别
Python中的Pickling和Unpickling是与数据序列化和反序列化相关的重要概念,本文主要介绍了Python Pickling和Unpickling的区别,具有一定的参考价值,感兴趣的可以了解一下
2023-11-11