pandas分组排序 如何获取第二大的数据
Python用来做数据分析很方便,网上很多关于找数据中第二大的方法,但是大多数都是关于SQL的,于是我挑战一下用Python来做这件事(主要是SQL写的不好>_<),上代码。
1、数据我是自己编的
在实际工作中应该从数据库中导入数据,如何从数据库导出数据,我之后会补充。
import pandas as pd
df = pd.DataFrame([
{"class": 1, "name": "aa", "english": 120},
{"class": 1, "name": "bb", "english": 110},
{"class": 1, "name": "cc", "english": 110},
{"class": 1, "name": "dd", "english": 110},
{"class": 2, "name": "ee", "english": 120},
{"class": 2, "name": "ff", "english": 140},
{"class": 2, "name": "gg", "english": 130},
{"class": 2, "name": "hh", "english": 130},
{"class": 3, "name": "tt", "english": 130},
{"class": 4, "name": "xx", "english": 130},
{"class": 4, "name": "yy", "english": 130},
{"class": 5, "name": "zz", "english": None},
])
2、分组取第二大的数据
def fun(df):
# english数据去重
sort_set = set(df["english"].values.tolist())
if len(sort_set)<=1:
# 数据量小于等于1,无法取到第二大的数据
return None
else:
# 取english中第二大的值
sort_value = sorted(sort_set,reverse=True)[1]
temp_df = df[df["english"]==sort_value]
return temp_df
df = df.groupby(by=["class"]).apply(fun).reset_index(drop=True)
print(df)
结果如下:
class name english 0 1 bb 110.0 1 1 cc 110.0 2 1 dd 110.0 3 2 gg 130.0 4 2 hh 130.0
3、写完啦,就这么简单
当然这还可以改为取最大、取最小、取第三大、等等......
补充:pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行
pandas 按某一列A排序,按B和C两列分组,选择分组后A列值最大的行
一、需求
按 updateTime 列倒序排序,按 B 和 C 两列分组,分组后选择最后更新的时间的那一行,并将结果加上新索引。
二、代码
import pandas as pd
data = pd.read_csv('test.csv')
df = pd.DataFrame(data)
df = df.sort_values('updateTime', ascending=False).groupby(['B','C']).first().reset_index()
first() 函数代表选择第一行,如果要选取多行,可以使用 head() 函数: head(5)表示选择前五行。
如下例:
import pandas as pd
data = pd.read_csv('test.csv',header = 0)
df = pd.DataFrame(data)
# 按日期分组,分组后对 value 列从大到小排序,取每组前十行
df = df.groupby('date', group_keys=False).apply(lambda x: x.sort_values('value', ascending=False)).groupby('date').head(10).reset_index()
在不能直接使用sort_values() 函数时,使用 apply() 函数。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。
相关文章
python数据可视化 – 利用Bokeh和Bottle.py在网页上展示你的数据
本文将展示如何使用python搭建一个网页应用来展示你的数据图表 很多有关于使用python搭建网页应用的文章聚焦在如何教读者搭建一个网页应用(大多是博客),很多关于使用python做数据可视化的文章聚焦在如何教读者使用python的图表库来做可视化2021-10-10
python GUI库图形界面开发之PyQt5动态(可拖动控件大小)布局控件QSplitter详细使用方法与实例
这篇文章主要介绍了python GUI库图形界面开发之PyQt5动态(可拖动控件大小)布局控件QSplitter详细使用方法与实例,需要的朋友可以参考下2020-03-03
Python常见读写文件操作实例总结【文本、json、csv、pdf等】
这篇文章主要介绍了Python常见读写文件操作,结合实例形式总结分析了Python常见的各种文件读写操作,包括文本、json、csv、pdf等文件的读写与相关注意事项,需要的朋友可以参考下2019-04-04


最新评论