用Python实现数据的透视表的方法

 更新时间:2018年11月16日 09:19:03   作者:moxigandashu  
今天小编就为大家分享一篇用Python实现数据的透视表的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在处理数据时,经常需要对数据分组计算均值或者计数,在Microsoft Excel中,可以通过透视表轻易实现简单的分组运算。而对于更加复杂的分组运算,Python中pandas包可以帮助我们实现。

1 数据

首先引入几个重要的包:

import pandas as pd
import numpy as np
from pandas import DataFrame,Series

通过代码构造数据集:

data=DataFrame({'key1':['a','b','c','a','c','a','b','a','c','a','b','c'],'key2':['one','two','three','two','one','one','three','one','two','three','one','two'],'num1':np.random.rand(12),'num2':np.random.randn(12)})

得到数据集如下:

data
 key1 key2  num1  num2
0 a one 0.268705 0.084091
1 b two 0.876707 0.217794
2 c three 0.229999 0.574402
3 a two 0.707990 -1.444415
4 c one 0.786064 0.343244
5 a one 0.587273 1.212391
6 b three 0.927396 1.505372
7 a one 0.295271 -0.497633
8 c two 0.292721 0.098814
9 a three 0.369788 -1.157426

2 交叉表—分类计数

按照不同类进行计数统计是最常见透视功能,可以通

(1)crosstab

#函数:
crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)

crosstab的index和columns是必须要指定复制的参数:

pd.crosstab(data.key1,data.key2)

结果如下:

key2 one three two
key1     
a  3  1 1
b  0  1 1
c  1  1 1

想要在边框处增加汇总项可以指定margin的值为True:

pd.crosstab(data.key1,data.key2,margins=True)

结果:

key2 one three two All
key1      
a  3  1 1 5
b  1  1 1 3
c  1  1 2 4
All  5  3 4 12

(2)pivot_table

函数:

pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

使用pivot_table函数同样可以实现,运算函数默认值aggfunc='mean',指定为aggfunc='count'即可:

data.pivot_table('num1',index='key1',columns='key2',aggfunc='count')

结果相同:

key2 one three two
key1     
a  3  1 1
b  1  1 1
c  1  1 2

(3)groupby

通过groupby相对来说会更加复杂,首先需要对data按照key1和key2进行聚类,然后进行count运算,再将key2的index重塑为columns:

data.groupby(['key1','key2'])['num1'].count().unstack()

结果:

key2 one three two
key1     
a  3  1 1
b  1  1 1
c  1  1 2

3 其它透视表运算

(1)pivot_table

pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

要进行何种运算,只需要指定aggfunc即可。

默认计算均值:

data.pivot_table(index='key1',columns='key2')

out:

   num1       num2     
key2  one  three  two  one  three  two
key1               
a  0.193332 0.705657 0.203155 -0.165749 2.398164 -1.293595
b  0.167947 0.204545 0.661460 0.555850 -0.522528 0.143530
c  0.496993 0.033673 0.206028 -0.115093 0.024650 0.077726

分类汇总呢并求和:

data.pivot_table(index='key1',columns='key2',aggfunc='sum')

结果:

   num1       num2     
key2  one  three  two  one  three  two
key1               
a  0.579996 0.705657 0.203155 -0.497246 2.398164 -1.293595
b  0.167947 0.204545 0.661460 0.555850 -0.522528 0.143530
c  0.496993 0.033673 0.412055 -0.115093 0.024650 0.155452

也可以使用其它自定义函数:

#定义一个最大值减最小值的函数
def max_min (group):
 return group.max()-group.min()
data.pivot_table(index='key1',columns='key2',aggfunc=max_min)

结果:

   num1     num2    
key2  one three two  one three  two
key1             
a  0.179266 0.0 0.000 3.109405 0.0 0.000000
b  0.000000 0.0 0.000 0.000000 0.0 0.000000
c  0.000000 0.0 0.177 0.000000 0.0 1.609466

(2)通过groupby

普通的函数如mean,sum可以直接应用:

data.groupby(['key1','key2']).mean().unstack()

返回结果:

   num1       num2     
key2  one  three  two  one  three  two
key1               
a  0.193332 0.705657 0.203155 -0.165749 2.398164 -1.293595
b  0.167947 0.204545 0.661460 0.555850 -0.522528 0.143530
c  0.496993 0.033673 0.206028 -0.115093 0.024650 0.077726

以上这篇用Python实现数据的透视表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 在python中创建指定大小的多维数组方式

    在python中创建指定大小的多维数组方式

    今天小编就为大家分享一篇在python中创建指定大小的多维数组方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Python量化交易实战之使用Resample函数转换“日K”数据

    Python量化交易实战之使用Resample函数转换“日K”数据

    resample函数是Python数据分析库Pandas的方法函数,它主要用于转换时间序列的频次,今天通过本文给大家分享python使用Resample函数转换时间序列的相关知识,感兴趣的朋友一起看看吧
    2021-06-06
  • 关于yolov5的一些简单说明(txt文件、训练结果分析等)

    关于yolov5的一些简单说明(txt文件、训练结果分析等)

    使用YOLOV5训练数据之后我们需要一些评判标准来告诉我们所训练的效果究竟如何,下面这篇文章主要给大家介绍了关于yolov5的一些简单说明,主要是txt文件、训练结果分析等的相关资料,需要的朋友可以参考下
    2022-06-06
  • python中的Pytorch建模流程汇总

    python中的Pytorch建模流程汇总

    这篇文章主要介绍了python中的Pytorch建模流程汇总,主要帮大家帮助大家梳理神经网络训练的架构,具有一的的参考价值,需要的小伙伴可以参考一下,希望对你的学习有所帮助
    2022-03-03
  • python文档字符串(函数使用说明)使用详解

    python文档字符串(函数使用说明)使用详解

    这篇文章主要介绍了python文档字符串(函数使用说明)使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 浅析python中5个带key的内置函数

    浅析python中5个带key的内置函数

    这篇文章主要介绍了python中5个带key的内置函数,包括max取最大值函数,min取最小值函数,filter过滤函数,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-07-07
  • python获取本机所有IP地址的方法

    python获取本机所有IP地址的方法

    这篇文章主要为大家详细介绍了python获取本机所有IP地址的方法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-12-12
  • Pyhhon之Pygame的Font文本和字体

    Pyhhon之Pygame的Font文本和字体

    这篇文章主要介绍了Pygame的Font文本和字体,Pygame 通过pygame.font模块来创建一个字体对象,从而实现绘制文本的目的。想进一步了解的同学可以参考阅读本文
    2023-04-04
  • python实现获取单向链表倒数第k个结点的值示例

    python实现获取单向链表倒数第k个结点的值示例

    这篇文章主要介绍了python实现获取单向链表倒数第k个结点的值,结合实例形式分析了Python针对单向链表的定义、遍历、传值、判断等相关操作技巧,需要的朋友可以参考下
    2019-10-10
  • PyQt5创建一个新窗口的实例

    PyQt5创建一个新窗口的实例

    今天小编就为大家分享一篇PyQt5创建一个新窗口的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06

最新评论