详解Pandas中stack()和unstack()的使用技巧

 更新时间:2022年03月30日 11:11:29   作者:Python学习与数据挖掘  
当你在处理包含某种序列(例如时间序列数据)的变量的数据集时,数据通常需要进行重塑。Pandas 提供了各种用于重塑 DataFrame 的内置方法。其中,stack() 和 unstack() 是最流行的,本文总结了这两个方法的7种使用技巧,需要的可以参考一下

介绍

Pandas 提供了各种用于重塑 DataFrame 的内置方法。其中,stack() 和 unstack() 是最流行的 2 种重组列和行的方法:

  • stack():从列到行堆叠
  • unstack():从行到列取消堆叠

stack() 和 unstack() 似乎使用起来相当简单,但你仍然应该知道一些技巧来加快数据分析。

在本文中,我将分享 Pandas 的几个技巧:

  • 单层
  • 多层次:简单案例
  • 多层次:缺失值
  • 多个级别:指定要堆叠的级别
  • 多个级别:删除缺失值
  • unstack: 简单案例
  • unstack:更多用法

1.单层

最简单的 stack()可以应用于具有单层列的 DataFrame。它只是将标签从列堆叠到行并输出一个系列。

df_single_level = pd.DataFrame(
    [['Mostly cloudy', 10], ['Sunny', 12]],
    index=['London', 'Oxford'],
    columns=['Weather', 'Wind']
)
df_single_level.stack()

2.多层次:简单案例

通常,我们会在具有多级列的 DataFrame 上使用 stack()。

让我们创建一个 DataFrame。有多种方法可以创建具有多级列的 DataFrame,最简单的方法之一是创建 MultiIndex 对象 MultiIndex.from_tuples() 并将结果传递给 pd.DataFrame() 中的 columns 参数:

multi_col_1 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Wind', 'm/s')]
)
df_multi_level_1 = pd.DataFrame(
    [[13, 5.5], [19, 8.5]],
    index=['London', 'Oxford'],
    columns=multi_col_1
)

通过调用 stack(),它将获取列级别(mph, m/s) 并将其堆叠到行轴上。

df_multi_level_1.stack()
# Same as 
df_multi_level_1.stack(level=-1)
df_multi_level_1.stack(-1)

在幕后,它根据参数 level 运行操作。 参数 level 默认为 -1 ,它采用最内层并将其从列轴堆叠到行轴上。

3. 多层次:缺失值

在堆叠具有多级列的 DataFrame 时,通常会出现缺失值。让我们创建另一个 DataFrame 示例:

multi_col_2 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Temperature', '°C')]
)
df_multi_level_2 = pd.DataFrame(
    [[13, 8], [19, 6]],
    index=['London', 'Oxford'],
    columns=multi_col_2
)
df_multi_level_2.stack()

与前面的示例 multi_col_1 在第一级中具有相同的值“Wind”不同,multi_col_2 具有 2 个不同的值“Wind”和“Temperature”。 现在,我们得到了缺失值,因为堆叠的 DataFrame 比原始 DataFrame 有更多的值,并且缺失值用 NaN 填充。

4. 多层次:规定要堆叠的层次

stack() 中的第一个参数是 level,它控制堆叠的级别。 让我们创建一个具有 2 个不同级别的 MultiIndex:

multi_col_2 = pd.MultiIndex.from_tuples(
    [('Wind', 'mph'), ('Temperature', '°C')]
)
# Level 0
multi_col_2.get_level_values(0)
# Index(['Wind', 'Temperature'], dtype='object')
# Level 1
multi_col_2.get_level_values(1)
# Index(['mph', '°C'], dtype='object')

我们可以传递一个数字来规定要堆叠的级别。 要规定要堆叠的多个级别,我们可以传递一个列表:

df_multi_level_2.stack(0)
df_multi_level_2.stack([0, 1])
df_multi_level_2.stack([1, 0])

5. 多层次:删除缺失值

默认情况下,调用 stack() 时会删除所有值缺失的行,可以通过将 dropna 设置为 False 来控制此行为:

df_multi_level_3 = pd.DataFrame(
    [[None, 10], [11, 7.0]],
    index=['London', 'Oxford'],
    columns=multi_col_2
)
df_multi_level_3.stack()
df_multi_level_3.stack(dropna=False)

6. unstack: 简单案例

同样,Pandas unstack() 也支持参数级别,默认为 -1,它将对最内层索引应用操作。

index = pd.MultiIndex.from_tuples([
  ('Oxford', 'Temperature'), 
  ('Oxford', 'Wind'),
  ('London', 'Temperature'), 
  ('London', 'Wind')
])
s = pd.Series([1,2,3,4], index=index)

通过在具有 MultiIndex 的 Series 上调用 unstack(),它会将最内层的索引取消堆叠到列上。 要指定要取消堆叠的级别,我们可以传递级别编号:

s.unstack()
# It's equivalent to
s.unstack(level=-1)
# Unstack a specific level
s.unstack(level=0)

7. unstack:更多用法

通常,我们会在更多级别上使用 unstack()。

让我们看一个具有 3 个级别的示例:

index = pd.MultiIndex.from_tuples([
  ('Oxford', 'Weather', '01-01-2022'), 
  ('Oxford', 'Temperature', '01-01-2022'), 
  ('Oxford', 'Weather', '02-01-2022'),
  ('Oxford', 'Temperature', '02-01-2022'),
  ('London', 'Weather', '01-01-2022'), 
  ('London', 'Temperature', '01-01-2022'),
  ('London', 'Weather', '02-01-2022'),
  ('London', 'Temperature', '02-01-2022'),
])
s = pd.Series(
  ['Sunny', 10, 'Shower', 7, 'Shower', 5, 'Sunny', 8], 
  index=index
)

通过调用 unstack(),它将最里面的索引解栈到列中。

例如,我们可以使用方法链来运行另一个 unstack() 或传递一个列表

# Method chaining
df.unstack().unstack()
df.unstack().unstack().unstack()
# The equivalent
df.unstack([2,1])
df.unstack([2,1,0])

结论

在本文中,我们介绍了 7 个使用 Pandas 的 stack()和 unstack() 重塑 DataFrame 的用例,该方法本身非常易于使用,并且是在数据预处理中操纵数据的最受欢迎的方法之一。

到此这篇关于详解Pandas中stack()和 unstack()的使用技巧的文章就介绍到这了,更多相关Pandas stack()  unstack()内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现批量添加视频文本水印

    Python实现批量添加视频文本水印

    这篇文章主要为大家详细介绍了如何基于PyQt5开发一个视频水印批量添加工具,旨在为多个视频文件添加文本水印,感兴趣的小伙伴可以参考一下
    2025-02-02
  • Python基于easygui实现pdf和word转换小程序

    Python基于easygui实现pdf和word转换小程序

    这篇文章主要为大家详细介绍了Python如何基于easygui实现pdf和word转换小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2024-04-04
  • 解决python字典对值(值为列表)赋值出现重复的问题

    解决python字典对值(值为列表)赋值出现重复的问题

    今天小编就为大家分享一篇解决python字典对值(值为列表)赋值出现重复的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Anaconda下安装mysql-python的包实例

    Anaconda下安装mysql-python的包实例

    今天小编就为大家分享一篇Anaconda下安装mysql-python的包实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • Python round函数的基本用法与实例代码

    Python round函数的基本用法与实例代码

    round()函数是Python中用于对浮点数进行四舍五入的内置函数,这篇文章详细介绍了round()函数的基本用法、参数详解、特殊情况处理以及应用场景,并提供了丰富的示例代码,需要的朋友可以参考下
    2024-11-11
  • Python中venv虚拟环境超详细讲解

    Python中venv虚拟环境超详细讲解

    虚拟环境是一个独立的Python环境,它与系统的全局Python环境隔离,这篇文章主要介绍了Python中venv虚拟环境的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2025-04-04
  • Python基于pyecharts实现关联图绘制

    Python基于pyecharts实现关联图绘制

    这篇文章主要介绍了Python基于pyecharts实现关联图绘制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Python3下错误AttributeError: ‘dict’ object has no attribute’iteritems‘的分析与解决

    Python3下错误AttributeError: ‘dict’ object has no attribute’ite

    这篇文章主要跟大家介绍了关于在Python3下错误AttributeError: 'dict' object has no attribute 'iteritems'的分析与解决方法,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
    2017-07-07
  • Python探索之URL Dispatcher实例详解

    Python探索之URL Dispatcher实例详解

    这篇文章主要介绍了Python探索之URL Dispatcher实例详解,还是比较不错的,这里分享给大家,供需要的朋友参考。
    2017-10-10
  • python多进程并行代码实例

    python多进程并行代码实例

    这篇文章主要介绍了python多进程并行代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09

最新评论