使用Pandas选择数据子集的方法示例

 更新时间:2024年03月27日 08:46:30   作者:Alex_StarSky  
有时数据读入后并不是对整体数据进行分析,而是数据中的部分子集,所以,该如何根据特定的条件实现数据子集的获取将是本节的主要内容,本文给大家介绍了使用Pandas选择数据子集的方法示例,需要的朋友可以参考下

数据分析-Pandas如何选择数据子集

Dataframe的数据中,选择某一列,某一行,或者某个子区域,该怎么办呢?

选择一个属性列维度

比如,Titanic 数据表中,如果仅仅对乘客感兴趣,可以这样操作:

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series

In [7]: titanic["Age"].shape
Out[7]: (891,)

选择多个属性列维度

比如,Titanic 数据表中,想选择多个属性进行组合研究,不仅仅对乘客感兴趣,还需要知道性别,可以这样操作:

In [8]: age_sex = titanic[["Age", "Sex"]]

In [9]: age_sex.head()
Out[9]: 
    Age     Sex
0  22.0    male
1  38.0  female
2  26.0  female
3  35.0  female
4  35.0    male

In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame

In [11]: titanic[["Age", "Sex"]].shape
Out[11]: (891, 2)

筛选属性值集合

比如,Titanic 数据表中,对乘客的年龄大于35岁的集合感兴趣

In [12]: above_35 = titanic[titanic["Age"] > 35]

In [13]: above_35.head()
Out[13]: 
    PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
1             2         1       1  ...  71.2833   C85         C
6             7         0       1  ...  51.8625   E46         S
11           12         1       1  ...  26.5500  C103         S
13           14         0       3  ...  31.2750   NaN         S
15           16         1       2  ...  16.0000   NaN         S

[5 rows x 12 columns]

In [15]: above_35.shape
Out[15]: (217, 12)

事实上,括号内的条件其实是一个真值列表:

In [14]: titanic["Age"] > 35
Out[14]: 
0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

此外,还对乘客的座舱等级感兴趣,筛选等级2,3的,可以这样操作:

In [16]: class_23 = titanic[titanic["Pclass"].isin([2, 3])]

In [17]: class_23.head()
Out[17]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
2            3         1       3  ...   7.9250   NaN         S
4            5         0       3  ...   8.0500   NaN         S
5            6         0       3  ...   8.4583   NaN         Q
7            8         0       3  ...  21.0750   NaN         S

[5 rows x 12 columns]

# 等价于:
In [18]: class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

In [19]: class_23.head()
Out[19]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
2            3         1       3  ...   7.9250   NaN         S
4            5         0       3  ...   8.0500   NaN         S
5            6         0       3  ...   8.4583   NaN         Q
7            8         0       3  ...  21.0750   NaN         S

[5 rows x 12 columns]

此外,在数据清洗中经常用到,把NA值或者非NA值筛选出来,另做处理,可以这样操作:

In [20]: age_no_na = titanic[titanic["Age"].notna()]

In [21]: age_no_na.head()
Out[21]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]

In [22]: age_no_na.shape
Out[22]: (714, 12)

筛选特定行和列维度集合

比如,Titanic 数据表中,对乘客的年龄大于35岁的名字感兴趣,

In [23]: adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

In [24]: adult_names.head()
Out[24]: 
1     Cumings, Mrs. John Bradley (Florence Briggs Th...
6                               McCarthy, Mr. Timothy J
11                             Bonnell, Miss. Elizabeth
13                          Andersson, Mr. Anders Johan
15                     Hewlett, Mrs. (Mary D Kingcome) 
Name: Name, dtype: object

如果对第10-25行,3到5列感兴趣,可以这样操作:

In [25]: titanic.iloc[9:25, 2:5]
Out[25]: 
    Pclass                                 Name     Sex
9        2  Nasser, Mrs. Nicholas (Adele Achem)  female
10       3      Sandstrom, Miss. Marguerite Rut  female
11       1             Bonnell, Miss. Elizabeth  female
12       3       Saundercock, Mr. William Henry    male
13       3          Andersson, Mr. Anders Johan    male
..     ...                                  ...     ...
20       2                 Fynney, Mr. Joseph J    male
21       2                Beesley, Mr. Lawrence    male
22       3          McGowan, Miss. Anna "Annie"  female
23       1         Sloper, Mr. William Thompson    male
24       3        Palsson, Miss. Torborg Danira  female

[16 rows x 3 columns]

以上代码只是一个简单示例,示例代码中的表达式和变量范围也可以根据实际问题进行修改。

到此这篇关于使用Pandas选择数据子集的方法示例的文章就介绍到这了,更多相关Pandas选择数据子集内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python绘制动态水球图过程详解

    Python绘制动态水球图过程详解

    这篇文章主要介绍了Python绘制动态水球图过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • python 命令行界面的用户交互及优化

    python 命令行界面的用户交互及优化

    这篇文章主要为大家介绍了python 命令行界面的用户交互及优化方法详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-11-11
  • python实战教程之OCR文字识别方法汇总

    python实战教程之OCR文字识别方法汇总

    ocr是一种光学字符识别技术,简单来说它能够识别出图像中的文字并且将其给取出来,下面这篇文章主要给大家介绍了关于python实战教程之OCR文字识别方法的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2023-05-05
  • python用matplotlib绘制二维坐标轴,设置箭头指向,文本内容方式

    python用matplotlib绘制二维坐标轴,设置箭头指向,文本内容方式

    这篇文章主要介绍了python用matplotlib绘制二维坐标轴,设置箭头指向,文本内容方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python numpy元素的区间查找方法

    python numpy元素的区间查找方法

    今天小编就为大家分享一篇python numpy元素的区间查找方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • python之yield表达式学习

    python之yield表达式学习

    这篇文章主要介绍了python之yield表达式学习,python中有一个略微奇怪的表达式叫yield expression,本文就来探究一下这是个什么东西,需要的朋友可以参考下
    2014-09-09
  • python判断无向图环是否存在的示例

    python判断无向图环是否存在的示例

    今天小编就为大家分享一篇python判断无向图环是否存在的示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Python爬虫eval实现看漫画漫画柜mhgui实战分析

    Python爬虫eval实现看漫画漫画柜mhgui实战分析

    这篇文章主要为大家介绍了Python爬虫eval实现看漫画漫画柜mhgui实战分析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07
  • python三大器之迭代器、生成器、装饰器

    python三大器之迭代器、生成器、装饰器

    迭代是Python最强大的功能之一,是访问集合元素的一种方式;迭代器是一个可以记住遍历的位置的对象,本文给大家介绍python三大器之迭代器、生成器、装饰器的相关知识,感兴趣的朋友跟随小编一起看看吧
    2022-01-01
  • 基于Django的Admin后台实现定制简单监控页

    基于Django的Admin后台实现定制简单监控页

    Django自带的后台管理是Django明显特色之一,可以让我们快速便捷管理数据。后台管理可以在各个app的admin.py文件中进行控制。本文将主要介绍如何利用Admin后台实现监控页的定制,快来和小编一起学习一下吧
    2021-12-12

最新评论