pandas DataFrame 数据选取,修改,切片的实现

 更新时间:2020年04月24日 10:41:59   作者:yoonhee  
这篇文章主要介绍了pandas DataFrame 数据选取,修改,切片的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

在刚开始使用pandas DataFrame的时候,对于数据的选取,修改和切片经常困惑,这里总结了一些常用的操作。

pandas主要提供了三种属性用来选取行/列数据:

属性名 属性
ix 根据整数索引或者行标签选取数据
iloc 根据位置的整数索引选取数据
loc 根据行标签选取数据

先初始化一个DateFrame做例子

import numpy as np
import pandas as pd
df = pd.DataFrame([['Snow','M',22],['Tyrion','M',32],['Sansa','F',18],['Arya','F',14]], columns=['name','gender','age'])

df是这样的

In [35]: df
Out[35]: 
   name  gender age
0  Snow   M    22
1  Tyrion  M    32
2  Sansa  F    18
3  Arya   F    14

如果每列都有column name,比如这里是: 

In [42]: df.columns
Out[42]: Index(['name', 'gender', 'age'], dtype='object')

1. df['column_name'] ,df[row_start_index, row_end_index] 选取指定整列数据

df['name']
df['gender']
df[['name','gender']] #选取多列,多列名字要放在list里
df[0:] #第0行及之后的行,相当于df的全部数据,注意冒号是必须的
df[:2] #第2行之前的数据(不含第2行)
df[0:1] #第0行
df[1:3] #第1行到第2行(不含第3行)
df[-1:] #最后一行
df[-3:-1] #倒数第3行到倒数第1行(不包含最后1行即倒数第1行,这里有点烦躁,因为从前数时从第0行开始,从后数就是-1行开始,毕竟没有-0)

2. loc,在知道列名字的情况下,df.loc[index,column] 选取指定行,列的数据

loc也提供了五种参数形式

input example(摘自官方文档) output
行标签 df.loc[‘viper'] 选取viper那一行
行标签数组 df.loc[[‘viper', ‘sidewinder']] 选取行标签为viper、sidewinder
行标签切片 df.loc[‘cobra':‘viper', ‘max_speed'] 选取从cobra到viper行的max_speed列
布尔值数组 df.loc[[False, False, True]]
函数 df.loc[df[‘shield'] > 6, [‘max_speed']] 选取shield列大于6的那一行的max_speed数据

注意 df.loc[df[‘one']>10]这样的写法是可以正常选出one列大于10的数据

# df.loc[index, column_name],选取指定行和列的数据
df.loc[0,'name'] # 'Snow'
df.loc[0:2, ['name','age']]  #选取第0行到第2行,name列和age列的数据, 注意这里的行选取是包含下标的。
df.loc[[2,3],['name','age']]  #选取指定的第2行和第3行,name和age列的数据
df.loc[df['gender']=='M','name']  #选取gender列是M,name列的数据
df.loc[df['gender']=='M',['name','age']] #选取gender列是M,name和age列的数据

3. iloc,在column name特别长或者index是时间序列等各种不方便输入的情况下,可以用iloc (i = index), iloc完全用数字来定位 iloc[row_index, column_index]

iloc提供了五种参数形式

input example output
整数(行索引) df.iloc[5] 选取第6行数据
整数数组 df.iloc[[1,3,5]] 选取第2,4,6行数据
整数切片 df.iloc[1:3] 选取2~4行数据(不包含第4行数据)
布尔值数组 df.iloc[[True,False,True] 选取第1,3行数据
函数 df.iloc[(df[‘one']>10).tolist()] 选取'one'这列大于10的那一行数据

注意:iloc接受有返回值的函数作为参数,但要保证函数返回的是整数/整数list,布尔值/布尔list

如果直接运行 df.iloc[df[‘one']>10]

则会报错 NotImplementedError: iLocation based boolean indexing on an integer type is not available

因为df[‘one'] > 10 返回的是 series类型的数据

除此之外,还可以进行组合切片

input example output
整数(行索引) df.iloc[5,1] 选取第6行,第2列的数据
整数数组 df.iloc[[1,3],[1,2]] 选取第2,4行;2,3列的数据
整数切片 df.iloc[1:3,1:3] 选取第2,3行;2,3列的数据
布尔值数组 df.iloc[[True,True,False],[True,False,True]] 选取第1,2行;1,3列的数据

要注意的是,我们用df[参数]也可以进行切片,但这种方式容易引起chained indexing 问题。除此之外,**df[lable1][lable2]**的操作是线性的,对lable2的选取是在df[lable1]的基础上进行,速度相对较慢。所以在对数据进行切片的时候尽量使用iloc这类的方法

df.iloc[0,0] #第0行第0列的数据,'Snow'
df.iloc[1,2] #第1行第2列的数据,32
df.iloc[[1,3],0:2] #第1行和第3行,从第0列到第2列(不包含第2列)的数据
df.iloc[1:3,[1,2] #第1行到第3行(不包含第3行),第1列和第2列的数据

4. ix, ix很强大,loc和iloc的功能都能做到 ix[row_index, column_index]

ix虽然强大,然而已经不再被推荐,因为在最新版的pandas里面,ix已经成为deprecated。(https://github.com/pandas-dev/pandas/issues/14218

大概是因为可以混合label和position导致了很多用户问题和bug。

所以,用label就用loc,用position就用iloc。

df.ix[0,0] #第0行第0列的数据,'Snow'
df.ix[0,[1,2]] #第0行,第1列和第2列的数据
df.ix[0:2,[1,2]] #第0行到第2行(包含第3行),第1列和第2列的数据
df.ix[1,0:2] #第1行,从第0列到第2列(不包含第2列)的数据

切片时,iloc行不含下标上限,loc,ix行包含,列iloc和ix都不含列下标上限。(设计者的缺憾。。。)

 到此这篇关于pandas DataFrame 数据选取,修改,切片的实现的文章就介绍到这了,更多相关pandas  数据选取,修改,切片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 在Python中过滤Windows文件名中的非法字符方法

    在Python中过滤Windows文件名中的非法字符方法

    今天小编就为大家分享一篇在Python中过滤Windows文件名中的非法字符方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • 华为2019校招笔试题之处理字符串(python版)

    华为2019校招笔试题之处理字符串(python版)

    这篇文章主要为大家详细介绍了华为2019校招笔试题之处理字符串,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-06-06
  • python文件处理--文件读写详解

    python文件处理--文件读写详解

    这篇文章主要介绍了Python 处理文件的几种方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-08-08
  • 基于python 等频分箱qcut问题的解决

    基于python 等频分箱qcut问题的解决

    这篇文章主要介绍了基于python 等频分箱qcut问题的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-03-03
  • python 引用传递和值传递详解(实参,形参)

    python 引用传递和值传递详解(实参,形参)

    这篇文章主要介绍了python 引用传递和值传递详解(实参,形参)。具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • Python使用docx模块处理word文档流程详解

    Python使用docx模块处理word文档流程详解

    这篇文章主要介绍了Python使用docx模块处理word文档流程,docx模块是用于创建和更新Microsoft Word文件的Python库,用于办公可以显著提升工作效率,感兴趣的同学可以参考下文
    2023-05-05
  • django 认证类配置实现

    django 认证类配置实现

    本文主要介绍了django 认证类配置实现,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-11-11
  • python skimage图像处理

    python skimage图像处理

    这篇文章主要为大家介绍了python skimage图像处理,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-06-06
  • Python实现线性搜索算法的示例代码

    Python实现线性搜索算法的示例代码

    线性搜索算法,也称为顺序搜索算法,是一种简单但常用的搜索技术,在本文中,将深入研究线性搜索算法,并演示如何在 Python 中实现它,需要的可以参考下
    2024-02-02
  • 如何使用Python数据清洗库

    如何使用Python数据清洗库

    数据清洗是数据处理过程中至关重要的一部分,本文主要介绍了如何使用Python数据清洗库,具有一定的参考价值,感兴趣的可以了解一下
    2023-12-12

最新评论