pandas中的DataFrame数据遍历解读

 更新时间:2022年12月13日 15:31:31   作者:大虾飞哥哥  
这篇文章主要介绍了pandas中的DataFrame数据遍历解读,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

pandas DataFrame数据遍历

读取csv内容,格式与数据类型如下

data = pd.read_csv('save\LH8888.csv')
print(type(data))
print(data)

输出结果如下:

960664c.png)

按行遍历数据:iterrows

获取行名:名字、年龄、身高、体重

for i, line in data.iterrows():
	print(i)
    print(line)
    print(line['date'])  

输出结果如下:

  • i:是数据的索引,表示第几行数据
  • line:是每一行的具体数据
  • line[‘date’]:通过字典的方式,能够读取数据

按行遍历数据:itertuples

for line in data.itertuples():
    print(line)

输出结果如下:

访问date方式如下:

for line in data.itertuples():
    print(line)
    print(getattr(line, 'date'))
    print(line[1])

输出结果如下:

按列遍历数据:iteritems

for i, index in data.iteritems():
    print(index)

输出结果如下,使用方式同iterrows。

读取和修改某一个数据

例如:我们想要读取 行索引为:1,列索引为:volume的值 27,代码如下:

  • iloc:需要输入索引值,索引从0开始
  • loc:需要输入对应的行名和列名
print(data.iloc[1, 5])
print(data.loc[1, 'volume'])

例如:我们想要将 行索引为:1,列索引为:volume的值 27 修改为10,代码如下:

data.iloc[1, 5] = 10
print(data.loc[1, 'volume'])
print(data)

输出结果如下:

遍历dataframe中每一个数据

for i in range(data.shape[0]):
    for j in range(data.shape[1]):
        print(data.iloc[i, j])

输出结果如下,按行依次打印:

dataframe遍历效率对比

构建数据

import pandas as pd
import numpy as np

# 生成樣例數據
def gen_sample():
    aaa = np.random.uniform(1,1000,3000)
    bbb = np.random.uniform(1,1000,3000)
    ccc = np.random.uniform(1,1000,3000)
    ddd = np.random.uniform(1,1000,3000)
    return pd.DataFrame({'aaa':aaa,'bbb':bbb, 'ccc': ccc, 'ddd': ddd})

9种遍历方法

# for + iloc 定位
def method0_sum(DF):
    for i in range(len(DF)):
        a = DF.iloc[i,0] + DF.iloc[i,1]

# for + iat 定位
def method1_sum(DF):
    for i in range(len(DF)):
        a = DF.iat[i,0] + DF.iat[i,1]

# pandas.DataFrame.iterrows() 迭代器
def method2_sum(DF):
    for index, rows in DF.iterrows():
        a = rows['aaa'] + rows['bbb']

# pandas.DataFrame.apply 迭代
def method3_sum(DF):
    a = DF.apply(lambda x: x.aaa + x.bbb, axis=1)

# pandas.DataFrame.apply 迭代 
def method4_sum(DF):
    a = DF[['aaa','bbb']].apply(lambda x: x.aaa + x.bbb, axis=1)
    
# 列表
def method5_sum(DF):
    a = [ a+b for a,b in zip(DF['aaa'],DF['bbb']) ]

# pandas  
def method6_sum(DF):
    a = DF['aaa'] + DF['bbb']

# numpy 
def method7_sum(DF):
    a = DF['aaa'].values + DF['bbb'].values
    
# for + itertuples
def method8_sum(DF):
    for row in DF.itertuples():
        a = getattr(row, 'aaa') + getattr(row, 'bbb')
        

效率对比

df = gen_sample()
print('for + iloc 定位:')
%timeit method0_sum(df)

df = gen_sample()
print('for + iat 定位:')
%timeit method1_sum(df)

df = gen_sample()
print('apply 迭代:')
%timeit method3_sum(df)

df = gen_sample()
print('apply 迭代 + 兩列:')
%timeit method4_sum(df)

df = gen_sample()
print('列表:')
%timeit method5_sum(df)

df = gen_sample()
print('pandas 数组操作:')
%timeit method6_sum(df)

df = gen_sample()
print('numpy 数组操作:')
%timeit method7_sum(df)

df = gen_sample()
print('for itertuples')
%timeit method8_sum(df)

df = gen_sample()
print('for iteritems')
%timeit method9_sum(df)

df = gen_sample()
print('for iterrows:')
%timeit method2_sum(df)

结果:

for + iloc 定位:
225 ms ± 9.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
for + iat 定位:
201 ms ± 6.37 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代:
88.3 ms ± 2.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
apply 迭代 + 兩列:
91.2 ms ± 5.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
列表:
1.12 ms ± 54.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
pandas 数组操作:
262 µs ± 9.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
numpy 数组操作:
14.4 µs ± 383 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
for itertuples
6.4 ms ± 265 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
for iterrows:
330 ms ± 22.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

说下结论

numpy数组 > iteritems > pandas数组 > 列表 > itertuples > apply > iat > iloc > iterrows

itertuples > iterrows ;快50倍

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python3远程监控程序的实现方法

    Python3远程监控程序的实现方法

    今天小编就为大家分享一篇Python3远程监控程序的实现方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python Django框架介绍之模板标签及模板的继承

    Python Django框架介绍之模板标签及模板的继承

    今天给大家带来Python Django框架的相关知识,文中对模板标签及模板的继承介绍的非常详细,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-05-05
  • Python for循环生成列表的实例

    Python for循环生成列表的实例

    今天小编就为大家分享一篇Python for循环生成列表的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • 浅析python中的迭代与迭代对象

    浅析python中的迭代与迭代对象

    在本文总小编给大家整理了关于python之中的迭代与迭代对象的相关基础知识点内容,需要的朋友们学习下。
    2018-10-10
  • python基础知识(一)变量与简单数据类型详解

    python基础知识(一)变量与简单数据类型详解

    这篇文章主要介绍了python变量与简单数据类型详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python基础之类方法和静态方法

    python基础之类方法和静态方法

    这篇文章主要介绍了python类方法和静态方法,实例分析了Python中返回一个返回值与多个返回值的方法,需要的朋友可以参考下
    2021-10-10
  • 详解Python查找谁删了你的微信

    详解Python查找谁删了你的微信

    微信好友长时间不联系就可能被对方删除,但是微信也不会主动通知你。那么我们就来用python写一个工具查验一下谁删除了你的微信
    2022-02-02
  • Python实现计算字符串中出现次数最多的字符示例

    Python实现计算字符串中出现次数最多的字符示例

    这篇文章主要介绍了Python实现计算字符串中出现次数最多的字符,涉及Python针对字符串的遍历、统计等相关操作技巧,需要的朋友可以参考下
    2019-01-01
  • python 多线程中join()的作用

    python 多线程中join()的作用

    这篇文章主要介绍了python 多线程中join()的作用,通过代码实践来加深对 join()的认识,帮助大家更好的理解和学习python 多线程,感兴趣的朋友可以了解下
    2020-10-10
  • python程序 线程队列queue使用方法解析

    python程序 线程队列queue使用方法解析

    这篇文章主要介绍了python程序 线程队列queue使用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09

最新评论