Python 数据分析之逐块读取文本的实现

 更新时间:2020年12月14日 14:19:34   作者:毕小宝  
这篇文章主要介绍了Python 数据分析之逐块读取文本的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

背景

《利用Python进行数据分析》,第 6 章的数据加载操作 read_xxx,有 chunksize 参数可以进行逐块加载。

经测试,它的本质就是将文本分成若干块,每次处理 chunksize 行的数据,最终返回一个TextParser 对象,对该对象进行迭代遍历,可以完成逐块统计的合并处理。

示例代码

文中的示例代码分析如下:

from pandas import DataFrame,Series
import pandas as pd
 
path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'
# chunksize return TextParser
chunker=pd.read_csv(path,chunksize=1000)
 
# an array of Series
tot=Series([])
chunkercount=0
for piece in chunker:
	print '------------piece[key] value_counts start-----------'
	#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column
	print piece['key'].value_counts()
	print '------------piece[key] value_counts end-------------'
	#piece[key] value_counts is a Series ,key is the key column, and value is the key count
	tot=tot.add(piece['key'].value_counts(),fill_value=0)
	chunkercount+=1
 
#last order the series
tot=tot.order(ascending=False)
print chunkercount
print '--------------'

流程分析

首先,例子数据 ex6.csv 文件总共有 10000 行数据,使用 chunksize=1000 后,read_csv操作返回一个 TextParser 对象,该对象总共有10个元素,遍历过程中打印 chunkercount验证得到。

其次,每个 piece 对象是一个 DataFrame 对象,piece['key'] 得到的是一个 Series 对象,默认是数值索引,值为 csv 文件中的 key 列的值,即各个字符串。

将每个 Series 的 value_counts 作为一个Series,与上一次统计的 tot 结果进行 add 操作,最终得到所有块数据中各个 key 的累加值。

最后,对 tot 进行 order 排序,按降序得到各个 key 的值在 csv 文件中出现的总次数。

这里很巧妙了使用 Series 对象的 add 操作,对两个 Series 执行 add 操作,即合并相同key:key相同的记录的值累加,key不存在的记录设置填充值为0

输出结果为:

在这里插入图片描述

到此这篇关于Python 数据分析之逐块读取文本的实现的文章就介绍到这了,更多相关Python 逐块读取文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python cv2.waitKey()函数的使用

    python cv2.waitKey()函数的使用

    这篇文章主要介绍了python cv2.waitKey()函数的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-01-01
  • 深入浅析Python中的迭代器

    深入浅析Python中的迭代器

    迭代器是实现了迭代器协议的类对象,迭代器协议规定了迭代器类必需定义__next()__方法。这篇文章主要介绍了Python中的迭代器,需要的朋友可以参考下
    2019-06-06
  • Python多进程与多线程的使用场景详解

    Python多进程与多线程的使用场景详解

    这篇文章主要给大家介绍了关于Python多进程与多线程使用场景的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03
  • 使用IPython下的Net-SNMP来管理类UNIX系统的教程

    使用IPython下的Net-SNMP来管理类UNIX系统的教程

    这篇文章主要介绍了使用IPython下的Net-SNMP来管理类UNIX系统的教程,本文来自于IBM官方网站技术文档,需要的朋友可以参考下
    2015-04-04
  • python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例

    python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例

    今天小编就为大家分享一篇python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-06-06
  • Python自动修改电脑静态IP地址的实现示例

    Python自动修改电脑静态IP地址的实现示例

    通过Python自动修改电脑的静态IP地址可以极大地提高我们的工作效率,减少手动修改IP地址带来的错误,本文就来介绍一下Python自动修改电脑静态IP地址的实现示例,感兴趣的可以了解一下
    2023-11-11
  • Python竟然能剪辑视频

    Python竟然能剪辑视频

    平时我们在刷短视频或者看到一些视频的时候,希望可以把视频里面的音频提取出来当背景音乐究竟是怎么操作的呢,下面小编教大家python如何去提取一个视频里面的音频,感兴趣的朋友一起看看吧
    2021-05-05
  • Python加速程序运行的方法

    Python加速程序运行的方法

    这篇文章主要介绍了Python加速程序运行的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-07-07
  • 深入理解Python 多线程

    深入理解Python 多线程

    这篇文章主要介绍了Python 多线程的相关知识,文中讲解的非常详细,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-06-06
  • python爬虫_自动获取seebug的poc实例

    python爬虫_自动获取seebug的poc实例

    下面小编就为大家带来一篇python爬虫_自动获取seebug的poc实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-08-08

最新评论