Pandas数据集的分块读取的实现

 更新时间:2022年08月08日 15:06:09   作者:文程公子  
本文主要介绍了Pandas数据集的分块读取的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

所谓“分块”,顾名思义,就是将数据集分成几块进行读取,比如有105条数据,一次读取10条,读取11次才能全部读完。以下提供两种分块读取的方法,两种方法各有优劣。

一、直接用分块方式读取数据集文件(更直接)

分块读取数据集文件是指用read_xxx()方法读取存储数据的文件时采用分块的方式,这里以.csv文件为例,在read_csv()中加入chunksize参数即可实现分块读取:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                     chunksize=10)

此时,返回的reader不是DataFrame,而是一个可迭代对象(iteration),需要注意的是,这个可迭代对象不能用下标访问。 下面遍历这个对象:

for r in reader:
    print(r)

遍历结果如下图所示:

这种分块读取方式比较直接,但是由于一开始就定义了分块大小,后续处理起来不够灵活。因此提供了第二种读取方法。

二、先将数据集读取为可迭代对象,再分块读取(更灵活)

 这种方法将数据集文件读取为时可迭代对象不定义分块,用分块的方式读取read_csv()方法返回的可迭代对象。实现第一步要在read_csv()方法中指定参数iterator为True:

reader = pd.read_csv('某招聘网站数据.csv', usecols = ['positionId', 'companyId', 'positionName'],
                    iterator=True)

以下是用分块方式遍历reader,注意使用到的get_chunk()方法和里面的参数,参数定义分块大小,可以灵活调节:

while True:
    try:
        print(reader.get_chunk(10))
    except StopIteration:
        break

总结

综上所述,两种方法都能用pandas实现数据的分块读取,对于数据量较大的数据集还是比较实用的。两种方法的优劣体现在直接性和灵活性上,可以根据实际需求自行选择。

到此这篇关于Pandas数据集的分块读取的实现的文章就介绍到这了,更多相关Pandas数据集分块读取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python检验用户输入密码的复杂度

    Python检验用户输入密码的复杂度

    这篇文章主要介绍了Python检验用户输入密码的复杂度,在用户设置密码的时候检测输入的密码大小写数字等,需要的朋友可以参考下
    2023-04-04
  • python numpy之np.random的随机数函数使用介绍

    python numpy之np.random的随机数函数使用介绍

    这篇文章主要介绍了python numpy之np.random的随机数函数使用介绍,需要的朋友可以参考下
    2019-10-10
  • vue+element-ui动态加载本地图片方式

    vue+element-ui动态加载本地图片方式

    这篇文章主要介绍了vue+element-ui动态加载本地图片方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • 如何在django中实现分页功能

    如何在django中实现分页功能

    这篇文章主要介绍了如何在django中实现分页功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • Python使用yaml模块操作YAML文档的方法

    Python使用yaml模块操作YAML文档的方法

    YAML是可读性高,用来表达数据序列化格式的,专用于写配置文件的语言,这篇文章主要介绍了Python使用yaml模块操作YAML文档,需要的朋友可以参考下
    2023-01-01
  • python异常处理、自定义异常、断言原理与用法分析

    python异常处理、自定义异常、断言原理与用法分析

    这篇文章主要介绍了python异常处理、自定义异常、断言,结合实例形式分析了python异常处理、自定义异常、断言相关概念、原理、用法及操作注意事项,需要的朋友可以参考下
    2020-03-03
  • 用Python做个自动化弹钢琴脚本实现天空之城弹奏

    用Python做个自动化弹钢琴脚本实现天空之城弹奏

    突然灵机一动,能不能用Python自动化脚本弹奏一曲美妙的钢琴曲呢?今天就一起带大家如何用Python实现自动化弹出一首《天空之城》有需要的朋友可以借鉴参考下
    2021-09-09
  • Python FastApi结合异步执行方式

    Python FastApi结合异步执行方式

    这篇文章主要介绍了Python FastApi结合异步执行方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-06-06
  • Python程序实现向MySQL存放图片

    Python程序实现向MySQL存放图片

    这篇文章主要介绍了Python程序实现向MySQL存放图片,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03
  • python查询文件夹下excel的sheet名代码实例

    python查询文件夹下excel的sheet名代码实例

    这篇文章主要介绍了python查询文件夹下excel的sheet名方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04

最新评论