pandas高效读取大文件的示例详解

更新时间：2024年01月29日 08:07:49 作者：databook

使用 pandas 进行数据分析时,第一步就是读取文件,所以这篇文章主要来和大家讨论一下pandas如何高效读取大文件,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下

1. 准备部分

首先，准备数据。

下面的测试用的数据是一些虚拟币的交易数据，除了常用的K线数据之外，还包含很多分析因子的值。

import pandas as pd

fp = "all_coin_factor_data_12H.csv"
df = pd.read_csv(fp, encoding="gbk")
df.shape

# 运行结果
(398070, 224)

总数据量接近40万，每条数据有224个属性。

然后，封装一个简单的装饰器来计时函数运行时间。

from time import time

def timeit(func):
    def func_wrapper(*args, **kwargs):
        start = time()
        ret = func(*args, **kwargs)
        end = time()
        spend = end - start
        print("{} cost time: {:.3f} s".format(func.__name__, spend))
        return ret

    return func_wrapper

2. 正常读取

先看看读取这样规模的数据，需要多少时间。

下面的示例中，循环读取10次上面准备的数据all_coin_factor_data_12H.csv。

import pandas as pd

@timeit
def read(fp):
    df = pd.read_csv(
        fp,
        encoding="gbk",
        parse_dates=["time"],
    )
    return df

if __name__ == "__main__":
    fp = "./all_coin_factor_data_12H.csv"
    for i in range(10):
        read(fp)

运行结果如下：

读取一次大概27秒左右。

3. 压缩读取

读取的文件all_coin_factor_data_12H.csv大概1.5GB左右，pandas是可以直接读取压缩文件的，尝试压缩之后读取性能是否能够提高。

压缩之后，大约 615MB 左右，压缩前大小的一半不到点。

import pandas as pd

@timeit
def read_zip(fp):
    df = pd.read_csv(
        fp,
        encoding="gbk",
        parse_dates=["time"],
        compression="zip",
    )
    return df

if __name__ == "__main__":
    fp = "./all_coin_factor_data_12H.zip"
    for i in range(10):
        read_zip(fp)

运行结果如下：

读取一次大概34秒左右，还不如直接读取来得快。

4. 分批读取

接下来试试分批读取能不能提高速度，分批读取的方式是针对数据量特别大的情况，单机处理过亿数据量的时候，经常会用到这个方法，防止内存溢出。

先试试每次读取1万条：

import pandas as pd

@timeit
def read_chunk(fp, chunksize=1000):
    df = pd.DataFrame()
    reader = pd.read_csv(
        fp,
        encoding="gbk",
        parse_dates=["time"],
        chunksize=chunksize,
    )
    for chunk in reader:
        df = pd.concat([df, chunk])

    df = df.reset_index()
    return df

if __name__ == "__main__":
    fp = "./all_coin_factor_data_12H.csv"
    for i in range(10):
        read_chunk(fp, 10000)

运行结果如下：

和读取压缩文件的性能差不多。

如果调整成每次读取10万条，性能会有一些微提高。

分批读取时，一次读取的越多（只要内存够用），速度越快。

其实我也试了一次读取1千条的性能，非常慢，这里就不截图了。

5. 使用polars读取

前面尝试的方法，效果都不太好，下面引入一个和pandas兼容的库Polars。

Polars是一个高性能的DataFrame库，它主要用于操作结构化数据。

它是用Rust写的，主打就是高性能。

使用Polars读取文件之后返回的Dataframe虽然和pandas的DataFrame不完全一样，当可以通过一个简单的to_pandas方法来完成转换。

下面看看使用Polars读取文件的性能：

import polars as pl

@timeit
def read_pl(fp):
    df = pl.read_csv(
        fp,
        encoding="gbk",
        try_parse_dates=True,
    )
    return df.to_pandas()

if __name__ == "__main__":
    fp = "./all_coin_factor_data_12H.csv"
    for i in range(10):
        read_pl(fp)

运行结果如下：

使用Polars后性能提高非常明显，看来，混合使用Polars和pandas是一个不错的方案。

6. 序列化后读取

最后这个方法，其实不是直接读取原始数据，而是将原始数据转换为python自己的序列化格式（pickle）之后，再去读取。

这个方法多了一个转换的步骤：

fp = "./all_coin_factor_data_12H.csv"
df = read(fp)
df.to_pickle("./all_coin_factor_data_12H.pkl")

生成一个序列化文件：all_coin_factor_data_12H.pkl。

然后，测试下读取这个序列化文件的性能。

@timeit
def read_pkl(fp):
    df = pd.read_pickle(fp)
    return df

if __name__ == "__main__":
    fp = "./all_coin_factor_data_12H.pkl"
    for i in range(10):
        read_pkl(fp)

运行结果如下：

这个性能出乎意料之外的好，而且csv文件序列化成pkl文件之后，占用磁盘的大小也只有原来的一半。

csv文件1.5GB左右，pkl文件只有690MB。

这个方案虽然性能惊人，但也有一些局限，首先是原始文件不能是那种实时变化的数据，因为原始csv文件转换为pkl文件也是要花时间的（上面的测试没有算这个时间）。

其次，序列化之后的pkl文件是python专用的，不像csv文件那样通用，不利于其他非python的系统使用。

7. 总结

本文探讨了一些pandas读取大文件的优化方案，最后比较好的就是Polars方案和pickle序列化方案。

如果我们的项目是分析固定的数据，比如历史的交易数据，历史天气数据，历史销售数据等等，那么，就可以考虑pickle序列化方案，先花时间讲原始数据序列化，后续的分析中不担心读取文件浪费时间，可以更高效的尝试各种分析思路。

除此之外的情况，建议使用Polars方案。

最后补充一点，如果读取文件的性能对你影响不大，那就用原来的方式，千万不要画蛇添足的去优化，把精力花在数据分析的业务上。

以上就是pandas高效读取大文件的示例详解的详细内容，更多关于pandas读取大文件的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

Python爬虫小练习之爬取并分析腾讯视频m3u8格式
读万卷书不如行万里路，学的扎不扎实要通过实战才能看出来，本篇文章手把手带你爬下腾讯视频的m3u8格式来分析,大家可以在过程中查缺补漏，看看自己掌握程度怎么样
2021-10-10
Python中的strip()的用法介绍和语法详细讲解
这篇文章主要介绍了Python中的strip()用法介绍和语法的相关资料,strip()是Python中字符串（str）对象的一个内置方法,用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）,需要的朋友可以参考下
2025-07-07
通过pycharm使用git的步骤(图文详解)
这篇文章主要介绍了通过pycharm使用git的步骤(图文详解)，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-06-06
Python绘制3D立体花朵示例详解
情人节送玫瑰花千篇一律？本文将为大家介绍利用Python绘制多种3D立体花朵的示例代码，让女友感受一下程序员的浪漫！快来跟随小编一起学习一下吧
2021-12-12
Python操作多维数组输出和矩阵运算示例
这篇文章主要介绍了Python操作多维数组输出和矩阵运算,结合实例形式分析了Python多维数组的生成、打印输出及矩阵运算相关操作技巧,需要的朋友可以参考下
2019-11-11
Python 的矩阵传播机制Broadcasting和矩阵运算
这篇文章主要介绍了Python 的矩阵传播机制Broadcasting和矩阵运算,文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
2022-06-06
python 多线程死锁问题的解决方案
这篇文章主要介绍了python 多线程死锁问题的解决方案，帮助大家更好的理解和学习python 锁，感兴趣的朋友可以了解下
2020-08-08
python人工智能tensorflow构建卷积神经网络CNN
学习神经网络已经有一段时间，从普通的BP神经网络到LSTM长短期记忆网络都有一定的了解，但是从未系统的把整个神经网络的结构记录下来，我相信这些小记录可以帮助我更加深刻的理解神经网络
2022-05-05
Python3.4学习笔记之列表、数组操作示例
这篇文章主要介绍了Python3.4列表、数组操作,结合实例形式分析了Python3.4列表的创建、元素追加、删除、排序等相关操作技巧,需要的朋友可以参考下
2019-03-03
Python 中如何实现参数化测试的方法示例
这篇文章主要介绍了Python 中如何实现参数化测试的方法示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-12-12