Python实现高效地读写大型文件

更新时间：2025年01月22日 08:37:43 作者：威哥爱编程

Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下

一、逐行读取大型文件
二、分块读取大型文件
三、使用 mmap 模块进行内存映射文件操作（适用于大文件）
四、使用 pandas 分块处理大型 CSV 文件（适用于 CSV 文件）
五、使用 numpy 分块处理大型二进制文件（适用于二进制文件）
六、使用 itertools 模块进行迭代处理（适用于文本文件）
七、使用 linecache 模块逐行读取大型文件（适用于文本文件）
总结

上一篇给大家介绍如何使用 Python 进行文件读写操作的方法，问题来了，如何读写的是大型文件，有没有什么方法来提高效率呢，不要捉急，这一篇来聊聊如何在Python中高效地读写大型文件。

以下是在 Python 中高效读写大型文件的一些方法：

一、逐行读取大型文件

def read_large_file_line_by_line(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            # 处理每一行的数据，这里仅打印
            print(line.strip())

with open(file_path, 'r') as file：使用 with 语句打开文件，确保文件在使用完毕后自动关闭。
for line in file：文件对象是可迭代的，逐行读取文件内容，避免一次性将整个文件读入内存，节省内存空间，适用于大型文本文件。

二、分块读取大型文件

def read_large_file_in_chunks(file_path, chunk_size=1024):
    with open(file_path, 'r') as file:
        while True:
            data = file.read(chunk_size)
            if not data:
                break
            # 处理读取到的数据块，这里仅打印
            print(data)

file.read(chunk_size)：每次读取指定大小（chunk_size）的数据块，循环读取直到文件结束。
chunk_size 可以根据实际情况调整，一般根据文件大小和可用内存来选择合适的值。

三、使用 mmap 模块进行内存映射文件操作（适用于大文件）

import mmap

def read_large_file_with_mmap(file_path):
    with open(file_path, 'r') as file:
        with mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ) as mmap_obj:
            # 处理映射的数据，这里仅打印
            print(mmap_obj.readline())

mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ)：将文件映射到内存中，实现文件的高效读写，fileno() 方法获取文件描述符。
可以像操作字符串一样操作 mmap_obj，避免了频繁的文件 I/O 操作，提高性能。

四、使用 pandas 分块处理大型 CSV 文件（适用于 CSV 文件）

import pandas as pd

def read_large_csv_in_chunks(csv_file_path):
    chunk_size = 100000  # 每块的行数
    for chunk in pd.read_csv(csv_file_path, chunksize=chunk_size):
        # 处理数据块，这里仅打印
        print(chunk)

pd.read_csv(csv_file_path, chunksize=chunk_size)：将 CSV 文件按块读取，chunksize 为每块的行数。
可以对每个 chunk 进行数据处理，如数据清洗、分析等操作，避免一次性加载整个文件。

五、使用 numpy 分块处理大型二进制文件（适用于二进制文件）

import numpy as np

def read_large_binary_in_chunks(binary_file_path, chunk_size=1024):
    with open(binary_file_path, 'rb') as file:
        while True:
            data = np.fromfile(file, dtype=np.float32, count=chunk_size)
            if data.size == 0:
                break
            # 处理数据块，这里仅打印
            print(data)

np.fromfile(file, dtype=np.float32, count=chunk_size)：从文件中读取二进制数据，dtype 为数据类型，count 为元素数量。
可以根据文件的存储数据类型调整 dtype，按块读取二进制文件。

六、使用 itertools 模块进行迭代处理（适用于文本文件）

import itertools

def read_large_file_with_itertools(file_path, chunk_size=1024):
    with open(file_path, 'r') as file:
        for chunk in itertools.zip_longest(*[iter(file)]*chunk_size):
            chunk = [line.strip() for line in chunk if line]
            # 处理数据块，这里仅打印
            print(chunk)

itertools.zip_longest(*[iter(file)]*chunk_size)：将文件迭代器分组，每组 chunk_size 行，方便分块处理。

七、使用 linecache 模块逐行读取大型文件（适用于文本文件）

import linecache

def read_large_file_with_linecache(file_path, line_number):
    line = linecache.getline(file_path, line_number)
    # 处理指定行的数据，这里仅打印
    print(line.strip())

linecache.getline(file_path, line_number)：从文件中获取指定行的数据，适用于只需要读取文件中某些行的情况，避免读取整个文件。

总结

在处理大型文件时，根据文件类型和操作需求，可灵活使用上述方法，避免一次性将整个文件加载到内存中，从而提高程序的性能和稳定性。同时，可以结合不同的模块和函数，实现复杂的数据处理和分析任务。好了，赶快收藏起来吧，实际工作中你一定会用得到。

到此这篇关于Python实现高效地读写大型文件的文章就介绍到这了,更多相关Python读写大型文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Django集成CAS单点登录的方法示例
这篇文章主要介绍了Django集成CAS单点登录的方法示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-06-06
django数据模型（Model）的字段类型解析
这篇文章主要介绍了django数据模型（Model）的字段类型,文中给大家提到了django数据模型on_delete, db_constraint的使用,需要的朋友可以参考下
2019-12-12
详解从Django Rest Framework响应中删除空字段
这篇文章主要介绍了详解从Django Rest Framework响应中删除空字段，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2019-01-01
利用python实现3种梯度下降算法
梯度下降法是一种优化算法,用于求解函数的最小值或最大值,它通过迭代的方式,沿着函数的梯度方向逐步调整参数,以找到函数的极值点,本文给大家介绍了利用python实现3种梯度下降算法,需要的朋友可以参考下
2023-12-12
python实现按任意键继续执行程序
本文给大家分享的是如何使用Python脚本实现按任意键继续执行程序的代码，非常的简单实用，有需要的小伙伴可以参考下
2016-12-12
python接入使用百度翻译流程
这篇文章主要介绍了利用Python接入百度翻译的实现方法，从而实现中英文互译的功能，文中的示例代码讲解详细，感兴趣的小伙伴可以了解一下
2022-07-07
Python Pandas实现将嵌套JSON数据转换DataFrame
对于复杂的JSON数据进行分析时,通常的做法是将JSON数据结构转换为Pandas DataFrame,所以本文就来看看将嵌套JSON数据转换为Pandas DataFrame的具体方法吧
2024-01-01
python解析Chrome浏览器历史浏览记录和收藏夹数据
大家好，本篇文章主要讲的是python解析Chrome浏览器历史浏览记录和收藏夹数据，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-02-02
Python字符串格式化输出代码实例
这篇文章主要介绍了Python字符串格式化输出代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-11-11
Python交换字典键值对的四种方法实例
字典中有成对出现的键和值,但是字典中的键值对不是都能修改的,只有值才能修改,下面这篇文章主要给大家介绍了关于Python交换字典键值对的四种方法,需要的朋友可以参考下
2022-12-12