Python中几种高效读取大文件的完整指南

更新时间：2025年06月30日 11:14:46 作者：北辰alk

处理大型文件时,我们需要采用特殊的技术来避免内存溢出,本文主要介绍了Python中几种高效读取大文件的完整指南,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

在处理大型文件时（如内存只有4G却要读取8G的文件），我们需要采用特殊的技术来避免内存溢出。以下是几种高效读取大文件的方法。

一、基本方法：逐行读取

1. 使用文件对象的迭代器

最简单的方法是直接迭代文件对象，Python会自动使用缓冲IO以高效的方式处理：

with open('large_file.txt', 'r', encoding='utf-8') as f:
    for line in f:  # 逐行读取，内存友好
        process_line(line)  # 处理每一行

2. 明确使用 readline()

with open('large_file.txt', 'r') as f:
    while True:
        line = f.readline()
        if not line:  # 到达文件末尾
            break
        process_line(line)

二、分块读取方法

对于非文本文件或需要按块处理的情况：

1. 指定缓冲区大小

BUFFER_SIZE = 1024 * 1024  # 1MB的缓冲区

with open('large_file.bin', 'rb') as f:
    while True:
        chunk = f.read(BUFFER_SIZE)
        if not chunk:  # 文件结束
            break
        process_chunk(chunk)

2. 使用 iter 和 partial

更Pythonic的分块读取方式：

from functools import partial

chunk_size = 1024 * 1024  # 1MB
with open('large_file.bin', 'rb') as f:
    for chunk in iter(partial(f.read, chunk_size), b''):
        process_chunk(chunk)

三、内存映射文件 (mmap)

对于需要随机访问的大型文件：

import mmap

with open('large_file.bin', 'r+b') as f:
    # 创建内存映射
    mm = mmap.mmap(f.fileno(), 0)
    
    # 像操作字符串一样操作文件
    print(mm[:100])  # 读取前100字节
    
    # 可以搜索内容
    index = mm.find(b'some_pattern')
    if index != -1:
        print(f"Found at position {index}")
    
    mm.close()  # 记得关闭映射

四、使用生成器处理

将文件处理逻辑封装为生成器：

def read_large_file(file_path, chunk_size=1024*1024):
    """生成器函数，逐块读取大文件"""
    with open(file_path, 'rb') as f:
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            yield chunk

# 使用生成器
for chunk in read_large_file('huge_file.bin'):
    process_chunk(chunk)

五、处理压缩文件

对于大型压缩文件，可以使用流式解压：

1. gzip 文件

import gzip
import shutil

with gzip.open('large_file.gz', 'rb') as f_in:
    with open('large_file_extracted', 'wb') as f_out:
        shutil.copyfileobj(f_in, f_out)  # 流式复制

2. zip 文件

import zipfile

with zipfile.ZipFile('large_file.zip', 'r') as z:
    with z.open('file_inside.zip') as f:
        for line in f:
            process_line(line)

六、多线程/多进程处理

对于需要并行处理的情况：

1. 多线程处理不同块

from concurrent.futures import ThreadPoolExecutor
import os

def process_chunk(start, end, file_path):
    """处理文件的指定部分"""
    with open(file_path, 'rb') as f:
        f.seek(start)
        chunk = f.read(end - start)
        # 处理chunk...

def parallel_file_processing(file_path, num_threads=4):
    file_size = os.path.getsize(file_path)
    chunk_size = file_size // num_threads
    
    with ThreadPoolExecutor(max_workers=num_threads) as executor:
        futures = []
        for i in range(num_threads):
            start = i * chunk_size
            end = start + chunk_size if i != num_threads - 1 else file_size
            futures.append(executor.submit(process_chunk, start, end, file_path))
        
        # 等待所有任务完成
        for future in concurrent.futures.as_completed(futures):
            future.result()

七、使用第三方库

1. Dask - 用于超大型数据集

import dask.dataframe as dd

# 创建延迟计算的DataFrame
df = dd.read_csv('very_large_file.csv', blocksize=25e6)  # 25MB每块

# 执行操作（惰性计算）
result = df.groupby('column').mean().compute()  # 实际计算

2. PyTables - 处理HDF5格式

import tables

# 打开HDF5文件
h5file = tables.open_file('large_data.h5', mode='r')

# 访问数据集
table = h5file.root.data.table
for row in table.iterrows():  # 迭代访问
    process_row(row)

h5file.close()

八、数据库替代方案

对于需要频繁查询的大型数据，考虑使用数据库：

1. SQLite

import sqlite3

# 将数据导入SQLite
conn = sqlite3.connect(':memory:')  # 或磁盘数据库
cursor = conn.cursor()
cursor.execute('CREATE TABLE data (col1, col2, col3)')

# 批量插入数据
with open('large_file.csv') as f:
    # 使用生成器避免内存问题
    data_gen = (line.strip().split(',') for line in f)
    cursor.executemany('INSERT INTO data VALUES (?, ?, ?)', data_gen)

conn.commit()

九、性能优化技巧

缓冲区大小选择：
- 通常8KB到1MB之间效果最好
- 可通过实验找到最佳大小
二进制模式 vs 文本模式：
- 二进制模式('rb')通常更快
- 文本模式('r')需要处理编码，但更方便
操作系统缓存：
- 现代OS会自动缓存频繁访问的文件部分
- 多次读取同一大文件时，第二次会快很多
避免不必要的处理：
- 尽早过滤掉不需要的数据
- 使用生成器保持内存效率

十、完整示例：处理超大CSV文件

import csv
from collections import namedtuple
from itertools import islice

def process_large_csv(file_path, batch_size=10000):
    """分批处理大型CSV文件"""
    
    # 定义行结构
    CSVRow = namedtuple('CSVRow', ['id', 'name', 'value'])
    
    with open(file_path, 'r', encoding='utf-8') as f:
        reader = csv.reader(f)
        headers = next(reader)  # 跳过标题行
        
        while True:
            # 读取一批行
            batch = list(islice(reader, batch_size))
            if not batch:
                break  # 文件结束
                
            # 处理批次
            rows = [CSVRow(*row) for row in batch]
            process_batch(rows)
            
            # 可选：显示进度
            print(f"Processed {len(batch)} rows")

def process_batch(rows):
    """处理一批数据"""
    # 这里添加实际处理逻辑
    pass

# 使用
process_large_csv('huge_dataset.csv')

十一、总结

处理大文件的关键原则：

不要一次性加载到内存：始终使用迭代或分块方式
选择合适的数据结构：根据需求选择逐行、分块或内存映射
考虑并行处理：对于CPU密集型处理
利用生成器：保持内存效率
考虑专业工具：如Dask、PyTables等

通过以上技术，即使内存有限，也能高效处理远大于内存的文件。记住，正确的I/O策略可以显著影响程序性能，特别是对于大型数据集。

到此这篇关于Python中几种高效读取大文件的完整指南的文章就介绍到这了,更多相关Python 读取大文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python中enumerate()函数编写更Pythonic的循环
本篇文章主要大家通过实例讲述了Python中enumerate()函数编写更Pythonic的循环的知识点，有兴趣的朋友参考学习下。
2018-03-03
对python中各个response的使用说明
今天小编就为大家分享一篇对python中各个response的使用说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
python生成IP段的方法
这篇文章主要介绍了python生成IP段的方法,涉及Python文件读写及随机数操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
python GUI库图形界面开发之PyQt5信号与槽机制、自定义信号基础介绍
这篇文章主要介绍了python GUI库图形界面开发之PyQt5信号与槽机制基础介绍,需要的朋友可以参考下
2020-02-02
python列表数据增加和删除的具体实例
在本篇文章里小编给大家整理的是一篇关于python列表数据增加和删除的具体实例内容，有兴趣的朋友们可以学习下。
2021-05-05
如何基于Python代码实现高精度免费OCR工具
这篇文章主要介绍了如何基于Python代码实现高精度免费OCR工具,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
python基于tkinter制作m3u8视频下载工具
这篇文章主要介绍了python如何基于tkinter制作m3u8视频下载工具，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-04-04
Python绘制热力图示例
这篇文章主要介绍了Python绘制热力图,结合实例形式分析了Python使用pyheatmap及matplotlib模块进行数值计算与图形绘制相关操作技巧,需要的朋友可以参考下
2019-09-09
Python 实现一个颜色色值转换的小工具
这篇文章主要介绍了Python 实现一个颜色色值转换的小工具的相关资料,需要的朋友可以参考下
2016-12-12
Python执行JS代码的三种方式
以前的数据靠买,现在的数据靠爬”,越来越多的学者通过网络爬虫来获取数据,但是做爬虫的人都知道,现在的很多网站都在和我们斗智斗勇,防护普遍越来越好,破解JS加密只是第一步,之后就是如何在我们的Python代码中直接执行JS,下面介绍一下几种Python中执行JS代码的方法
2024-01-01