Python3读取和处理超大文件的操作详解

更新时间：2024年04月19日 10:23:33 作者：rs勿忘初心

在日常工作中,文件对象是我们常接触到的可迭代类型之一,一般用 for 循环遍历一个文件对象,可以逐行读取它的内容,但这种方式在碰到大文件时,可能会出现一些奇怪的效率问题,所以本文给大家介绍了Python3读取和处理超大文件的操作,需要的朋友可以参考下

需求：

小明是一位 Python 初学者，在学习了如何用 Python 读取文件后，他想要做一个小练习：计算某个文件中数字字符（0～9）的数量。

场景1：小文件处理

假设现在有一个测试用的小文件 small_file.txt，里面包含了一行行的随机字符串：

feiowe9322nasd9233rl
aoeijfiowejf8322kaf9a
...

代码示例：file_process.py

def count_digits(fname):
    """计算文件里包含多少个数字字符"""
    count = 0
   
     with open(fname) as file:
        for line in file:
            for s in line:
                if s.isdigit():
                    count += 1
    return count
 
 
fname = "./small_file.txt"
print(count_digits(fname))

运行结果：

# 运行脚本
python3 ./file_process.py
 
# 输出结果
13

场景2：大文件处理

假设现在我们的大文件big_file.txt，大小有5G，且所有的文本都在一行。

大文件 big_file.txt

df2if283rkwefh... <剩余 5 GB 大小> ...

却发现同样的程序花费了一分多钟才给出结果，并且整个执行过程耗光了笔记本电脑的全部 4G 内存。

问题分析：

为什么同一份代码用于大文件时，效率就会变低这么多呢？原因就藏在小明读取文件的方法里。

在代码里所使用的文件读取方式，可谓 Python 里的“标准做法”：首先用 with open (fine_name) 上下文管理器语法获得一个文件对象，然后用 for 循环迭代它，逐行获取文件里的内容。为什么这种文件读取方式会成为标准？这是因为它有两个好处：

(1) with 上下文管理器会自动关闭文件描述符；

(2) 在迭代文件对象时，内容是一行一行返回的，不会占用太多内存。

不过这套标准做法虽好，但不是没有缺点。假如被读取的文件里根本就没有任何换行符，那么上面列的第 (2) 个好处就不再成立。缺少换行符以后，程序遍历文件对象时就不知道该何时中断，最终只能一次性生成一个巨大的字符串对象，白白消耗大量时间和内存。这就是 count_digits() 函数在处理 big_file.txt 时变得异常缓慢的原因。

要解决这个问题，我们需要把这种读取文件的“标准做法”暂时放到一边。

解决方法：

使用 while 循环加 read() 方法分块读取。

除了直接遍历文件对象来逐行读取文件内容外，我们还可以调用更底层的 file.read() 方法。与直接用循环迭代文件对象不同，每次调用 file.read(chunk_size), 会马上读取从当前游标位置往后 chunk_size 大小的文件内容，不必等待任何换行符出现。有了 file.read() 方法的帮助，优化后的代码：

def count_digits_v2(fname):
    """计算文件里包含多少个数字字符，每次读取 8 KB"""
    count = 0
    block_size = 1024 * 8
    with open(fname) as file:
        while True:
            chunk = file.read(block_size)
            # 当文件没有更多内容时，read 调用将会返回空字符串 ''
            if not chunk:
                break
            for s in chunk:
                if s.isdigit():
                    count += 1
    return count
 
 
fname = "./big_file.txt"
print(count_digits_v2(fname))

在新函数中，我们使用了一个 while 循环来读取文件内容，每次最多读 8 KB，程序不再需要在内存中拼接长达数吉字节的字符串，内存占用会大幅降低。

（吉字节是一种数据存储单位，通常用于表示大容量存储设备的容量大小。它等于1024^3（1,073,741,824）字节，或者1,024兆字节。在计算机领域，常用于描述大型文件、程序或数据集的大小，例如硬盘容量、内存容量等。）

拓展：用Python读取超大文件中的部分行

Python文件读取一直是python的常见用法，通用方法是直接readlines加载所有行。
但是，对于超大文件（如100G的tsv），直接加载所有行会非常慢。

如果是想遍历整个文件并处理每一行，其实并不需要一次加载所有行。

这里用迭代器的方法来读取文件：

file_name = 'all_items.tsv'
start_line = 110000
end_line = 120000
with open(file_name) as f:
	for i in range(0, start_line):
        next(f)
    lines = [next(f) for i in range(start_line, end_line)]
print(len(lines))

对于大文件all_items.tsv，咱们只读取某一个区间的行来进行处理。先用迭代器滚动到start_line的位置，再开始读取。
如果咱们可以利用迭代器，把这个文件的行遍历一遍（并对行进行处理）：

file_name = 'all_items.tsv'
def process_line(line):
    return line
with open(file_name) as f:
    while True:
        try:
            line = next(f)
            process_line(line)
        except StopIteration:
            break

用一个while循环就可以完成从头到尾行的遍历。

以上就是Python3读取和处理超大文件的操作详解的详细内容，更多关于Python3读取和处理超大文件的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

selenium获取当前页面的url、源码、title的方法
这篇文章主要介绍了selenium获取当前页面的url、源码、title的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-06-06
Python列表与元组操作技巧分享
Python 中的列表（List）和元组（Tuple）是两种常用的数据结构,它们都可以用来存储一系列的元素,在本文中,我们将分享一些 Python 中列表和元组的操作技巧,帮助您更好地理解它们的用法和特性,需要的朋友可以参考下
2024-05-05
python pip安装库下载源更换(清华源、阿里源、中科大源、豆瓣源)
为了提高Python包的下载速度和稳定性,可以配置国内的镜像源,如清华源、阿里源、中科大源和豆瓣源,设置方法简单,只需更改pip的配置文件或使用命令行即可,需要的朋友可以参考下
2024-10-10
Python在groupby分组后提取指定位置记录方法
下面小编就为大家分享一篇Python在groupby分组后提取指定位置记录方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
Python数据结构之列表与元组详解
序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置，或索引，第一个索引是0，第二个索引是1，依此类推，元组与列表类似，不同之处在于元组的元素不能修改。元组使用小括号，列表使用方括号
2021-10-10
python 阿里云oss实现直传签名与回调验证的示例方法
这篇文章主要介绍了python 阿里云oss实现直传签名与回调验证，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-03-03
numpy 对矩阵中Nan的处理:采用平均值的方法
今天小编就为大家分享一篇numpy 对矩阵中Nan的处理:采用平均值的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解
本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环境变量及解决转码警告,实现自动化格式转换,需要的朋友可以参考下
2025-09-09
详解python之配置日志的几种方式
本篇文章主要介绍了详解python之配置日志的几种方式，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-05-05
Python打工人必备之windows倒计时锁屏功能的实现
每个人的电脑里都会有不想让别人知道的隐私，或者是上班时间偷偷摸鱼怕被发现的小秘密。那怎么办？就干脆把隐私锁起来！从源头上杜绝被他人偷窥自己的隐私。本文就来用Python实现一个windows倒计时锁屏功能，需要的可以参考一下
2023-04-04