使用python读写txt和json(jsonl)大文件的方法步骤

更新时间：2023年12月14日 09:26:55 作者：又三郎丶

在Python中读取txt和json(jsonl)大文件并保存到字典是一项非常常见的操作,这篇文章主要给大家介绍了关于使用python读写txt和json(jsonl)大文件的方法步骤,需要的朋友可以参考下

前言

在深度学习方向，尤其是NLP领域，最重要的就是和海量的文字打交道，不管是读取原始数据还是处理数据亦或是最终写数据，合理的读写文件是极为重要的，这篇博客用以记录一下工作中学习到的对大文件读写的过程。

读写txt文本文件

最简单也是最常见的就是读写txt文本文件

读写txt文件直接调用python内部库的open和write函数就基本可以了，比如中student.txt文件中：

张奇 18 计算机学院看书,打篮球,看电影
刘欣 19 计算机学院唱歌,健身
杜航 18 计算机学院动漫,看书
盛蓉 20 外国语学院唱歌,看书,美食
余杰 20 土木学院唱歌,运动,游戏
王某 19 土木学院羽毛球,游戏
李某 20 外国语学院动漫,唱歌

其中分别为姓名，年龄，学院，兴趣爱好，每类用一个制表符（\t）隔开，兴趣爱好中间用英文逗号分隔开来，然后用open打开txt文件并将内容读取打印

file_txt = "student.txt"
with open(file_txt) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        print(name,age,department,hobby)

同样，也可以用write函数写到一个新的文件中去，过程中我们可以用几个list先将数据存起来，也可以一边读一边写，但是一行行读一行行写小数据还好，当文件过大时大量的文件io会话费大量的时间，但是使用list全部存储然后写的话又会比较耗内存，各有优劣，看情况使用

使用list：

file_txt = "student.txt"
file_new_txt = "newstudent.txt"
stu = []
with open(file_txt) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        stu.append(name+"-"+age+"-"+department+"-"+hobby)
with open(file_new_txt,"a+") as file:
    for student in stu:
        file.write(student+"\n")

边读边写：

file_txt = "student.txt"
file_new_txt = "newstudent.txt"
with open(file_txt) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        with open(file_new_txt,"a+") as file_new:
            file_new.write(name+"-"+age+"-"+department+"-"+hobby+"\n")

txt文件是最常用的，但是也有其局限性，就是很难对文件中分隔开的内容进行标注，比如，对每一行数据都标明姓名：张奇，年龄：18这样，这时就需要用到json文件格式了

读写JSON文件

python中对json文件的读写需要导入json包，然后调用包内函数就可以完成读写了

import json
file_txt_path = "student.txt"
file_json_path = "student.json"
with open(file_txt_path) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        hobby = hobby.split(",")
        data = {
                "姓名":name,
                "年龄":age,
                "学院":department,
                "爱好":hobby
            }
        with open(file_json_path,"a+") as file_json:
            file_json.write(json.dumps(data,ensure_ascii=False))
            file_json.write(","+"\n")

这样就会获得这样一个json文件

但是这样的json文件格式是有问题的，我们需要在前面和后面加个[]，并且把最后面那个","去掉

前后加[]倒是比较简单，如何去掉最后一个","倒是比较头疼，我暂时的思路是统计txt文件行数，在最后一行的时候就不写入","了

我们调用wc来统计文件行数:

import json
 
file_txt_path = "student.txt"
file_json_path = "student.json"
 
def _wc_count(file_name):
        """通过wc命令统计文件行数"""
        import subprocess
        out = subprocess.getoutput("wc -l %s" % file_name)
        return int(out.split()[0])
 
count = _wc_count(file_txt_path)
i = 0
 
with open(file_json_path,"a+") as file:
     file.write("["+"\n")
with open(file_txt_path) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        hobby = hobby.split(",")
        data = {
                "姓名":name,
                "年龄":age,
                "学院":department,
                "爱好":hobby
            }
        with open(file_json_path,"a+") as file_json:
            file_json.write(json.dumps(data,ensure_ascii=False))
            if(i < count):
                file_json.write(","+"\n")
            else:
                file_json.write("\n")
                file_json.write("]")
            i +=1

这样写入之后就变成了

这样，将完成了json文件的写入

json文件的读会比较不太好用，因为它是无法一行行或者说一条条数据的读的，只能一次性将所有内容读到内存中，代码如下：

import json
 
file_json_path = "student.json"
 
with open(file_json_path) as file:
    result = json.loads(file.read())
    #result是一个json对象
 
for stu in result:
    hobby = ",".join(stu["爱好"])
    print(stu["姓名"]+"\t"+stu["年龄"]+"\t"+stu["学院"]+"\t"+hobby)

但是上面也提到了，json文件只能一次性将所有内容读到内存中然后进行操作，当文件很大的时候这样说不合理的，尤其是现在的NLP领域，文件都有数十G甚至上百G，显然内存是不足以放下的，那么这样，我们就要用到一个可以逐行读取json对象的文件格式了

读写JSONL文件

jsonl文件的读写和json文件很相似，但是文件格式上有一丝丝的不同

图中将}后面的","去掉就是一个完整的jsonl文件格式

所以，我们写jsonl文件就十分方便了。代码如下

import jsonlines
 
file_txt_path = "student.txt"
file_jsonl_path = "student.jsonl"
 
with open(file_txt_path) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        hobby = hobby.split(",")
        data = {
                "姓名":name,
                "年龄":age,
                "学院":department,
                "爱好":hobby
            }
        with jsonlines.open(file_jsonl_path,mode="a") as file_jsonl:
            file_jsonl.write(data)

然后就是jsonl的读了，代码如下：

import jsonlines
 
file_jsonl_path = "student.jsonl"
 
with open(file_jsonl_path) as file:
    for stu in jsonlines.Reader(file):
        hobby = ",".join(stu["爱好"])
        print(stu["姓名"]+"\t"+stu["年龄"]+"\t"+stu["学院"]+"\t"+hobby)

这样，就可以实现一条条读取json对象了

遇到的问题

上面这些可以满足大部分对数据的读写了，但是我在工作中遇到了一个问题，就是json对象的删除情况，在json文件中，可以直接调用del来删除字段，但是中jsonl文件中，我无法删除指定字段，只能用复写新文件的方法来实现，翻阅了很久的资料都没有找到相应的方法，希望有大佬能在评论区指导一下

总结

到此这篇关于使用python读写txt和json(jsonl)大文件的文章就介绍到这了,更多相关python读写txt和json大文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python读取eml文件并用正则表达式匹配邮箱的代码
今天接到一个需求有一个同事离职了，但是留下了非常多的邮件，我需要将他的邮件进行分类，只要邮件中以@xxx.com结尾的存放在文件夹中，否则放在另一个文件夹中，这篇文章主要介绍了python读取eml文件并用正则匹配邮箱,需要的朋友可以参考下
2022-11-11
Python常用库大全及简要说明
本文为大家罗列了Python开发的常用库和各个库的简要说明以及Python开发工具，包管理，环境管理等其它常用资源和Python学习资料
2020-01-01
python GUI库图形界面开发之PyQt5状态栏控件QStatusBar详细使用方法实例
这篇文章主要介绍了python GUI库图形界面开发之PyQt5状态栏控件QStatusBar详细使用方法实例,需要的朋友可以参考下
2020-02-02
Python实现自动生成高质量文章的示例代码
在当今内容为王的时代,自媒体创作者们面临着巨大的内容生产压力,每天需要产出大量高质量文章来吸引读者,下面我们就来看看如何仅用50行Python代码打造一个自动文章生成器吧
2025-06-06
python如何编写类似nmap的扫描工具
这篇文章主要介绍了python如何编写类似nmap的扫描工具,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-11-11
python比较两个列表大小的方法
这篇文章主要介绍了python比较两个列表大小的方法,涉及Python针对列表的相关操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-07-07
Python探针完成调用库的数据提取
这篇文章主要介绍了Python探针完成调用库的数据提取，Python中可以通过sys.meta_path来实现import hook的功能，下文详细资料介绍，需要的小伙伴可以参考一下
2022-05-05
解决Python获取文件提示找不到指定路径can‘t open file 'area.py':
这篇文章主要给大家介绍了关于如何解决Python获取文件提示找不到指定路径can‘t open file 'area.py':[Errno 2] No such file or directory的相关资料,文中通过图文介绍的非常详细,需要的朋友可以参考下
2023-11-11
Python 列表推导式与字典推导式的实现
本文主要介绍了Python 列表推导式与字典推导式的实现，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-12-12
Numpy 理解ndarray对象的示例代码
这篇文章主要介绍了Numpy 理解ndarray对象的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-04-04