python json jsonl 的用法详解

 更新时间:2024年08月31日 09:23:01   作者:大多_C  
这篇文章主要介绍了python json jsonl 的用法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

JSON

JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,广泛用于在客户端和服务器之间传输数据。以下是 Python 中使用 JSON 的一些常见用法:

1. 将 Python 对象转换为 JSON 字符串

使用 json.dumps() 函数将 Python 对象(如字典、列表等)转换为 JSON 字符串。

import json

# Python 字典
data = {
    "name": "Alice",
    "age": 30,
    "city": "New York",
    "skills": ["Python", "Machine Learning"]
}

# 转换为 JSON 字符串
json_str = json.dumps(data)
print(json_str)

输出示例:

{"name": "Alice", "age": 30, "city": "New York", "skills": ["Python", "Machine Learning"]}

2. 将 JSON 字符串解析为 Python 对象

使用 json.loads() 函数将 JSON 字符串解析为 Python 对象(如字典、列表等)。

json_str = '{"name": "Alice", "age": 30, "city": "New York", "skills": ["Python", "Machine Learning"]}'

# 将 JSON 字符串解析为 Python 字典
data = json.loads(json_str)
print(data)

输出示例:

{'name': 'Alice', 'age': 30, 'city': 'New York', 'skills': ['Python', 'Machine Learning']}

3. 将 Python 对象写入 JSON 文件

使用 json.dump() 函数将 Python 对象写入到 JSON 文件中。

import json

data = {
    "name": "Alice",
    "age": 30,
    "city": "New York",
    "skills": ["Python", "Machine Learning"]
}

# 将 Python 对象写入 JSON 文件
with open('data.json', 'w') as json_file:
    json.dump(data, json_file)

4. 从 JSON 文件读取数据

使用 json.load() 函数从 JSON 文件中读取数据并解析为 Python 对象。

import json

# 从 JSON 文件读取数据
with open('data.json', 'r') as json_file:
    data = json.load(json_file)
    print(data)

输出示例:

{'name': 'Alice', 'age': 30, 'city': 'New York', 'skills': ['Python', 'Machine Learning']}

5. 自定义 JSON 编码

如果你有自定义的类对象并想要将其转换为 JSON,可以通过实现自定义的编码器:

import json

class Employee:
    def __init__(self, name, age, position):
        self.name = name
        self.age = age
        self.position = position

# 自定义的 JSON 编码器
def encode_employee(obj):
    if isinstance(obj, Employee):
        return {'name': obj.name, 'age': obj.age, 'position': obj.position}
    raise TypeError(f"Object of type {obj.__class__.__name__} is not JSON serializable")

# 创建 Employee 对象
employee = Employee("John", 28, "Software Engineer")

# 使用自定义编码器将对象转换为 JSON 字符串
json_str = json.dumps(employee, default=encode_employee)
print(json_str)

输出示例:

{"name": "John", "age": 28, "position": "Software Engineer"}

6. 格式化 JSON 输出

使用 json.dumps() 时,可以通过 indent 参数生成格式化的 JSON 字符串,便于阅读。

import json

data = {
    "name": "Alice",
    "age": 30,
    "city": "New York",
    "skills": ["Python", "Machine Learning"]
}

# 生成格式化的 JSON 字符串
json_str = json.dumps(data, indent=4)
print(json_str)

输出示例:

{
    "name": "Alice",
    "age": 30,
    "city": "New York",
    "skills": [
        "Python",
        "Machine Learning"
    ]
}

7. 处理复杂对象

如果需要序列化更复杂的对象,可以通过自定义 JSONEncoder 类来处理。

import json

class Employee:
    def __init__(self, name, age, position):
        self.name = name
        self.age = age
        self.position = position

class EmployeeEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, Employee):
            return {'name': obj.name, 'age': obj.age, 'position': obj.position}
        return super().default(obj)

employee = Employee("John", 28, "Software Engineer")

# 使用自定义的编码器将对象转换为 JSON 字符串
json_str = json.dumps(employee, cls=EmployeeEncoder)
print(json_str)

输出示例:

{"name": "John", "age": 28, "position": "Software Engineer"}

JSONL

JSONL(JSON Lines)是一种简单的文件格式,专门用于存储多个JSON对象,每个对象占用一行。JSONL文件的扩展名通常为 .jsonl 或 .ndjson(Newline Delimited JSON)。这种格式在处理大量结构化数据时非常有效,因为它允许逐行读取和处理数据。

下面是JSONL的常见用法示例,包括如何在Python中读取和写入JSONL格式的数据。

1. JSONL 文件的结构

一个JSONL文件可能看起来如下:

{"name": "Alice", "age": 30, "city": "New York"}
{"name": "Bob", "age": 25, "city": "Los Angeles"}
{"name": "Charlie", "age": 35, "city": "Chicago"}

每一行都是一个有效的JSON对象,行与行之间用换行符 \n 分隔。

2. 读取 JSONL 文件

使用Python读取JSONL文件时,可以逐行处理文件中的JSON对象:

import json

# 读取 JSONL 文件
with open('data.jsonl', 'r') as jsonl_file:
    for line in jsonl_file:
        # 解析每一行的 JSON 对象
        data = json.loads(line)
        print(data)

输出示例:

{'name': 'Alice', 'age': 30, 'city': 'New York'}
{'name': 'Bob', 'age': 25, 'city': 'Los Angeles'}
{'name': 'Charlie', 'age': 35, 'city': 'Chicago'}

3. 写入 JSONL 文件

写入JSONL文件时,可以逐行将多个JSON对象写入文件,每个对象占用一行:

import json

# 准备要写入的多个 JSON 对象
data_list = [
    {"name": "Alice", "age": 30, "city": "New York"},
    {"name": "Bob", "age": 25, "city": "Los Angeles"},
    {"name": "Charlie", "age": 35, "city": "Chicago"}
]

# 写入 JSONL 文件
with open('data.jsonl', 'w') as jsonl_file:
    for data in data_list:
        jsonl_file.write(json.dumps(data) + '\n')

4. 追加写入 JSONL 文件

如果需要追加数据到已有的JSONL文件中,可以使用追加模式 'a'

import json

# 要追加写入的 JSON 对象
new_data = {"name": "Diana", "age": 28, "city": "Houston"}

# 追加写入 JSONL 文件
with open('data.jsonl', 'a') as jsonl_file:
    jsonl_file.write(json.dumps(new_data) + '\n')

5. 处理大数据集

由于JSONL格式允许逐行读取和处理数据,特别适合用于处理大数据集。比如当数据量较大时,可以用下面的方式逐行读取并处理,而不需要将整个文件一次性加载到内存中:

import json

# 逐行处理大数据集
with open('large_data.jsonl', 'r') as jsonl_file:
    for line in jsonl_file:
        data = json.loads(line)
        # 对每一行的数据进行处理
        process_data(data)

6. 与Pandas集成

如果你需要将JSONL文件的数据加载到Pandas DataFrame中,Pandas的 read_json 方法也支持读取JSONL格式的数据:

import pandas as pd

# 使用 Pandas 读取 JSONL 文件
df = pd.read_json('data.jsonl', lines=True)
print(df)

输出示例:

      name  age         city
0    Alice   30    New York
1      Bob   25  Los Angeles
2  Charlie   35     Chicago

总结

JSONL格式是一种非常实用的数据存储格式,特别适合处理大型、结构化的数据集。使用它的主要优点包括:

  • 逐行读取:有效处理大文件,节省内存。
  • 简便性:每一行都是独立的JSON对象,便于解析和处理。
  • 灵活性:可以很容易地将数据追加到已有文件中。

通过上述方法,您可以轻松地在Python中读取、写入和处理JSONL格式的数据。

到此这篇关于python json jsonl 的用法详解的文章就介绍到这了,更多相关python json jsonl 内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现端口复用实例代码

    Python实现端口复用实例代码

    这篇文章主要介绍了Python实现端口复用实例代码,需要的朋友可以参考下
    2014-07-07
  • Pycharm中的下载安装、配置与测试方式

    Pycharm中的下载安装、配置与测试方式

    这篇文章主要介绍了Pycharm中的下载安装、配置与测试方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • 基于Python实现一键找出磁盘里所有猫照

    基于Python实现一键找出磁盘里所有猫照

    最近在整理我磁盘上的照片,发现不少猫照,突然觉得若能把这些猫照都挑出来,观察它们的成长轨迹也是一件不错的事情。一张一张的找实在是太费劲了,能不能自动化地找出来呢?本文将详细为大家讲讲,需要的可以参考一下
    2022-05-05
  • 使用Python制作一个批量查询搜索排名工具

    使用Python制作一个批量查询搜索排名工具

    这篇文章主要为大家详细介绍了如何使用Python制作一个批量查询搜索排名工具,并且不需要花费任何费用,装上python开发环境即可,需要的可以参考一下
    2023-06-06
  • pytorch 实现在预训练模型的 input上增减通道

    pytorch 实现在预训练模型的 input上增减通道

    今天小编就为大家分享一篇pytorch 实现在预训练模型的 input上增减通道,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • 用Pytorch实现线性回归模型的步骤

    用Pytorch实现线性回归模型的步骤

    线性关系是一种非常简单的变量之间的关系,因变量和自变量在线性关系的情况下,可以使用线性回归算法对一个或多个因变量和自变量间的线性关系进行建模,本文主要介绍了如何利用Pytorch实现线性模型,需要的朋友可以参考下
    2024-01-01
  • Python enumerate()计数器简化循环

    Python enumerate()计数器简化循环

    这篇文章主要介绍了Python enumerate()计数器简化循环,enumerate()最大的优点就是它返回一个带有计数器和值的元组,因此我们不必自己增加计数器,下面就来看看文章具体对它的详细介绍吧,需要的朋友可以参考一下
    2021-12-12
  • python高阶爬虫实战分析

    python高阶爬虫实战分析

    这篇文章给大家分享了python高阶爬虫实战的相关实例内容以及技巧分析,有兴趣的朋友参考下。
    2018-07-07
  • Python结合PyQt5实现MD(Markdown)转DOCX工具

    Python结合PyQt5实现MD(Markdown)转DOCX工具

    这篇文章主要为大家详细介绍了Python如何结合PyQt5实现一个MD(Markdown)转DOCX工具,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下
    2025-07-07
  • Python深度学习pytorch神经网络汇聚层理解

    Python深度学习pytorch神经网络汇聚层理解

    通常当我们处理图像时,我们希望逐渐降低隐藏表示的空间分辨率,聚集信息,这样随着我们在神经网络层叠的上升,每个神经元对其敏感的感受野(输入)就越大
    2021-10-10

最新评论