Python使用json_repair轻松修复大模型返回的非法JSON

 更新时间:2025年11月07日 08:52:18   作者:DoubleKK  
在使用大语言模型时,我们经常要求模型返回结构化的 JSON 数据,以便程序进一步解析和处理,然而,现实中模型输出的 JSON 往往不够干净,下面我们就来看看如何使用json_repair修复大模型返回的非法JSON吧

为什么大模型生成的 JSON 需要修复

在使用大语言模型(LLM,例如 GPT 系列)时,我们经常要求模型返回结构化的 JSON 数据,以便程序进一步解析和处理。然而,现实中模型输出的 JSON 往往“不够干净”——可能会在前后多出说明文字、注释、甚至中途缺少引号或逗号,从而导致 json.loads() 报错。

一个典型的错误场景如下。

大语言模型在生成 JSON 数据时,可能会出现多种格式问题:

括号不匹配:缺少闭合的括号或方括号

# 模型可能返回
broken_json1 = '{"活动名称": "旋转木马", "游玩体验": "孩子们玩得非常开心!"'

缺失引号:键或字符串值缺少引号

broken_json2 = '{活动名称: "旋转木马", "游玩体验": "孩子们玩得非常开心!"}'

缺少逗号:键值对之间缺少分隔符

broken_json3 = '{"活动名称": "旋转木马" "游玩体验": "孩子们玩得非常开心!"}'

特殊字符未转义:包含未转义的特殊字符

broken_json4 = '{"描述": "这是一个"包含引号"的字符串"}'

非 JSON 内容混杂:输出中包含解释性文本或其他非 JSON 内容

broken_json5 = """
这里是返回的结果:
{
  "name": "Alice",
  "age": 25,
  "city": "New York", // 用户所在城市
}
"""

传统处理方式的局限性

当面对这些有问题的 JSON 时,开发者通常会考虑:

  • 提示工程:优化提示词,明确要求模型输出标准 JSON
  • 多次调用:当第一次返回无效 JSON 时,再次请求模型修正
  • 正则表达式:编写复杂的正则表达式来提取 JSON 部分

然而,这些方法都存在明显缺点:提示工程效果不稳定,多次调用增加时间和 token 消耗,正则表达式编写维护困难且容易出错。

有没有更优雅、更自动化的方式?答案就是 —— json_repair

一、什么是 json_repair

json_repair 是一个 Python 库,用于自动修复无效的 JSON 字符串。它会分析字符串中的结构、引号、括号、逗号等错误,尝试将其纠正为可被 json.loads() 正常解析的合法 JSON。

相比于正则修正或多次调用大模型,json_repair 的优势在于:

无需二次调用模型,执行速度快

可自动修复常见错误,例如:

  • 缺少引号
  • 结尾多余逗号
  • 单引号替换为双引号
  • 非法字符混入
  • JSON 前后附带额外内容

二、安装方法

使用 pip 安装:

pip install json-repair

三、基本用法示例

来看一个实际例子。假设大模型返回了以下内容:

from json_repair import repair_json
import json

response = """
模型输出:
{
  name: 'Alice',
  "age": 25,
  "city": "New York",
}
"""

# 使用 json_repair 修复
fixed = repair_json(response)

print(fixed)
# 输出:
# {"name": "Alice", "age": 25, "city": "New York"}

# 现在可以正常解析
data = json.loads(fixed)
print(data["name"])  # Alice

json_repair 自动完成了几个修复动作:

  • name 补上了引号
  • 'Alice' 转换为 "Alice"
  • 去掉了最后一个多余的逗号
  • 忽略了前面的“模型输出:”这段无关内容

四、更复杂的场景

有时,大模型可能在 JSON 前后附带了解释说明,例如:

response = """
以下是结果:
{
  "status": "ok",
  "data": {
    "id": 123,
    "items": ["apple", "banana"]
  }
}
谢谢!
"""

这种情况下,json.loads() 同样无法直接解析。

而使用 json_repair

fixed = repair_json(response)
print(json.loads(fixed))

输出结果:

{'status': 'ok', 'data': {'id': 123, 'items': ['apple', 'banana']}}

json_repair 能够智能识别出中间那段是完整的 JSON 块,并自动去除多余文字。

五、异常修复与边界情况

json_repair 并非万能。如果输入的内容严重破损,例如括号完全不匹配、结构不完整,它可能无法百分百恢复。
但它会尽力返回“最接近合法 JSON”的结果,而不会抛出异常。

示例:

bad_json = "{ name: Alice, age: 30"

fixed = repair_json(bad_json)
print(fixed)
# 输出:{"name": "Alice", "age": 30}

六、实战建议

优先尝试 json.loads(),若失败再使用 json_repair。

这样可以避免对原本就合法的 JSON 进行不必要的处理。

try:
    data = json.loads(response)
except json.JSONDecodeError:
    data = json.loads(repair_json(response))

结合日志输出,记录修复前后的差异,方便排查模型输出问题。

不建议用于安全敏感场景(例如:直接信任外部输入的 JSON),因为修复过程中会进行字符串推断。

七、总结

当我们依赖大模型生成 JSON 数据时,不可避免会遇到各种格式错误的问题。json_repair 让我们不再需要反复提示模型“请返回合法 JSON”,也不必浪费 token 进行多轮修正。

一句 repair_json(response),即可轻松将混乱的字符串变为可用的结构化数据。

它的出现,让 LLM 与后端程序之间的数据对接更稳定、更高效。

到此这篇关于Python使用json_repair轻松修复大模型返回的非法JSON的文章就介绍到这了,更多相关Python修复返回的非法JSON内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用Matplotlib创建漂亮的数据可视化图表

    使用Matplotlib创建漂亮的数据可视化图表

    在 Python 中,Matplotlib 是一个强大而灵活的工具,可以用来创建各种类型的数据可视化图表,本文给大家介绍了如何使用Matplotlib创建漂亮的数据可视化图表,文中有详细的代码示例供大家参考,需要的朋友可以参考下
    2024-04-04
  • python matplotlib画图时坐标轴重叠显示不全和图片保存时不完整的问题解决

    python matplotlib画图时坐标轴重叠显示不全和图片保存时不完整的问题解决

    最近工作中遇到了matplotlib保存图片坐标轴不完整的问题,所以这篇文章主要给大家介绍了关于python matplotlib画图时坐标轴重叠显示不全和图片保存时不完整问题的解决方法,需要的朋友可以参考下
    2022-07-07
  • 浅谈TensorFlow之稀疏张量表示

    浅谈TensorFlow之稀疏张量表示

    这篇文章主要介绍了浅谈TensorFlow之稀疏张量表示,具有很好的参考就价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-06-06
  • 基于tensorflow指定GPU运行及GPU资源分配的几种方式小结

    基于tensorflow指定GPU运行及GPU资源分配的几种方式小结

    今天小编就为大家分享一篇基于tensorflow指定GPU运行及GPU资源分配的几种方式小结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Python+Pygame实战之疯狂吃水果游戏的实现

    Python+Pygame实战之疯狂吃水果游戏的实现

    吃豆人和切水果这两个游戏相信大家都不陌生吧,本文将利用Python中的Pygame模块编写出一款结合吃豆人+切水果的新游戏:疯狂吃水果,感兴趣的可以了解一下
    2022-06-06
  • Python利用Flask-Mail实现发送邮件详解

    Python利用Flask-Mail实现发送邮件详解

    Flask 的扩展包 Flask - Mail 通过包装了 Python 内置的smtplib包,可以用在 Flask 程序中发送邮件。本文将利用这特性实现邮件发送功能,感兴趣的可以了解一下
    2022-08-08
  • Python之lambda匿名函数及map和filter的用法

    Python之lambda匿名函数及map和filter的用法

    今天小编就为大家分享一篇关于Python之lambda匿名函数及map和filter的用法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-03-03
  • Python实现XGBoost算法的应用实战

    Python实现XGBoost算法的应用实战

    XGBoost(Extreme Gradient Boosting)是一种高效且广泛使用的集成学习算法,它属于梯度提升树(GBDT)模型的一种改进,本文将结合实际案例,详细介绍如何在Python中使用XGBoost算法进行模型训练和预测,需要的朋友可以参考下
    2024-08-08
  • python 字典中文key处理,读取,比较方法

    python 字典中文key处理,读取,比较方法

    今天小编就为大家分享一篇python 字典中文key处理,读取,比较方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • 关于django python manage.py startapp 应用名出错异常原因解析

    关于django python manage.py startapp 应用名出错异常原因解析

    这篇文章主要介绍了关于django python manage.py startapp 应用名出错异常原因解析,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-12-12

最新评论