Python pickle 二进制序列化和反序列化及数据持久化详解

 更新时间:2024年01月17日 09:18:06   作者:VipSoft  博客园VIP会员  
这篇文章主要介绍了Python pickle 二进制序列化和反序列化 - 数据持久化,模块 pickle 实现了对一个 Python 对象结构的二进制序列化和反序列化,本文介绍了Pickle的基本用法,需要的朋友可以参考下

模块 pickle 实现了对一个 Python 对象结构的二进制序列化和反序列化。 "pickling" 是将 Python 对象及其所拥有的层次结构转化为一个字节流的过程,而 "unpickling" 是相反的操作,会将(来自一个 binary file 或者 bytes-like object 的)字节流转化回一个对象层次结构。 pickling(和 unpickling)也被称为“序列化”, “编组” 1 或者 “平面化”。而为了避免混乱,此处采用术语 “封存 (pickling)” 和 “解封 (unpickling)”。

pickle 模块 并不安全。 你只应该对你信任的数据进行 unpickle 操作。
构建恶意的 pickle 数据来 在解封时执行任意代码 是可能的。 绝对不要对不信任来源的数据和可能被篡改过的数据进行解封。
请考虑使用 hmac 来对数据进行签名,确保数据没有被篡改。
在你处理不信任数据时,更安全的序列化格式如 json 可能更为适合。

与 json 模块的比较

在 pickle 协议和 JSON (JavaScript Object Notation) 之间有着本质上的差异:

  • JSON 是一个文本序列化格式(它输出 unicode 文本,尽管在大多数时候它会接着以 utf-8 编码),而 pickle 是一个二进制序列化格式;
  • JSON 是我们可以直观阅读的,而 pickle 不是;
  • JSON是可互操作的,在Python系统之外广泛使用,而pickle则是Python专用的;
  • 默认情况下,JSON 只能表示 Python 内置类型的子集,不能表示自定义的类;但 pickle 可以表示大量的 Python 数据类型(可以合理使用 Python 的对象内省功能自动地表示大多数类型,复杂情况可以通过实现 specific object APIs 来解决)。
  • 不像pickle,对一个不信任的JSON进行反序列化的操作本身不会造成任意代码执行漏洞。

Pickle的基本用法

序列化(Pickling)

要将Python对象序列化为二进制数据,可以使用pickle.dump()函数。以下是一个简单的示例,将一个Python列表保存到文件中:

import pickle
data = [1, 2, 3, 4, 5]
# 打开一个文件以写入二进制数据
with open('data/data.pkl', 'wb') as file:
    pickle.dump(data, file)

在上述代码中,使用pickle.dump()函数将data列表序列化为二进制数据,并将其保存到名为data.pkl的文件中。参数'wb'表示以二进制写入模式打开文件。

反序列化(Unpickling)

要从文件中加载并反序列化二进制数据,可以使用pickle.load()函数。以下是加载data.pkl文件并还原Python对象的示例:

import pickle
# 打开文件以读取二进制数据
with open('data/data.pkl', 'rb') as file:
    loaded_data = pickle.load(file)
print("反序列化 %s" % loaded_data)

在上述代码中,使用pickle.load()函数从data.pkl文件中加载数据,并将其还原为Python对象。

Pickle的工作原理

pickle模块的工作原理涉及到将Python对象转换为一种可序列化的中间格式,然后再将该中间格式序列化为二进制数据。这个中间格式是一个自包含的表示对象的字典,其中包含了对象的数据和其类型信息。

当使用pickle.dump()序列化对象时,pickle 模块首先创建一个包含对象数据和类型信息的中间字典。然后,它将该字典转换为二进制数据。反序列化时,pickle模块将二进制数据还原为中间字典,然后再从字典中还原Python对象。

这种方法使pickle模块非常灵活,因为它可以序列化几乎所有Python对象,包括自定义对象,只要它们可以在中间字典中表示。

Pickle的适用场景

pickle模块在以下情况下非常有用:

  • 数据持久化:你可以使用pickle将Python对象保存到文件中,以便稍后读取。这对于保存模型、配置文件、数据缓存等非常有用。
  • 数据传输:你可以使用pickle将Python对象序列化并通过网络传输,以便不同的Python程序之间共享数据。
  • 对象复制:你可以使用pickle将Python对象进行深拷贝,以便创建对象的独立副本,而不是引用原始对象。
  • 测试和调试:pickle也用于创建模拟数据,以便进行测试和调试。

Pickle的注意事项

尽管pickle非常方便,但在使用它时需要注意一些事项:

  • 安全性:反序列化数据时要小心,因为pickle可以执行任意代码。不要从不受信任的来源加载pickle数据,以免遭受安全风险。
  • 版本兼容性:在不同版本的Python之间,pickle数据的兼容性可能会有问题。因此,确保在不同版本之间测试并验证pickle数据的兼容性。
  • 自定义对象:一些自定义对象的序列化和反序列化可能会受到限制,因此需要额外的配置。你可能需要实现特定的__reduce__方法来控制对象的序列化行为。

示例代码

以下是一个示例代码,演示如何使用pickle模块来序列化和反序列化一个自定义Python对象:

import pickle
class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age
    def __str__(self):
        return f"Person(name='{self.name}', age={self.age})"
# 创建一个自定义对象
person = Person("Alice", 30)
# 序列化并保存到文件
with open('data/person.pkl', 'wb') as file:
    pickle.dump(person, file)
# 从文件中加载并反序列化
with open('data/person.pkl', 'rb') as file:
    loaded_person = pickle.load(file)
print(loaded_person)  # 输出: Person(name='Alice', age=30)

在上述代码中,我们首先定义了一个自定义类Person,然后创建了一个Person对象。我们使用pickle将该对象序列化为二进制数据,然后再从二进制数据中反序列化还原对象。

到此这篇关于Python pickle 二进制序列化和反序列化 - 数据持久化的文章就介绍到这了,更多相关Python pickle 二进制序列化内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python实现定时执行任务的三种方式简单示例

    Python实现定时执行任务的三种方式简单示例

    这篇文章主要介绍了Python实现定时执行任务的三种方式,结合简单实例形式分析了Python使用time,os,sched等模块定时执行任务的相关操作技巧,需要的朋友可以参考下
    2019-03-03
  • Python基于LightGBM进行时间序列预测

    Python基于LightGBM进行时间序列预测

    LightGBM是扩展机器学习系统。是一款基于GBDT(梯度提升决策树)算法的分布梯度提升框架。其设计思路主要集中在减少数据对内存与计算性能的使用上,以及减少多机器并行计算时的通讯代价。本文将通过LightGBM进行时间序列预测,感兴趣的可以了解一下
    2022-03-03
  • python文件路径操作方法总结

    python文件路径操作方法总结

    在本篇文章里小编给大家整理的是一篇关于python文件路径操作方法总结内容,有需要的朋友们可以学习下。
    2020-12-12
  • Python的爬虫程序编写框架Scrapy入门学习教程

    Python的爬虫程序编写框架Scrapy入门学习教程

    Python的一大优势就是可以轻松制作Web爬虫,而超高人气的Scrapy则是名副其实的Python编写爬虫的利器,这里我们就来看一下Python的爬虫程序编写框架Scrapy入门学习教程:
    2016-07-07
  • Python中的引用和拷贝实例解析

    Python中的引用和拷贝实例解析

    这篇文章主要介绍了python中的引用和拷贝实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-11-11
  • django静态文件加载的方法

    django静态文件加载的方法

    本篇文章主要介绍了django静态文件加载的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-05-05
  • python生成n个元素的全组合方法

    python生成n个元素的全组合方法

    今天小编就为大家分享一篇python生成n个元素的全组合方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-11-11
  • python 多进程队列数据处理详解

    python 多进程队列数据处理详解

    今天小编就为大家分享一篇python 多进程队列数据处理详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python3实现全角和半角字符转换的方法示例

    python3实现全角和半角字符转换的方法示例

    在自然语言处理过程中,全角、半角的的不一致会导致信息抽取不一致,因此需要统一,下面这篇文章主要给大家介绍了关于python3中全角和半角字符转换的方法,需要的朋友可以参考借鉴,下面来一起看看吧。
    2017-09-09
  • Python爬虫PyQuery库基本用法入门教程

    Python爬虫PyQuery库基本用法入门教程

    这篇文章主要介绍了Python爬虫PyQuery库基本用法,结合实例形式较为详细的分析了pyQuery库字符串初始化、打开网页、css属性、标签内容等获取、DOM基本操作等相关技巧与使用注意事项,需要的朋友可以参考下
    2018-08-08

最新评论