Python利用字节串或字节数组来加载和保存PDF文档

 更新时间:2024年09月08日 10:55:12   作者:Eiceblue  
处理PDF文件的可以直接读取和写入文件系统中的PDF文件,然而,通过字节串(byte string)或字节数组(byte array)来加载和保存PDF文档在某些情况下更高效,本文将介绍如何使用Python通过字节串或字节数组来加载和保存PDF文档,需要的朋友可以参考下

引言

处理PDF文件的可以直接读取和写入文件系统中的PDF文件,然而,通过字节串(byte string)或字节数组(byte array)来加载和保存PDF文档在某些情况下更高效。这种方法不仅可以提高数据处理的灵活性,允许开发者在内存中直接操作PDF,而且还能增强安全性,同时方便跨应用传输和网络传输。

本文将介绍如何使用Python通过字节串或字节数组来加载和保存PDF文档。

本文所使用的方法需要用到Spire.PDF for Python,PyPI:pip install Spire.PDF

创建PDF文档并保存为字节串或字节数组

我们可以使用库中的类和方法直接创建PDF文档,并将其保存到Stream对象。此对象可通过Stream.ToArray()方法转换为不可变的bytes对象进行操作。而bytes对象也可以直接转换为可变的bytearray对象,从而对文件进行字节层面的编辑或其他操作。以下是操作步骤:

  1. 导入所需模块。
  2. 创建PdfDocument对象。
  3. 设置PDF页面,添加页面并绘制内容。
  4. 使用PdfDocument.SaveToStream()方法将PDF文档保存到Stream对象。
  5. 使用Stream.ToArray()方法将Stream对象转换为bytes对象。
  6. 可使用bytes对象直接构建bytearray对象。
  7. 接下来可以字节串或字节数组进行更多操作,如写入文件、传输等。

代码示例

from spire.pdf import *

# 创建PdfDocument类的一个实例
pdf = PdfDocument()

# 设置文档的页面大小和边距
pageSettings = pdf.PageSettings
pageSettings.Size = PdfPageSize.A4()
pageSettings.Margins.Top = 50
pageSettings.Margins.Bottom = 50
pageSettings.Margins.Left = 40
pageSettings.Margins.Right = 40

# 向文档添加一个新的页面
page = pdf.Pages.Add()

# 为文档内容创建字体和画笔
titleFont = PdfTrueTypeFont("HarmonyOS Sans SC", 16.0, PdfFontStyle.Bold, True)
titleBrush = PdfBrushes.get_Brown()
contentFont = PdfTrueTypeFont("HarmonyOS Sans SC", 13.0, PdfFontStyle.Regular, True)
contentBrush = PdfBrushes.get_Black()

# 在页面上绘制标题
titleText = "人工智能简介"
titleSize = titleFont.MeasureString(titleText)
page.Canvas.DrawString(titleText, titleFont, titleBrush, PointF(0.0, 30.0))

# 在页面上绘制正文文本
contentText = ("人工智能(AI)是计算机科学的一个分支,它旨在创造能够模拟人类智能行为的机器。这包括学习(通过经验改进自身)、推理(使用规则来达到近似或确定性的结论)、自我修正等特性。AI的应用范围广泛,从简单的任务自动化到复杂的决策支持系统均有涉及。")
# 设置正文文本的格式
contentFormat = PdfStringFormat()
contentFormat.Alignment = PdfTextAlignment.Justify
contentFormat.LineSpacing = 20.0
# 使用正文文本创建一个TextWidget对象并应用字符串格式
textWidget = PdfTextWidget(contentText, contentFont, contentBrush)
textWidget.StringFormat = contentFormat
# 创建一个TextLayout对象并设置布局选项
textLayout = PdfTextLayout()
textLayout.Layout = PdfLayoutType.Paginate
textLayout.Break = PdfLayoutBreakType.FitPage
# 在页面上绘制TextWidget
rect = RectangleF(PointF(0.0, titleSize.Height + 50.0), page.Canvas.ClientSize)
textWidget.Draw(page, rect, textLayout)

# 将PDF文档保存到一个Stream对象
pdfStream = Stream()
pdf.SaveToStream(pdfStream)

# 将Stream对象转换为bytes对象
pdfBytes = pdfStream.ToArray()

# 将Stream对象转换为bytearray对象
pdfBytearray = bytearray(pdfStream.ToArray())

# 将字节流写入文件
with open("output/AI简介.pdf", "wb") as f:
    f.write(pdfBytearray)

结果

从字节串或字节数组加载PDF文档进行操作

Stream类支持用bytes对象(或bytearray直接转换为bytes)直接构建实例。然后,我们可以使用PdfDocument.LoadFromStream()方法将Stream对象载入为PDF文档进行文档操作,如编辑、转换等。以下是操作步骤:

  1. 导入所需模块。
  2. 创建bytes对象或使用现有bytes对象,来构建Stream对象。
  3. 创建PdfDocument对象。
  4. 使用PdfDocument.LoadFromStream()方法将Stream对象载入为PDF文档。
  5. 对文档进行操作,如提取页面文字。

代码示例

from spire.pdf import *

# 从PDF文件创建一个字节数组
with open("示例.pdf", "rb") as f:
    byteData = f.read()

# 从字节数组创建一个Stream对象
stream = Stream(byteData)

# 将Stream对象加载为PDF文档
pdf = PdfDocument(stream)

# 获取第一页的文字
page = pdf.Pages.get_Item(0)
textExtractor = PdfTextExtractor(page)
extractOptions = PdfTextExtractOptions()
extractOptions.IsExtractAllText = True
text = textExtractor.ExtractText(extractOptions)

# 打印文字
print(text)

结果

本文演示了如何使用Python通过字节串或字节数组加载或保存PDF文档。

到此这篇关于Python利用字节串或字节数组来加载和保存PDF文档的文章就介绍到这了,更多相关Python加载和保存PDF文档内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 一个基于flask的web应用诞生 记录用户账户登录状态(6)

    一个基于flask的web应用诞生 记录用户账户登录状态(6)

    一个基于flask的web应用诞生第六篇,这篇文章主要介绍了记录用户账户登录状态功能开发,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-04-04
  • Python实现WGS84火星百度及web墨卡托四种坐标系相互转换

    Python实现WGS84火星百度及web墨卡托四种坐标系相互转换

    主流被使用的地理坐标系并不统一,常用的有WGS84、GCJ02(火星坐标系)、BD09(百度坐标系)以及百度地图中保存矢量信息的web墨卡托,本文利用Python编写相关类以实现4种坐标系统之间的互相转换
    2023-08-08
  • NumPy argmax()函数详解

    NumPy argmax()函数详解

    在日常数据分析和机器学习中,经常需要找到数组或矩阵中最大值的位置,这时NumPy 提供的 argmax() 函数就派上了用场,本文将系统地了解 argmax() 的用法,具有一定的参考价值,感兴趣的可以了解一下
    2026-01-01
  • Python实现自动化设置Excel工作表行高和列宽

    Python实现自动化设置Excel工作表行高和列宽

    在数据处理和报表生成的日常工作中,我们常常需要与Excel文件打交道,本文将深入探讨如何利用Python实现Excel工作表行高和列宽的自动化设置,希望对大家有所帮助
    2025-09-09
  • Python中内置的日志模块logging用法详解

    Python中内置的日志模块logging用法详解

    Python的logging模块提供了记录程序运行情况的日志功能,类似于Apache的log4j,很好很强大,这里我们就来看一下Python中内置的日志模块logging用法详解
    2016-07-07
  • python实现高斯投影正反算方式

    python实现高斯投影正反算方式

    今天小编就为大家分享一篇python实现高斯投影正反算方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • python 地图经纬度转换、纠偏的实例代码

    python 地图经纬度转换、纠偏的实例代码

    这篇文章主要介绍了python 地图经纬度转换、纠偏的实例代码,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-08-08
  • Pycharm安装第三方库并更换镜像的详细教程

    Pycharm安装第三方库并更换镜像的详细教程

    在使用pycharm学习python的时候,经常需要第三方库,没有第三方库程序就会报错,pycharm也会提醒你要安装所需要的库,下面这篇文章主要给大家介绍了关于Pycharm安装第三方库并更换镜像的详细教程,需要的朋友可以参考下
    2023-05-05
  • 只需7行Python代码玩转微信自动聊天

    只需7行Python代码玩转微信自动聊天

    今天小编就为大家分享一篇关于只需7行Python代码玩转微信自动聊天,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-01-01
  • 机器深度学习二分类电影的情感问题

    机器深度学习二分类电影的情感问题

    这篇文章主要介绍了机器深度学习关于电影二次类的情感问题,代码详细,对理解深度学习中的二次类问题有很大的帮助,有需要学习的朋友可以看一下这篇文章
    2021-04-04

最新评论