Python使用PyPDF进行PDF操作的代码示例

 更新时间:2025年01月22日 10:43:46   作者:ghostwritten  
PDF 是一种非常常见的文件格式,用于文档共享、电子书、合同等场景,对于开发者来说,能够高效地操作 PDF 文件是一个重要技能,本文将介绍如何使用 Python 的 PyPDF 库完成一些常见的 PDF 处理任务,并分享实战经验,需要的朋友可以参考下

1. 为什么选择 PyPDF?

PyPDF 是一个轻量级且功能强大的 PDF 操作库,支持以下功能:

  • 合并和拆分 PDF 文件
  • 提取文本和元信息
  • 添加或修改文档的元数据
  • 加密和解密 PDF
  • 自定义 PDF 页面旋转或裁剪

以下是一些实战场景的详细实现。

2. 安装 PyPDF

首先,需要安装 PyPDF 库。可以使用 pip:

pip install pypdf

确保安装的是最新版,以获得最新功能和性能改进。

3. PDF 文件的合并与拆分

3.1 合并 PDF 文件

合并多个 PDF 文件在生成报告或整理文档时非常有用。

from pypdf import PdfMerger

# 初始化合并器
merger = PdfMerger()

# 添加需要合并的 PDF 文件
merger.append("file1.pdf")
merger.append("file2.pdf")

# 保存合并后的文件
merger.write("merged.pdf")
merger.close()
print("PDF 合并完成!")

3.2 拆分 PDF 文件

将一个 PDF 文件拆分为多个独立的页面文件。

from pypdf import PdfReader, PdfWriter

# 读取 PDF 文件
reader = PdfReader("input.pdf")

# 拆分每一页
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output_file:
        writer.write(output_file)
print("PDF 拆分完成!")

4. 提取 PDF 文本

提取 PDF 文件中的文本内容,可以用于数据分析或自动化处理。

from pypdf import PdfReader

# 读取 PDF 文件
reader = PdfReader("input.pdf")

# 提取每页的文本
for page in reader.pages:
    print(page.extract_text())

注意事项

  • 文本提取的效果取决于 PDF 的结构。如果 PDF 中的文本是以图像形式存储的,则无法直接提取文本。

5. 修改 PDF 元信息

修改 PDF 的元数据,例如标题、作者等。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

# 复制所有页面到新 PDF
writer.add_pages(reader.pages)

# 修改元信息
writer.metadata = {
    "/Title": "新的标题",
    "/Author": "作者名",
    "/Subject": "主题描述"
}

with open("output.pdf", "wb") as output_file:
    writer.write(output_file)
print("元信息修改完成!")

6. PDF 加密与解密

6.1 加密 PDF

为 PDF 文件添加密码保护。

from pypdf import PdfWriter

writer = PdfWriter()
writer.append("input.pdf")

# 设置密码
writer.encrypt(user_password="user123", owner_password="owner123")

with open("encrypted.pdf", "wb") as output_file:
    writer.write(output_file)
print("PDF 加密完成!")

6.2 解密 PDF

解密受密码保护的 PDF 文件。

from pypdf import PdfReader

reader = PdfReader("encrypted.pdf")

# 提供密码解密
reader.decrypt("user123")

for page in reader.pages:
    print(page.extract_text())

7. 页面旋转与裁剪

7.1 旋转页面

旋转 PDF 的页面,例如将横向页面转为纵向。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

# 旋转每一页
for page in reader.pages:
    page.rotate(90)  # 顺时针旋转 90 度
    writer.add_page(page)

with open("rotated.pdf", "wb") as output_file:
    writer.write(output_file)
print("页面旋转完成!")

7.2 裁剪页面

裁剪页面边框以去掉不必要的内容。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

for page in reader.pages:
    # 设置裁剪框 (左, 下, 右, 上)
    page.mediabox.lower_left = (50, 50)
    page.mediabox.upper_right = (500, 700)
    writer.add_page(page)

with open("cropped.pdf", "wb") as output_file:
    writer.write(output_file)
print("页面裁剪完成!")

8. 实战经验总结

  1. 处理异常:在实际操作中,确保捕获文件读写或解析过程中的异常,例如文件不存在或解密失败。
  2. 测试 PDF 文件:由于 PDF 文件格式的多样性,在批量处理前需要先对样本文件进行测试。
  3. 性能优化:对于大文件,使用分批加载的方式处理。
  4. 安全性:避免在代码中硬编码敏感信息,例如密码。

到此这篇关于Python使用PyPDF进行PDF操作的代码示例的文章就介绍到这了,更多相关Python PyPDF进行PDF操作内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python读取浮点数和读取文本文件示例

    python读取浮点数和读取文本文件示例

    这篇文章主要介绍了python读取浮点数和读取文本文件示例,需要的朋友可以参考下
    2014-05-05
  • Python对象循环引用垃圾回收算法详情

    Python对象循环引用垃圾回收算法详情

    这篇文章主要介绍了Python对象循环引用垃圾回收算法详情,文章围绕主题展开详细的内容戒杀,具有一定的参考价值,感兴趣的小伙伴可以参考一下
    2022-09-09
  • Python时间的精准正则匹配方法分析

    Python时间的精准正则匹配方法分析

    这篇文章主要介绍了Python时间的精准正则匹配方法,结合实例形式对比分析了Python针对时间格式相关正则匹配技巧,需要的朋友可以参考下
    2017-08-08
  • Kali Linux安装ipython2 和 ipython3的方法

    Kali Linux安装ipython2 和 ipython3的方法

    今天小编就为大家分享一篇Kali Linux安装ipython2 和 ipython3的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • python图像处理入门(一)

    python图像处理入门(一)

    这篇文章主要介绍了python图像处理入门,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-04-04
  • python的ArgumentParser使用及说明

    python的ArgumentParser使用及说明

    这篇文章主要介绍了python的ArgumentParser使用及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • python实现单张图像拼接与批量图片拼接

    python实现单张图像拼接与批量图片拼接

    这篇文章主要为大家详细介绍了python实现单张图像拼接与批量图片拼接,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • python matplotlib绘图详解大全(非常详细!)

    python matplotlib绘图详解大全(非常详细!)

    这篇文章主要给大家介绍了关于python matplotlib绘图详解的相关资料,matplotlib是python中用于绘制各种图像的模块,功能十分强大,通常与pandas模块搭配使用,可以生成各种样视的图片,用于数据的分析和展示,需要的朋友可以参考下
    2023-09-09
  • Python常用内置函数和关键字使用详解

    Python常用内置函数和关键字使用详解

    在Python中有许许多多的内置函数和关键字,它们是我们日常中经常可以使用的到的一些基础的工具,可以方便我们的工作。本文将详细讲解他们的使用方法,需要的可以参考一下
    2022-05-05
  • python 实现从高分辨图像上抠取图像块

    python 实现从高分辨图像上抠取图像块

    今天小编就为大家分享一篇python 实现从高分辨图像上抠取图像块,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01

最新评论