Python使用PyPDF进行PDF操作的代码示例

 更新时间:2025年01月22日 10:43:46   作者:ghostwritten  
PDF 是一种非常常见的文件格式,用于文档共享、电子书、合同等场景,对于开发者来说,能够高效地操作 PDF 文件是一个重要技能,本文将介绍如何使用 Python 的 PyPDF 库完成一些常见的 PDF 处理任务,并分享实战经验,需要的朋友可以参考下

1. 为什么选择 PyPDF?

PyPDF 是一个轻量级且功能强大的 PDF 操作库,支持以下功能:

  • 合并和拆分 PDF 文件
  • 提取文本和元信息
  • 添加或修改文档的元数据
  • 加密和解密 PDF
  • 自定义 PDF 页面旋转或裁剪

以下是一些实战场景的详细实现。

2. 安装 PyPDF

首先,需要安装 PyPDF 库。可以使用 pip:

pip install pypdf

确保安装的是最新版,以获得最新功能和性能改进。

3. PDF 文件的合并与拆分

3.1 合并 PDF 文件

合并多个 PDF 文件在生成报告或整理文档时非常有用。

from pypdf import PdfMerger

# 初始化合并器
merger = PdfMerger()

# 添加需要合并的 PDF 文件
merger.append("file1.pdf")
merger.append("file2.pdf")

# 保存合并后的文件
merger.write("merged.pdf")
merger.close()
print("PDF 合并完成!")

3.2 拆分 PDF 文件

将一个 PDF 文件拆分为多个独立的页面文件。

from pypdf import PdfReader, PdfWriter

# 读取 PDF 文件
reader = PdfReader("input.pdf")

# 拆分每一页
for i, page in enumerate(reader.pages):
    writer = PdfWriter()
    writer.add_page(page)
    with open(f"page_{i+1}.pdf", "wb") as output_file:
        writer.write(output_file)
print("PDF 拆分完成!")

4. 提取 PDF 文本

提取 PDF 文件中的文本内容,可以用于数据分析或自动化处理。

from pypdf import PdfReader

# 读取 PDF 文件
reader = PdfReader("input.pdf")

# 提取每页的文本
for page in reader.pages:
    print(page.extract_text())

注意事项

  • 文本提取的效果取决于 PDF 的结构。如果 PDF 中的文本是以图像形式存储的,则无法直接提取文本。

5. 修改 PDF 元信息

修改 PDF 的元数据,例如标题、作者等。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

# 复制所有页面到新 PDF
writer.add_pages(reader.pages)

# 修改元信息
writer.metadata = {
    "/Title": "新的标题",
    "/Author": "作者名",
    "/Subject": "主题描述"
}

with open("output.pdf", "wb") as output_file:
    writer.write(output_file)
print("元信息修改完成!")

6. PDF 加密与解密

6.1 加密 PDF

为 PDF 文件添加密码保护。

from pypdf import PdfWriter

writer = PdfWriter()
writer.append("input.pdf")

# 设置密码
writer.encrypt(user_password="user123", owner_password="owner123")

with open("encrypted.pdf", "wb") as output_file:
    writer.write(output_file)
print("PDF 加密完成!")

6.2 解密 PDF

解密受密码保护的 PDF 文件。

from pypdf import PdfReader

reader = PdfReader("encrypted.pdf")

# 提供密码解密
reader.decrypt("user123")

for page in reader.pages:
    print(page.extract_text())

7. 页面旋转与裁剪

7.1 旋转页面

旋转 PDF 的页面,例如将横向页面转为纵向。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

# 旋转每一页
for page in reader.pages:
    page.rotate(90)  # 顺时针旋转 90 度
    writer.add_page(page)

with open("rotated.pdf", "wb") as output_file:
    writer.write(output_file)
print("页面旋转完成!")

7.2 裁剪页面

裁剪页面边框以去掉不必要的内容。

from pypdf import PdfReader, PdfWriter

reader = PdfReader("input.pdf")
writer = PdfWriter()

for page in reader.pages:
    # 设置裁剪框 (左, 下, 右, 上)
    page.mediabox.lower_left = (50, 50)
    page.mediabox.upper_right = (500, 700)
    writer.add_page(page)

with open("cropped.pdf", "wb") as output_file:
    writer.write(output_file)
print("页面裁剪完成!")

8. 实战经验总结

  1. 处理异常:在实际操作中,确保捕获文件读写或解析过程中的异常,例如文件不存在或解密失败。
  2. 测试 PDF 文件:由于 PDF 文件格式的多样性,在批量处理前需要先对样本文件进行测试。
  3. 性能优化:对于大文件,使用分批加载的方式处理。
  4. 安全性:避免在代码中硬编码敏感信息,例如密码。

到此这篇关于Python使用PyPDF进行PDF操作的代码示例的文章就介绍到这了,更多相关Python PyPDF进行PDF操作内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python callable函数使用方法详解

    Python callable函数使用方法详解

    这篇文章主要介绍了Python callable函数使用方法,一个可callable的对象是指可以被调用执行的对象,并且可以传入参数, 用另一个简单的描述方式,只要可以在一个对象的后面使用小括号来执行代码,那么这个对象就是callable对象,下面来详细介绍使用方法,需要的朋友可以参考下
    2024-10-10
  • Transformer导论之Bert预训练语言解析

    Transformer导论之Bert预训练语言解析

    这篇文章主要为大家介绍了Transformer导论之Bert预训练语言解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • django ajax发送post请求的两种方法

    django ajax发送post请求的两种方法

    这篇文章主要介绍了django ajax发送post请求的两种方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-01-01
  • Python文件操作函数用法实例详解

    Python文件操作函数用法实例详解

    这篇文章主要介绍了Python文件操作函数用法实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-12-12
  • Python实现问题回答小游戏

    Python实现问题回答小游戏

    这篇文章主要介绍了利用Python制作一个简单的知识竞赛小游戏,可以实现回答问题功能,文中的示例代码介绍详细,感兴趣的同学快跟随小编一起学习吧
    2021-12-12
  • Python dict的使用误区你知道吗

    Python dict的使用误区你知道吗

    这篇文章主要为大家介绍了Python dict的使用误区,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • Python安装Gradio和常见安装问题解决办法

    Python安装Gradio和常见安装问题解决办法

    Gradio是一款便捷的Python库,专门用于创建机器学习模型的Web应用,安装通常简单,但偶尔会遇到依赖问题或环境配置错误,这篇文章主要介绍了Python安装Gradio和常见安装问题解决办法,需要的朋友可以参考下
    2024-10-10
  • pycharm 使用心得(三)Hello world!

    pycharm 使用心得(三)Hello world!

    作为PyCharm编辑器的起步,我们理所当然的先写一个Hello word,并运行它。(此文献给对IDE不熟悉的初学者)
    2014-06-06
  • Python中实现最小二乘法思路及实现代码

    Python中实现最小二乘法思路及实现代码

    这篇文章主要介绍了Python中实现最小二乘法思路及实现代码,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • python excel多行合并的方法

    python excel多行合并的方法

    这篇文章主要介绍了python excel多行合并的方法,帮助大家更好的利用python处理excel表格,感兴趣的朋友可以了解下
    2020-12-12

最新评论