Python中高效拆分PDF文档的多种方法指南

更新时间：2025年09月24日 08:22:00 作者：用户372157426135

当 PDF 文档页数较多时,我们往往需要提取部分内容或者将文档拆分成多个文件,下面小编就为大家简单介绍一下如何通过Spire.PDF for Python实现PDF的拆分处理吧

在工作和学习中，PDF 文档已经成为我们最常见的文件格式之一。它可以完整保存文档的排版、字体和图片，使报告、合同、教材或发票在不同设备上都能保持一致。然而，当 PDF 文档页数较多时，我们往往需要提取部分内容或者将文档拆分成多个文件，以便于管理、分发或归档。

手动拆分 PDF 不仅耗时，而且容易出错；使用在线工具虽然方便，但涉及敏感信息时存在一定的风险，例如合同条款或财务报表等文件不宜上传到第三方平台。

Python 提供了一种灵活、安全的解决方案，通过编写脚本可以实现自动化处理 PDF 文件，不仅可以根据页码或内容拆分，还可以处理加密文件和复杂结构文档。本文将详细介绍几种常用的 PDF 拆分方案，包括按页码范围拆分、拆分为单页文件、按固定页数间隔拆分，以及处理加密文档和按书签拆分的方法。示例中将使用 Spire.PDF for Python 库，这是一款功能全面、操作简单的 PDF 处理工具，能够满足日常大部分拆分需求。

安装 Spire.PDF for Python

在使用以下示例之前，需要先安装 Spire.PDF：

pip install spire.pdf

安装完成后，即可在 Python 中使用 PdfDocument 类对 PDF 进行操作。

1. 按页码范围拆分 PDF

在实际场景中，我们常常需要提取 PDF 中的一段连续页码。例如从 50 页的报告中提取第 5 到第 10 页，单独发送或归档。Spire.PDF 提供了 InsertPageRange 方法，可方便地实现这一需求。

from spire.pdf.common import *
from spire.pdf import *

def split_pdf_by_page_range(input_pdf, start_page, end_page, output_pdf):
    """
    将 PDF 中指定页码范围的页面提取为新文件。
    :param input_pdf: 输入 PDF 文件路径
    :param start_page: 起始页码（从1开始）
    :param end_page: 结束页码（从1开始）
    :param output_pdf: 输出 PDF 文件路径
    """
    pdf = PdfDocument()
    pdf.LoadFromFile(input_pdf)
    total_pages = pdf.Pages.Count

    if start_page < 1 or end_page > total_pages or start_page > end_page:
        print(f"错误：页码范围无效，文档总页数：{total_pages}")
        pdf.Close()
        return

    new_pdf = PdfDocument()
    new_pdf.InsertPageRange(pdf, start_page - 1, end_page - 1)

    new_pdf.SaveToFile(output_pdf)
    pdf.Close()
    new_pdf.Close()
    print(f"已成功提取第 {start_page} 到 {end_page} 页，保存为 {output_pdf}")

# 示例
split_pdf_by_page_range("报告.pdf", 5, 10, "拆分结果-5-10页.pdf")

2. 拆分为单页 PDF

有时需要将每页单独保存为独立文件，例如批量处理合同或发票。Spire.PDF 提供了 Split 方法，一行代码即可实现拆分，无需手动循环处理每一页。

from spire.pdf.common import *
from spire.pdf import *

doc = PdfDocument()
doc.LoadFromFile("报告.pdf")

# 将 PDF 拆分为单页文件，文件名中 {0} 为页码占位符
doc.Split("拆分结果/页面-{0}.pdf", 1)

# 关闭文档
doc.Close()

运行后，每页都会生成一个独立的 PDF 文件，方便单独管理或分发。

3. 按固定页数间隔拆分

对于长文档，按固定页数间隔拆分可以将 PDF 分成多个小文件，例如每 20 页生成一个文件。这在归档报告或教学资料时非常实用。

import os
from spire.pdf.common import *
from spire.pdf import *

def split_pdf_by_interval(input_pdf, output_folder, pages_per_file):
    """
    将 PDF 按固定页数拆分为多个文件。
    :param input_pdf: 输入 PDF 文件路径
    :param output_folder: 输出文件夹
    :param pages_per_file: 每个文件包含的页数
    """
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    pdf = PdfDocument()
    pdf.LoadFromFile(input_pdf)
    total_pages = pdf.Pages.Count

    file_count = 0
    for start_idx in range(0, total_pages, pages_per_file):
        file_count += 1
        end_idx = min(start_idx + pages_per_file - 1, total_pages - 1)

        new_pdf = PdfDocument()
        new_pdf.InsertPageRange(pdf, start_idx, end_idx)

        output_path = os.path.join(output_folder, f"{start_idx+1}-{end_idx+1}页.pdf")
        new_pdf.SaveToFile(output_path)
        new_pdf.Close()
        print(f"已生成文件：{output_path}")

    pdf.Close()
    print(f"PDF 已按每 {pages_per_file} 页拆分完成，共生成 {file_count} 个文件")

4. 高级拆分场景

处理加密 PDF

Spire.PDF 支持受密码保护的 PDF，只需在加载文件时提供密码即可：

doc = PdfDocument()
doc.LoadFromFile("加密文档.pdf", "密码123")
# 后续可使用前述方法拆分

按书签或内容拆分

对于结构化文档（如教材、报告或合同），可以结合 PDF 的书签或文本内容进行智能拆分：

遍历 PDF 的书签，获取对应页码
创建新文档保存每个章节或条款
重复操作，直到所有内容拆分完成

这种方法能够精确控制拆分位置，实现更高效的文档管理。

总结

Python 提供了高效、安全、灵活的 PDF 拆分方式。通过 Spire.PDF for Python，可以完成从基础拆分到高级自定义拆分的各种需求，包括处理加密文档和按书签拆分。脚本化操作不仅节省了大量手动操作时间，也确保了敏感数据的安全性。

到此这篇关于Python中高效拆分PDF文档的多种方法指南的文章就介绍到这了,更多相关Python拆分PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

python语法之与用户交互和运算符
这篇文章主要介绍了python语法之与用户交互和运算符，用户交互就是人往计算机中input/输入数据，计算机print/输出结果，下文更多相关内容需要的朋友可以参考一下
2022-04-04
Django中的函数视图和类视图以及路由的定义方式
Django视图分函数视图和类视图,前者用函数处理请求,后者继承View类定义方法,路由使用path()、re_path()或url(),通过include()整合子应用路由,需注意请求方式判断及装饰器限制
2025-08-08
树莓派+摄像头实现对移动物体的检测
这篇文章主要为大家详细介绍了树莓派+摄像头实现对移动物体的检测，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-06-06
基于python SMTP实现自动发送邮件教程解析
这篇文章主要介绍了基于python实现自动发送邮件教程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-06-06
Python绘制组合图的示例
这篇文章主要介绍了Python如何绘制组合图，帮助大家更好的利用python绘制图像，进行数据可视化分析，感兴趣的朋友可以了解下
2020-09-09
python循环输出三角形图案的例子
今天小编就为大家分享一篇python循环输出三角形图案的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
Python全栈之学习JS(3)
这篇文章主要为大家介绍了Python全栈之JS，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-01-01
详解python3 GUI刷屏器(附源码)
这篇文章主要介绍了详解python3 GUI刷屏器(附源码),本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-02-02
利用Pycharm将python文件打包为exe文件的超详细教程(附带设置文件图标)
在日常使用pycharm写好程序后,如何将程序打包为exe文件呢,下面这篇文章主要给大家介绍了关于利用Pycharm将python文件打包为exe文件的超详细教程,附带设置文件图标,需要的朋友可以参考下
2022-08-08
浅析Python中MySQLdb的事务处理功能
这篇文章给大家介绍了Python中MySQLdb的事务处理功能，对大家学习python操作数据具有一定参考借鉴价值，有需要的朋友们可以参考借鉴。
2016-09-09