Python实现快速从指定页面PDF中提取文本

更新时间：2026年01月07日 08:14:38 作者：LSTM97

在现代办公环境中,PDF 文件作为一种通用的文档格式被广泛使用,本文将为大家介绍如何使用 Spire.PDF for Python 来实现这一功能,具体包括从某一页和从指定区域提取文本,希望对大家有所帮助

在现代办公环境中，PDF 文件作为一种通用的文档格式被广泛使用。无论是合同、报告还是电子书，很多重要信息都储存于 PDF 文件中。因此，从 PDF 文件中提取文本数据的需求也逐渐增加。本文将为大家介绍如何使用 Spire.PDF for Python 来实现这一功能，具体包括从某一页和从指定区域提取文本。

1. 环境准备

首先，确保你已经安装了 Python 和 Spire.PDF 的相关库。你可以通过以下命令安装 Spire.PDF：

pip install Spire.PDF

2. 从指定页面提取文本

2.1 代码示例

以下代码展示了如何从 PDF 文档中的特定页（例如第2页）提取文本：

from spire.pdf.common import *
from spire.pdf import *

# 创建一个 PdfDocument 对象
doc = PdfDocument()

# 加载 PDF 文档
doc.LoadFromFile('C:/Users/Administrator/Desktop/Terms of service.pdf')

# 创建 PdfTextExtractOptions 对象并启用全文本提取
extractOptions = PdfTextExtractOptions()
# 提取所有文本，包括空格
extractOptions.IsExtractAllText = True

# 获取特定的页面（例如，第2页）
page = doc.Pages.get_Item(1)

# 创建 PdfTextExtractor 对象
textExtractor = PdfTextExtractor(page)

# 从页面中提取文本
text = textExtractor.ExtractText(extractOptions)

# 使用 UTF-8 编码将提取的文本写入文件
withopen('output/TextOfPage.txt', 'w', encoding='utf-8') as file:
    file.write(text)

2.2 代码解析

创建 PdfDocument 对象：这一步是加载 PDF 文件的第一步。
加载 PDF 文档 ：使用指定路径加载你要处理的 PDF 文件。
配置提取选项 ：通过设置 IsExtractAllText 为 True，确保提取所有文本，包括空格。
获取特定页面 ：doc.Pages.get_Item(1) 获取的是 PDF 的第二页（索引从0开始）。
创建文本提取器并提取文本 ：使用 PdfTextExtractor 对象来提取文本。
将提取的文本保存为文件 ：最终将文本内容保存到指定路径的文件中。

3. 从指定区域提取文本

有时候，仅提取 PDF 中的某一特定区域的文本更加有效。这可以通过定义一个矩形区域来实现。

3.1 代码示例

以下代码将展示如何从 PDF 的指定区域提取文本：

from spire.pdf.common import *
from spire.pdf import *

# 创建一个 PdfDocument 对象
doc = PdfDocument()

# 加载 PDF 文档
doc.LoadFromFile('C:/Users/Administrator/Desktop/Terms of service.pdf')

# 获取特定的页面（例如，第2页）
page = doc.Pages.get_Item(1)

# 创建 PdfTextExtractor 对象
textExtractor = PdfTextExtractor(page)

# 创建 PdfTextExtractOptions 对象
extractOptions = PdfTextExtractOptions()

# 定义提取的矩形区域
# RectangleF(left, top, width, height)
extractOptions.ExtractArea = RectangleF(0.0, 100.0, 890.0, 80.0)

# 从指定区域提取文本，保留空格
text = textExtractor.ExtractText(extractOptions)

# 使用 UTF-8 编码将提取的文本写入文件
withopen('output/TextOfRectangle.txt', 'w', encoding='utf-8') as file:
    file.write(text)

3.2 代码解析

加载 PDF 文件 ：与之前相同，首先加载 PDF 文档。
获取特定页面 ：依然使用 doc.Pages.get_Item(1) 来获取第2页。
定义提取区域 ：通过 RectangleF 类来定义一个矩形区域，该区域的左上角坐标为 (0, 100)，宽度为 890，高度为 80。
执行文本提取 ：然后使用 ExtractText 方法从指定区域提取文本。
保存文本 ：最后，提取的文本同样保存为 UTF-8 编码的文件。

结论

通过以上方法，我们可以方便地从 PDF 文档中提取所需的文本信息。Spire.PDF for Python 提供的 API 简洁高效，能够满足多种文本提取需求。不论是从全页提取还是从特定区域提取，在实际工作中都能显著提高效率，尤其对于需要处理大量 PDF 文件的场合，使用此工具将使你事半功倍。

到此这篇关于Python实现快速从指定页面PDF中提取文本的文章就介绍到这了,更多相关Python提取PDF文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python道路车道线检测的实现
在本文中，我们将构建一个机器学习项目来实时检测车道线。我们将使用 OpenCV 库使用计算机视觉的概念来做到这一点，感兴趣的可以了解一下
2021-06-06
Python合并ts文件至mp4格式及解密教程详解
m3u8准确来说是一种索引文件，使用m3u8文件实际上是通过它来解析对应的放在服务器上的视频网络地址，从而实现在线播放。本文给大家介绍Python合并ts文件至mp4格式及解密教程，需要的朋友参考下吧
2021-07-07
win10下python3.5.2和tensorflow安装环境搭建教程
这篇文章主要为大家详细介绍了win10下python3.5.2和tensorflow安装环境搭建教程，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-09-09
六个Python编程最受用的内置函数使用详解
在日常的python编程中使用这几个函数来简化我们的编程工作，经常使用能使编程效率大大地提高。本文为大家总结了六个Python编程最受用的内置函数，感兴趣的可以了解一下
2022-07-07
利用Python第三方库xlwt写入数据到Excel工作表实例代码
大家应该都知道xlwt是python中写入到excel的库,下面这篇文章主要给大家介绍了关于利用Python第三方库xlwt写入数据到Excel工作表的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-07-07
python list数据等间隔抽取并新建list存储的例子
今天小编就为大家分享一篇python list数据等间隔抽取并新建list存储的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-11-11
Python 找到列表中满足某些条件的元素方法
今天小编就为大家分享一篇Python 找到列表中满足某些条件的元素方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
对python当中不在本路径的py文件的引用详解
今天小编就为大家分享一篇对python当中不在本路径的py文件的引用详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-12-12
Windows下Python2与Python3两个版本共存的方法详解
这篇文章主要介绍了Windows下Python2与Python3两个版本共存的方法，文中介绍的很详细，对大家具有一定的参考价值，有需要的朋友们下面来一起看看吧。
2017-02-02
python中添加模块导入路径的方法
这篇文章主要介绍了python中添加模块导入路径的方法 ,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-02-02