C#使用Spire.PDF for .NET轻松提取PDF文件中的文字内容

更新时间：2026年03月31日 08:20:22 作者：LSTM97

从 PDF 中提取文本内容却常常令人头疼,本文将介绍如何使用 Spire.PDF for .NET 这一强大的组件,通过 C# 代码轻松实现 PDF 文本提取,感兴趣的可以了解下

在数据处理工作中，PDF 文件因其跨平台、格式稳定的特点而被广泛使用。然而，从 PDF 中提取文本内容却常常令人头疼——无论是整理资料、分析数据，还是构建文本检索系统，高效准确地提取 PDF 文本都是一项基础而重要的需求。本文将介绍如何使用 Spire.PDF for .NET 这一强大的组件，通过 C# 代码轻松实现 PDF 文本提取。

Spire.PDF for .NET 简介

Spire.PDF for .NET 是一款专业的 PDF 组件，它允许开发者在 .NET 平台上创建、读取、编辑和转换 PDF 文件，无需安装 Adobe Acrobat 或其他外部依赖。该组件提供了丰富的 API，其中文本提取功能尤为实用，支持提取整页文本，也支持仅提取指定区域的文本内容。

通过 NuGet 安装：

Install-Package Spire.PDF

从指定页面提取全文

在实际应用中，最常见的需求是将某个 PDF 页面的全部文字提取出来。使用 Spire.PDF 可以轻松实现这一目标。以下是用 C# 实现的完整代码：

using Spire.Pdf;
using Spire.Pdf.Texts;
using System.IO;

namespace ExtractTextFromIndividualPages
{
    internal class Program    
    {
        static void Main(string[] args)
        {
            // 创建 PDF 文档实例
            PdfDocument pdf = new PdfDocument();
            // 加载 PDF 文件
            pdf.LoadFromFile("Input.pdf");

            // 获取要提取文本的页面（例如，索引1对应第二页，注：索引从0开始）
            PdfPageBase page = pdf.Pages[1];

            // 为选中的页面创建PdfTextExtractor实例
            PdfTextExtractor extractor = new PdfTextExtractor(page);
            // 设置提取选项
            PdfTextExtractOptions option = new PdfTextExtractOptions
            {
                IsExtractAllText = true
            };
            // 从指定页面提取文本
            string text = extractor.ExtractText(option);

            // 将提取的文本保存到文本文件
            File.WriteAllText("Extracted.txt", text);
            // 关闭 PDF 文档
            pdf.Close();
        }
    }
}

上述代码的执行流程如下：首先创建 PdfDocument 对象并加载目标 PDF 文件。接着，通过 Pages 集合获取指定页面（本例为第一页）。为了实现完整的文本提取，设置 PdfTextExtractOptions 对象的 IsExtractAllText 属性为 true，确保提取时不会遗漏任何文本内容。随后，创建 PdfTextExtractor 对象并传入页面实例，调用 ExtractText 方法即可获得该页面的全部文字。最后，将提取到的文本写入本地文件，并关闭文档释放资源。整个过程简洁明了，仅需几行核心代码，便能完成从 PDF 页面到纯文本的转换。

从指定区域提取文本

在某些场景下，我们并不需要整页的内容，而只需要提取页面中的特定区域——例如表格中的某列数据、标题栏、签章区域等。Spire.PDF 同样提供了灵活的解决方案。以下是区域提取的 C# 实现代码：

using Spire.Pdf;
using Spire.Pdf.Texts;
using System.IO;
using System.Drawing;

namespace ExtractTextFromDefinedArea
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 创建 PDF 文档实例
            PdfDocument pdf = new PdfDocument();
            // 加载 PDF 文件
            pdf.LoadFromFile("Input.pdf");

            // 获取第二页（索引1对应第二页）
            PdfPageBase page = pdf.Pages[1];

            // 为选中的页面创建 PdfTextExtractor 实例
            PdfTextExtractor textExtractor = new PdfTextExtractor(page);
            // 设置提取选项（指定矩形区域）
            PdfTextExtractOptions extractOptions = new PdfTextExtractOptions
            {
                // 矩形区域参数：X坐标、Y坐标、宽度、高度
                ExtractArea = new RectangleF(0, 0, 595, 300)
            };

            // 从指定矩形区域提取文本
            string text = textExtractor.ExtractText(extractOptions);

            // 将提取的文本保存到文本文件
            File.WriteAllText("Extracted.txt", text);

            // 关闭 PDF 文档
            pdf.Close();
        }
    }
}

与全文提取类似，首先加载 PDF 并获取目标页面。关键区别在于设置提取区域：通过 PdfTextExtractOptions 的 ExtractArea 属性，可以定义一个矩形区域，该区域由左上角坐标 (X, Y) 以及宽度和高度共同确定。组件会智能地仅提取该矩形范围内的文本内容。本例中定义的矩形区域起始坐标为 (0, 0)，宽度为 595，高度为 300，单位为磅（Point）。

这种方法特别适合处理结构化的 PDF 文档，比如财务报表、发票或表单，可以精准定位并提取所需字段，大大提高了信息获取的效率和准确性。

实际应用与注意事项

在实际开发中，文本提取功能可广泛应用于数据采集、内容分析、文档归档等场景。例如，将合同 PDF 中的条款提取后存入数据库，或从科研论文 PDF 中抽取摘要部分进行检索分析。

使用 Spire.PDF 进行文本提取时，有几个要点值得注意：首先，确保矩形区域的坐标和尺寸准确无误，可以通过预览或测量工具辅助定位；其次，对于复杂的 PDF（如包含多列排版或特殊字体），建议启用完整提取模式以保证最佳效果；最后，提取完成后务必调用 Close 方法释放文档资源，避免内存占用。

总结

借助 Spire.PDF for .NET，C# 开发者可以以极简的代码实现高质量的 PDF 文本提取功能。无论是整页提取还是区域提取，该组件都提供了直观、可靠的解决方案。对于需要处理 PDF 文本的 .NET 项目而言，Spire.PDF 无疑是一个值得考虑的高效工具。

以上就是C#使用Spire.PDF for .NET轻松提取PDF文件中的文字内容的详细内容，更多关于C#提取PDF文本的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

一个读写csv文件的C#类
这篇文章主要为大家详细介绍了一个读写csv文件的C#类，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-03-03
c#数组详解
这篇文章主要介绍了c#数组的一些相关知识，需要的朋友可以参考下
2007-05-05
C#编程自学之数据类型和变量一
本节课我们将学习C#编程语言的数据类型，数据类型可以分为值类型和引用类型，接着介绍变量的使用方法和作用域等内容，为了方便大家理解，我们还会举一些小例子作为说明。
2015-10-10
Unity实现弧形移动效果
这篇文章主要为大家详细介绍了Unity实现弧形移动效果，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-06-06
一文弄懂C#浅克隆与深克隆
在C#中,浅克隆和深克隆是两种常见的对象克隆技术,本文主要介绍了C#浅克隆与深克隆,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧
2024-02-02
C#代码延时的几种实现
本文主要介绍了C#代码延时的几种实现，主要介绍了三种方法，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-08-08
C#获取USB事件API实例分析
这篇文章主要介绍了C#获取USB事件API,实例分析了C#操作USB事件的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
2015-05-05
C#借助Spire.XLS实现自动化生成和操作Excel表格
Excel中的表格不仅仅是简单的数据区域,它具备了排序、筛选、格式化等一系列功能,可以大大提升数据处理的效率,本文我们就来简单讲讲如何使用C#实现在 Excel中高效创建和操作表格吧
2025-11-11
C# cefSharep控件的使用详情
本文主要介绍了C# cefSharep控件的使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2023-01-01
WPF在VisualTree上增加Visual
这篇文章介绍了WPF在VisualTree上增加Visual的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-06-06