C#使用Spire.PDF for .NET提取PDF文本的具体教程

 更新时间:2025年09月01日 10:14:46   作者:用户835629078051  
在日常开发中,经常会遇到从 PDF 文件中提取文本的需求,Spire.PDF for .NET 提供了简单高效的 API,可以在 C# 项目中直接读取 PDF 文本,无需安装 Adobe Acrobat,所以本文给大家介绍了C#使用Spire.PDF for .NET提取PDF文本的具体教程,需要的朋友可以参考下

在日常开发中,经常会遇到从 PDF 文件中提取文本的需求,例如:

  • 从合同或发票中获取关键信息;
  • 将报告或数据表内容导入数据库;
  • 实现全文检索功能。

Spire.PDF for .NET 提供了简单高效的 API,可以在 C# 项目中直接读取 PDF 文本,无需安装 Adobe Acrobat。

步骤 1:引入 Spire.PDF for .NET

如果使用 NuGet,可以在项目中安装:

Install-Package Spire.PDF

或者在 Visual Studio 中通过 NuGet 管理器搜索 Spire.PDF 并安装。

步骤 2:加载 PDF 并提取文本

以下示例展示了如何读取 PDF 文件的全部文本:

using Spire.Pdf;
using System;

class Program
{
    static void Main()
    {
        // 创建 PdfDocument 对象
        PdfDocument pdf = new PdfDocument();

        // 加载 PDF 文件
        pdf.LoadFromFile("Sample.pdf");

        // 遍历所有页面提取文本
        for (int i = 0; i < pdf.Pages.Count; i++)
        {
            string text = pdf.Pages[i].ExtractText();
            Console.WriteLine($"--- 第 {i + 1} 页内容 ---");
            Console.WriteLine(text);
        }
    }
}

运行后,控制台会输出 PDF 中每一页的文本内容。

步骤 3:提取指定页或区域文本(可选)

如果只想提取某一页或某个区域的文本,可以使用如下方法:

using Spire.Pdf;
using Spire.Pdf.General.Find;

class Program
{
    static void Main()
    {
        PdfDocument pdf = new PdfDocument();
        pdf.LoadFromFile("Sample.pdf");

        // 提取第一页文本
        string firstPageText = pdf.Pages[0].ExtractText();
        Console.WriteLine("第一页内容:");
        Console.WriteLine(firstPageText);

        // 按矩形区域提取文本
        var rect = new System.Drawing.RectangleF(0, 0, 300, 500);
        string areaText = pdf.Pages[0].ExtractText(rect);
        Console.WriteLine("指定区域文本:");
        Console.WriteLine(areaText);
    }
}

这样可以更精准地获取页面上特定位置的文本内容,例如表格或标题。

总结

本文介绍了如何在 C# 项目中使用 Spire.PDF for .NET 提取 PDF 文本,包括:

  1. 加载 PDF 文件 并访问页面;
  2. 遍历页面提取文本
  3. 按页或区域提取文本,满足定制化需求。

通过这些方法,开发者可以快速实现 PDF 文本解析和数据提取功能,用于报表处理、数据分析或全文检索场景。

到此这篇关于C#使用Spire.PDF for .NET提取PDF文本的具体教程的文章就介绍到这了,更多相关C#提取PDF文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 使用C#改善代码质量的技巧和实践

    使用C#改善代码质量的技巧和实践

    本文将通过多个编程技巧和实践,展示如何显著改善代码质量,以 C# 为例,结合 卫语句、枚举、字典映射、单一职责原则 等技巧,逐步优化代码,感兴趣的小伙伴跟着小编一起来看看吧
    2025-03-03
  • 如何使用C#在PDF文件添加图片印章

    如何使用C#在PDF文件添加图片印章

    文档中添加印章可以起一定的作用,比如,防止文件随意被使用,或者确保文档内容的安全性和权威性。C#添加图片印章其实也有很多实现方法,这里我使用的是免费的第三方软件Free Spire.PDF,向大家阐述如何以编程的方式在PDF文件中添加图片印章
    2017-01-01
  • C#如何通过T4自动生成代码详解

    C#如何通过T4自动生成代码详解

    这篇文章主要给大家介绍了关于C#如何通过T4自动生成代码的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用c#具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-10-10
  • C#定时每天00点00分00秒自动重启软件

    C#定时每天00点00分00秒自动重启软件

    这篇文章主要为大家详细介绍了C#定时每天00点00分00秒自动重启软件,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-08-08
  • C# new与malloc的使用与区别

    C# new与malloc的使用与区别

    本文主要介绍了C# new与malloc的使用与区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-07-07
  • 使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的方法

    使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的方法

    这篇文章主要给大家介绍了关于如何使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起看看吧
    2019-03-03
  • Unity Shader模拟玻璃效果

    Unity Shader模拟玻璃效果

    这篇文章主要为大家详细介绍了Unity Shader模拟玻璃效果,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-05-05
  • C#控制台基础 list<>初始化的两种方法

    C#控制台基础 list<>初始化的两种方法

    这篇文章主要介绍了C#控制台基础 list<>初始化的两种方法,需要的朋友可以参考下
    2016-12-12
  • unity3d 对接 workerman 实现联机游戏功能

    unity3d 对接 workerman 实现联机游戏功能

    workerman 是一款开源高性能 PHP 应用容器,他除了用于互联网、即时通讯、APP 开发、硬件通讯、智能家居、物联网等领域的开发外,这篇文章主要介绍了unity3d 对接 workerman 实现联机游戏,需要的朋友可以参考下
    2022-10-10
  • C#中List.Contains(T)失效的解决方法

    C#中List.Contains(T)失效的解决方法

    这篇文章主要介绍了C#中List.Contains(T)失效的解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-03-03

最新评论