C#实现从PDF中提取表格的方法详解

 更新时间:2022年08月02日 11:30:28   作者:毛毛雨大人  
PDF是办公中比较常见的一种文件格式,在工作中应用也越来越普遍。今天为大家介绍一种通过C#/VB.NET代码从PDF中提取表格内容的方法,感兴趣的可以动手尝试一下

PDF是办公中比较常见的一种文件格式,在工作中应用也越来越普遍。由于PDF文件集成度和安全可靠性都较高,所以在PDF中编辑内容是一件比较复杂且困难的事。但有时因工作需要,要求我们从中提取数据或表格该怎么办呢?别担心,今天为大家介绍一种通过C#/VB.NET代码从PDF中提取表格内容的方法。下面是我整理的思路步骤及代码供大家参考。

程序环境

本次测试时,在程序中引入 Spire.PDF.dll 文件。

方法1:

将 ​ ​Free Spire.PDF for .NET​​ 下载到本地,解压,找到 BIN 文件夹下的 Spire.PDF.dll。然后在 Visual Studio 中打开“解决方案资源管理器”,鼠标右键点击“引用”,“添加引用”,将本地路径 BIN 文件夹下的 dll 文件添加引用至程序。

方法2:

通过NuGet​​安装。可通过以下 2 种方法安装:

1. 可以在 Visual Studio 中打开“解决方案资源管理器”,鼠标右键点击“引用”,“管理 NuGet 包”,然后搜索“Free Spire.PDF”,点击“安装”。等待程序安装完成。

2. 将以下内容复制到 PM 控制台安装。

Install-Package FreeSpire.PDF -Version 8.6.0

从PDF中提取表格具体步骤

实例化PdfDocument类的对象并调用PdfDocument.LoadFromFile()方法加载文档。

通过 PdfTableExtractor.ExtractTable(int pageIndex) 方法提取指定页面中的表格。

通过 PdfTable.GetText(int rowIndex, int columnIndex) 方法将获取具体行和列中的单元格文本内容。

将获取的表格内容保存为TXT文件。

完整代码

C#

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
    class Program
    {
        static void Main(string[] args)
        {
            //实例化PdfDocument类的对象
            PdfDocument pdf = new PdfDocument();

            //加载PDF文档
            pdf.LoadFromFile("编程语言1.pdf");

            //创建StringBuilder类的对象
            StringBuilder builder = new StringBuilder();

            //实例化PdfTableExtractor类的对象
            PdfTableExtractor extractor = new PdfTableExtractor(pdf);

            //声明PdfTable类的表格数组
            PdfTable[] tableLists;

            //遍历PDF页面
            for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
            {
                //从页面提取表格
                tableLists = extractor.ExtractTable(pageIndex);

                //判断表格列表是否为空
                if (tableLists != null && tableLists.Length > 0)
                {
                    //遍历表格
                    foreach (PdfTable table in tableLists)
                    {
                        //获取表格中的行和列数
                        int row = table.GetRowCount();
                        int column = table.GetColumnCount();

                        //遍历表格行和列 
                        for (int i = 0; i < row; i++)
                        {
                            for (int j = 0; j < column; j++)
                            {
                                //获取行和列中的文本
                                string text = table.GetText(i, j);

                                //写入文本到StringBuilder容器
                                builder.Append(text + " ");
                            }
                            builder.Append("\r\n");
                        }
                    }
                }
            }

            //保存提取的表格内容为txt文档
            File.WriteAllText("提取表格.txt", builder.ToString());
        }
    }
}

VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
  Class Program
    Private Shared Sub Main(args As String())
      '实例化PdfDocument类的对象
      Dim pdf As New PdfDocument()

      '加载PDF文档
      pdf.LoadFromFile("编程语言1.pdf")

      '创建StringBuilder类的对象
      Dim builder As New StringBuilder()

      '实例化PdfTableExtractor类的对象
      Dim extractor As New PdfTableExtractor(pdf)

      '声明PdfTable类的表格数组
      Dim tableLists As PdfTable()

      '遍历PDF页面
      For pageIndex As Integer = 0 To pdf.Pages.Count - 1
        '从页面提取表格
        tableLists = extractor.ExtractTable(pageIndex)

        '判断表格列表是否为空
        If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
          '遍历表格
          For Each table As PdfTable In tableLists
            '获取表格中的行和列数
            Dim row As Integer = table.GetRowCount()
            Dim column As Integer = table.GetColumnCount()

            '遍历表格行和列 
            For i As Integer = 0 To row - 1
              For j As Integer = 0 To column - 1
                '获取行和列中的文本
                Dim text As String = table.GetText(i, j)

                '写入文本到StringBuilder容器
                builder.Append(text & Convert.ToString(" "))
              Next
              builder.Append(vbCr & vbLf)
            Next
          Next
        End If
      Next

      '保存提取的表格内容为txt文档
      File.WriteAllText("提取表格.txt", builder.ToString())
    End Sub
  End Class
End Namespace

效果图

注意:

测试代码中的文件路径为程序 Debug 路径,仅供参考,文件路径可自定义为其他路径。

到此这篇关于C#实现从PDF中提取表格的方法详解的文章就介绍到这了,更多相关C# PDF提取表格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • c# linq的差集,并集,交集,去重代码(分享)

    c# linq的差集,并集,交集,去重代码(分享)

    下面小编就为大家分享一篇c# linq的差集,并集,交集,去重代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-11-11
  • C#多线程之Semaphore用法详解

    C#多线程之Semaphore用法详解

    这篇文章主要为大家详细介绍了C#多线程之Semaphore用法,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-08-08
  • c# 识别图片格式的方法

    c# 识别图片格式的方法

    这篇文章主要介绍了c# 识别图片格式的方法,帮助大家更好的理解和学习使用c#,感兴趣的朋友可以了解下
    2021-02-02
  • c# 数据标注与数据校验

    c# 数据标注与数据校验

    这篇文章主要介绍了c# 数据标注与数据校验的相关资料,帮助大家更好的理解和学习c#,感兴趣的朋友可以了解下
    2020-10-10
  • C#利用ASP.NET Core开发学生管理系统详解

    C#利用ASP.NET Core开发学生管理系统详解

    随着技术的进步,跨平台开发已经成为了标配,在此大背景下,ASP.NET Core也应运而生。本文主要利用ASP.NET Core开发一个学生管理系统,感兴趣的可以学习一下
    2022-01-01
  • C#中图片如何自适应pictureBox大小

    C#中图片如何自适应pictureBox大小

    文章描述了如何在C#中实现图片自适应pictureBox大小,并展示修改前后的效果,修改步骤包括两步,作者分享了个人经验,希望对大家有所帮助
    2025-01-01
  • C#多线程处理多个队列数据的方法

    C#多线程处理多个队列数据的方法

    这篇文章主要介绍了C#多线程处理多个队列数据的方法,涉及C#线程与队列的相关操作技巧,需要的朋友可以参考下
    2015-07-07
  • C# OpenVINO读取百度模型实现印章检测

    C# OpenVINO读取百度模型实现印章检测

    这篇文章主要为大家详细介绍了C# OpenVINO如何通过直接读取百度模型实现印章检测,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-12-12
  • C#接口interface用法实例

    C#接口interface用法实例

    这篇文章主要介绍了C#接口interface用法,实例分析了C#接口的基本使用方法,需要的朋友可以参考下
    2015-06-06
  • C# Main方法的传入参数研究

    C# Main方法的传入参数研究

    这篇文章主要介绍了C# Main方法的传入参数研究,相信大家不管是在java中还是C#中都经常见到public static void Main(string[] args)类似的语句,那这个args到底有什么用,你又知道多少呢?本文就专门研究了这个参数,相信可以让涨姿势,需要的朋友可以参考下
    2015-06-06

最新评论