C# 提取PDF中的表格详情

 更新时间:2021年10月20日 08:31:40   作者:E-iceblue  
这篇文章主要给大家介绍C# 提取PDF中的表格,本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的 类 以及 方法 等来获取表格单元格中的文本内容,需要的朋友可以参考一下

1、简单介绍

本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的 类 以及 方法 等来获取表格单元格中的文本内容;代码内容中涉及到的主要类及方法归纳如下表,供参考:

类型

描述

PdfDocument Class

Represents a pdf document model.

PdfDocument.LoadFromFile(string filename) Method

Loads a PDF document.

PdfTableExtractor Class

Represents the PDF table extractor.

PdfTable Class

Defines a PDF table.

PdfTableExtractor. ExtractTable(int pageIndex) Method

Extracts table from page.

PdfTable.GetText(int rowIndex,int columnIndex) Method

Gets Text in cell.

File.WriteAllText() Method

Saves extracted text in table to a .txt file.

2、环境配置

  • Visual Studio 2017
  •   .net framework 4.6.1
  •   PDF测试文档
  •   库:Spire.PDF for .NET 7.10.4

引用dll文件的2种方法:

方法1 :通过 NuGet 安装。

【步骤】

鼠标右键点击“引用”,“管理NuGet程序包”,

点击“浏览”,在搜索框中输入,点击“安装”,

或者使用PM控制台安装:

PM>Install-Package Spire.PDF -Version 7.10.4 

方法2 :手动添加引用。

【步骤】

鼠标右键点击“引用”,“添加引用”,

点击“浏览”,“浏览”,将本地路径下的dll文件(需提前 下载 到本地,并解压)添加到引用列表

点击OK,完成引用:

3、代码示例

C#

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
    class Program
    {
        static void Main(string[] args)
        {
            //加载PDF文档
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("sample.pdf");
            StringBuilder builder = new StringBuilder();

            //抽取表格
            PdfTableExtractor extractor = new PdfTableExtractor(pdf);
            PdfTable[] tableLists = null;
            for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
            {
                tableLists = extractor.ExtractTable(pageIndex);
                if (tableLists != null && tableLists.Length > 0)
                {
                    foreach (PdfTable table in tableLists)
                    {
                        int row = table.GetRowCount();
                        int column = table.GetColumnCount();
                        for (int i = 0; i < row; i++)
                        {
                            for (int j = 0; j < column; j++)
                            {
                                string text = table.GetText(i, j);
                                builder.Append(text + " ");
                            }
                            builder.Append("\r\n");
                        }
                    }
                }
            }

            //保存提取的表格内容到txt文档
            File.WriteAllText("ExtractedTable.txt", builder.ToString());
        }
    }
}


VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
    Class Program
        Private Shared Sub Main(args As String())
            '加载PDF文档
            Dim pdf As New PdfDocument()
            pdf.LoadFromFile("sample.pdf")
            Dim builder As New StringBuilder()

            '抽取表格
            Dim extractor As New PdfTableExtractor(pdf)
            Dim tableLists As PdfTable() = Nothing
            For pageIndex As Integer = 0 To pdf.Pages.Count - 1
                tableLists = extractor.ExtractTable(pageIndex)
                If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
                    For Each table As PdfTable In tableLists
                        Dim row As Integer = table.GetRowCount()
                        Dim column As Integer = table.GetColumnCount()
                        For i As Integer = 0 To row - 1
                            For j As Integer = 0 To column - 1
                                Dim text As String = table.GetText(i, j)
                                builder.Append(text & Convert.ToString(" "))
                            Next
                            builder.Append(vbCr & vbLf)
                        Next
                    Next
                End If
            Next

            '保存提取的表格内容到txt文档
            File.WriteAllText("ExtractedTable.txt", builder.ToString())
        End Sub
    End Class
End Namespace

表格内容提取结果:

其他注意事项:

  • 代码中的PDF文件以及生成的.txt文件路径为 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。
  • 注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。

到此这篇关于C# 提取PDF中的表格详情的文章就介绍到这了,更多相关C# 提取PDF中的表格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

您可能感兴趣的文章:

相关文章

  • C#实现简单的飞行棋小游戏

    C#实现简单的飞行棋小游戏

    这篇文章主要为大家详细介绍了C#实现简单的飞行棋小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下<BR>
    2021-11-11
  • C#开发Winform实现窗体间相互传值

    C#开发Winform实现窗体间相互传值

    这篇文章介绍了C#开发Winform实现窗体间相互传值的方法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-03-03
  • C# JavaScriptSerializer序列化时的时间处理详解

    C# JavaScriptSerializer序列化时的时间处理详解

    这篇文章主要为大家详细介绍了C# JavaScriptSerializer序列化时的时间处理详解,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-08-08
  • C#连接Oracle的方法实例总结

    C#连接Oracle的方法实例总结

    这篇文章主要介绍了C#连接Oracle的方法,结合实例形式总结分析了几种常见的C#连接Oracle数据库的操作技巧与相关注意事项,需要的朋友可以参考下
    2017-06-06
  • 详解C#泛型的类型参数约束

    详解C#泛型的类型参数约束

    这篇文章主要介绍了C#泛型的类型参数约束的相关资料,文中讲解非常细致,帮助大家更好的理解和学习c#,感兴趣的朋友可以了解下
    2020-07-07
  • C#基于基姆拉尔森算法计算指定日期是星期几的方法

    C#基于基姆拉尔森算法计算指定日期是星期几的方法

    这篇文章主要介绍了C#基于基姆拉尔森算法计算指定日期是星期几的方法,实例分析了基姆拉尔森算法的原理与使用技巧,非常具有实用价值,需要的朋友可以参考下
    2015-04-04
  • C# PDF Page操作设置页面切换按钮的方法

    C# PDF Page操作设置页面切换按钮的方法

    这篇文章主要介绍了C# PDF Page操作设置页面切换按钮的方法,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2018-05-05
  • C#设置WinForm中DataGrid列的方法(列宽/列标题等)

    C#设置WinForm中DataGrid列的方法(列宽/列标题等)

    这篇文章主要介绍了C#设置WinForm中DataGrid列的方法,包括列宽、列标题等部分,并分析了其中相关的操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-07-07
  • c#得到本月有几周和这几周的起止时间示例代码

    c#得到本月有几周和这几周的起止时间示例代码

    本篇文章主要是对c#得到本月有几周和这几周的起止时间的示例代码进行了介绍,需要的朋友可以过来参考下,希望对大家有所帮助
    2014-01-01
  • C#生成带logo的二维码

    C#生成带logo的二维码

    带logo的二维码生成分为两步骤:首先根据输入的内容生成二维码图片,然后读取本地的logo图片,通过图片处理生成带logo的二维码。本文对此进行介绍,具有很好的参考价值,下面跟着小编一起来看下吧
    2017-02-02

最新评论