C#/VB.NET中从 PDF 文档中提取所有表格

 更新时间:2022年08月03日 14:11:35   作者:wx62c7d51fdb3c6​​​​​​​  
这篇文章主要介绍了C#/VB.NET中从PDF文档中提取所有表格,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下

前言

有时,我们可能需要从 PDF 文档中提取表格数据,例如,当PDF发票的表格中存储了一些有用的信息,需要提取数据以进行进一步分析时。在这篇文章中,我将介绍如何使用Spire.PDF for .NET 从 PDF 文档中提取所有表格数据。

安装

首先,我们需要将 Spire.PDF for .NET 包中包含的 DLL 文件添加为 .NET 项目中的引用。可以从此链接下载 DLL 文件,也可以通过 NuGet 安装 DLL 文件。

PM> Install-Package Spire.PDF

从PDF文档中提取表格

Spire.PDF提供了PdfTableExtractor.ExtractTable()方法,用于从特定页面中提取表格。以下是从整个PDF文档中提取表格的详细步骤。

  • 创建一个Document类的对象,并加载源 PDF 文件。
  • 遍历文档中的页面,并使用ExtractTable()方法从特定页面获取表格列表。
  • 遍历特定表格中的单元格,并通过PdfTable.GetText()方法获取单元格值。
  • 将所提取的数据写入 TXT 文件。

[C#]

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类的对象
PdfDocument pdf = new PdfDocument();

//加载PDF文档
pdf.LoadFromFile("sample.pdf");

//创建StringBuilder类的对象
StringBuilder builder = new StringBuilder();

//实例化PdfTableExtractor类的对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);

//声明一个PdfTable类的表格数组
PdfTable[] tableLists;

//遍历PDF页面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//从页面提取表格
tableLists = extractor.ExtractTable(pageIndex);

//判断表格列表是否为空
if (tableLists != null && tableLists.Length > 0)
{
//遍历表格
foreach (PdfTable table in tableLists)
{
//获取表格中的行和列数
int row = table.GetRowCount();
int column = table.GetColumnCount();

//遍历表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//获取行和列中的文本
string text = table.GetText(i, j);

//写入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}

VB.NET

Imports Spire.Pdf
Imports Spire.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'实例化PdfDocument类的对象
Dim pdf As New PdfDocument()

'加载PDF文档
pdf.LoadFromFile("sample.pdf")

'创建StringBuilder类的对象
Dim builder As New StringBuilder()

'实例化PdfTableExtractor类的对象
Dim extractor As New PdfTableExtractor(pdf)

'声明一个PdfTable类的表格数组
Dim tableLists As PdfTable()

'遍历PDF页面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'从页面提取表格
tableLists = extractor.ExtractTable(pageIndex)

'判断表格列表是否为空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍历表格
For Each table As PdfTable In tableLists
'获取表格中的行和列数
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()

'遍历表格行和列
For i As Integer = 0 To row - 1
For j As Integer = 0 To column - 1
'获取行和列中的文本
Dim text As String = table.GetText(i, j)

'写入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next

'保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace

到此这篇关于C#/VB.NET中从 PDF 文档中提取所有表格的文章就介绍到这了,更多相关C#提取表格内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • C#使用CefSharp自定义缓存实现

    C#使用CefSharp自定义缓存实现

    本文介绍了如何使用C#和CefSharp自定义缓存实现减少Web应用程序的网络请求,提高应用程序性能。首先,本文讲解了CefSharp的基本知识和使用方法。然后,详细阐述了在CefSharp中实现自定义缓存的步骤和技巧。最后,通过实例演示了如何使用自定义缓存功能获取并展示网页数据
    2023-04-04
  • C#线程池ThreadPool用法简介

    C#线程池ThreadPool用法简介

    这篇文章介绍了C#线程池ThreadPool的用法,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • C#实现简单的五子棋游戏

    C#实现简单的五子棋游戏

    这篇文章主要为大家详细介绍了C#实现简单的五子棋游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2021-01-01
  • C#使用ODBC与OLEDB连接数据库的方法示例

    C#使用ODBC与OLEDB连接数据库的方法示例

    这篇文章主要介绍了C#使用ODBC与OLEDB连接数据库的方法,结合实例形式分析了C#基于ODBC与OLEDB实现数据库连接操作简单操作技巧,需要的朋友可以参考下
    2017-05-05
  • C#使用xsd文件验证XML格式是否正确的实现方法

    C#使用xsd文件验证XML格式是否正确的实现方法

    这篇文章主要介绍了C#使用xsd文件验证XML格式是否正确的实现方法,结合实例形式分析了C#针对xml文件的创建、验证相关操作技巧,需要的朋友可以参考下
    2017-01-01
  • C#实现的ACCESS数据库操作类完整实例

    C#实现的ACCESS数据库操作类完整实例

    这篇文章主要介绍了C#实现的ACCESS数据库操作类,结合完整实例形式分析了C#针对access数据库增删改查、事务、结果处理等相关操作技巧,需要的朋友可以参考下
    2017-05-05
  • C#常用目录文件操作类实例

    C#常用目录文件操作类实例

    这篇文章主要介绍了C#常用目录文件操作类,实例分析了C#针对目录的读取、检测及查找等相关操作技巧,非常具有实用价值,需要的朋友可以参考下
    2015-03-03
  • C#实现为视频添加水印

    C#实现为视频添加水印

    这篇文章主要为大家详细介绍了C#如何使用ffmpeg命令,分别实现给视频添加图片水印以及文字水印,文中的示例代讲解详细,感兴趣的可以了解一下
    2023-01-01
  • C#实现计算一个点围绕另一个点旋转指定弧度后坐标值的方法

    C#实现计算一个点围绕另一个点旋转指定弧度后坐标值的方法

    这篇文章主要介绍了C#实现计算一个点围绕另一个点旋转指定弧度后坐标值的方法,涉及C#针对坐标的数学运算相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-08-08
  • C#使用日志组件log4net

    C#使用日志组件log4net

    这篇文章介绍了C#日志组件log4net的使用方法,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06

最新评论