使用Python提取PDF表格到Excel文件的操作步骤

 更新时间:2024年09月25日 10:14:29   作者:Eiceblue  
在对PDF中的表格进行再利用时,除了直接将PDF文档转换为Excel文件,我们还可以提取PDF文档中的表格数据并写入Excel工作表,本文将介绍如何使用Python提取PDF文档中的表格并写入Excel文件中,需要的朋友可以参考下

引言

在对PDF中的表格进行再利用时,除了直接将PDF文档转换为Excel文件,我们还可以提取PDF文档中的表格数据并写入Excel工作表。这样做可以避免一些不必要的文本和格式带来的干扰,获得更易于分析和处理的表格数据,并方便进行更多的格式设置。利用Python,我们可以实现对PDF表格数据的批量提取,并写入Excel工作表中,实现高效的提取写入操作。本文将介绍如何使用Python提取PDF文档中的表格并写入Excel文件中。

本文所使用的方法需要用到Spire.PDF for PythonSpire.XLS for Python,PyPI:pip install spire.pdf, spire.xls

Python提取PDF表格数据写入Excel工作表

提取表格需要用到Spire.PDF for Python中的PdfTableExtractor类。我们可以使用载入的PDF文档创建一个PdfTableExtractor对象,然后使用PdfTableExtractor.ExtractTable()方法直接提取指定页面的所有表格返回为列表。然后,我们可以使用PdfTable.GetText()来获取表格指定单元格的文本,再使用Spire.XLS for Python新建工作表并写入读取的数据到工作表中的相应位置。最后,对工作表进行合适的格式设置,即可完成PDF表格数据到Excel工作表的提取。

以下是详细操作步骤:

  1. 导入所需模块。
  2. 创建 PdfDocument 对象,并使用 PdfDocument.LoadFromFile() 方法加载PDF文档。
  3. 创建一个 Workbook 对象,并使用 Workbook.Worksheets.Clear() 方法清除默认工作表。
  4. 为加载的PDF文档创建一个 PdfTableExtractor 对象。
  5. 使用 PdfTableExtractor.ExtractTable() 方法提取文档中每一页的表格。
  6. 遍历每个表格
    • 使用 Workbook.Worksheets.Add() 方法为每个表格在工作簿中添加一个工作表。
    • 使用 Table.GetText() 方法遍历各行各列以获取单元格值,并通过 Worksheet.Range[].Text 属性将其插入工作表的相应位置。
    • 设置单元格格式。
  7. 使用 Workbook.SaveToFile() 方法保存工作簿。
  8. 释放资源。

代码示例

from spire.pdf import *
from spire.xls import *

# 创建一个 PdfDocument 对象
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("示例.pdf")

# 创建一个 Workbook 对象
workbook = Workbook()
# 清除默认工作表
workbook.Worksheets.Clear()

# 创建一个 PdfTableExtractor 对象
extractor = PdfTableExtractor(pdf)

# 从每个 PDF 页面提取表格
for pageIndex in range(pdf.Pages.Count):
    tables = extractor.ExtractTable(pageIndex)
    # 如果有多个表格则迭代
    if tables is not None:
        for tableIndex in range(len(tables)):
            # 获取一个表格
            table = tables[tableIndex]
            # 为该表格创建一个工作表
            sheet = workbook.Worksheets.Add(f"Page{pageIndex + 1}-Table{tableIndex + 1}")
            # 迭代表格的行和列
            for rowIndex in range(table.GetRowCount()):
                for colIndex in range(table.GetColumnCount()):
                    # 获取单元格的值
                    text = table.GetText(rowIndex, colIndex)
                    cellText = text.replace("\n", "")
                    # 将单元格的值写入工作表中的相应单元格
                    sheet.Range[rowIndex + 1, colIndex + 1].Text = cellText
            # 设置表头行样式
            sheet.Rows.get_Item(0).Style.Font.FontName = "HarmonyOS Sans SC"
            sheet.Rows.get_Item(0).Style.Font.Size = 12
            sheet.Rows.get_Item(0).Style.Font.IsBold = True
            sheet.Rows.get_Item(0).Style.HorizontalAlignment = HorizontalAlignType.Center
            # 设置数据行样式
            for i in range(1, sheet.Rows.Count):
                sheet.Rows.get_Item(i).Style.Font.FontName = "HarmonyOS Sans SC"
                sheet.Rows.get_Item(i).Style.Font.Size = 12
                sheet.Rows.get_Item(i).Style.HorizontalAlignment = HorizontalAlignType.Left
            # 自动调整列宽
            for j in range(1, sheet.Columns.Count):
                sheet.AutoFitColumn(j)

# 保存工作簿
workbook.SaveToFile("output/PDFTableToExcel.xlsx", FileFormat.Version2016)
workbook.Dispose()
pdf.Close()

结果

本文演示了如何使用Python提取PDF文档表格数据到Excel文件中。

到此这篇关于使用Python提取PDF表格到Excel文件的操作步骤的文章就介绍到这了,更多相关Python提取PDF表格到Excel内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python语言检测模块langid和langdetect的使用实例

    Python语言检测模块langid和langdetect的使用实例

    今天小编就为大家分享一篇关于Python语言检测模块langid和langdetect的使用实例,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
    2019-02-02
  • python使用Word2Vec进行情感分析解析

    python使用Word2Vec进行情感分析解析

    这篇文章主要介绍了python使用Word2Vec进行情感分析解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-07-07
  • Python读写Json涉及到中文的处理方法

    Python读写Json涉及到中文的处理方法

    下面小编就为大家带来一篇Python读写Json涉及到中文的处理方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-09-09
  • python中assert用法实例分析

    python中assert用法实例分析

    这篇文章主要介绍了python中assert用法,实例分析了assert的功能及相关使用技巧,非常具有实用价值,需要的朋友可以参考下
    2015-04-04
  • 在Python的web框架中编写创建日志的程序的教程

    在Python的web框架中编写创建日志的程序的教程

    这篇文章主要介绍了在Python的web框架中编写创建日志的程序的教程,示例代码基于Python2.x版本,需要的朋友可以参考下
    2015-04-04
  • Python浅析迭代器Iterator的使用

    Python浅析迭代器Iterator的使用

    这篇文章主要介绍了Python 迭代器Iterator详情,迭代器可以帮助我们解决面对复杂的数据场景时,快速简便的获取数据,下文关于其详细介绍,需要的小伙伴可以参考一下
    2022-07-07
  • 解决pycharm每次打开项目都需要配置解释器和安装库问题

    解决pycharm每次打开项目都需要配置解释器和安装库问题

    最近在使用pycharm开发新项目的时候,每次打开新的工程都显示没有解释器,要不加了解释器就是代码一堆没有红色错误提示没有模块问题,很多朋友都遇到过这种情况,现小编把解决方法分享到脚本之家平台,需要的朋友一起看看吧
    2020-02-02
  • python opencv实现旋转矩形框裁减功能

    python opencv实现旋转矩形框裁减功能

    这篇文章主要为大家详细介绍了python opencv实现旋转矩形框裁减功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-07-07
  • Python使用Slider组件实现调整曲线参数功能示例

    Python使用Slider组件实现调整曲线参数功能示例

    这篇文章主要介绍了Python使用Slider组件实现调整曲线参数功能,结合实例形式分析了Python使用matplotlib与Slider组件进行图形绘制相关操作技巧,需要的朋友可以参考下
    2019-09-09
  • 使用Python开发游戏运行脚本成功调用大漠插件

    使用Python开发游戏运行脚本成功调用大漠插件

    闲来无事,想通过python来实现一些简单的游戏辅助脚本,而游戏辅助脚本的主要原理就是通过程序来查找游戏程序窗口,模拟实现鼠标点击和键盘按键等事件来实现游戏辅助的,对Python开发游戏运行脚本相关知识感兴趣的朋友跟随小编一起看看吧
    2021-11-11

最新评论