Python实现PDF表格转CSV的完整方法与代码解析

 更新时间:2026年06月02日 11:56:31   作者:LAYONTHEGROUND  
PDF 格式因其版式固定性而广泛用于文档交换,但也导致结构化数据(如表格)难以直接抽取,本文将介绍如何使用免费库 Free Spire.PDF for Python 解析 PDF 表格,并结合 Python 内置 csv 标准库完成数据导出,有需要的可以了解下

PDF 格式因其版式固定性而广泛用于文档交换,但也导致结构化数据(如表格)难以直接抽取。尽管存在多种解析方案(如基于文本坐标启发式或 OCR),但对于具有明确边框和单元格边界的表格,专用表格提取器能提供更高的准确度。本文将介绍如何使用免费库 Free Spire.PDF for Python 解析 PDF 表格,并结合 Python 内置 csv 标准库完成数据导出。

一、环境准备

1. 依赖库安装

本次实现依赖 PDF 解析组件与 Python 原生库,执行以下命令安装免费版 PDF 解析组件:

pip install Spire.Pdf.Free

2. 技术说明

  • 核心依赖:spire.pdf.free 负责识别、提取 PDF 中的表格结构与单元格数据;
  • 文件导出:使用 Python 内置 csvos 标准库完成目录创建、CSV 写入,无需额外第三方数据处理库;
  • 适用场景:支持单页/多页 PDF、单页多表格场景,可自动按页面+表格序号拆分输出文件;
  • 兼容性:导出 UTF-8 编码 CSV,可直接用 Excel、WPS、Pandas 等工具读取。

二、核心实现思路

  1. 初始化 PDF 文档对象,加载本地 PDF 文件;
  2. 创建表格提取器,绑定已加载的 PDF 文档;
  3. 遍历 PDF 所有页面,逐页提取当前页面内的全部表格;
  4. 针对每个表格,逐行、逐列读取单元格文本,并做基础文本清洗;
  5. 自动创建输出目录,将单张表格数据写入独立 CSV 文件,文件按页面、表格编号命名;
  6. 执行资源释放操作,释放 PDF 文档占用的内存与文件流。

三、完整代码实现

该示例完整还原逐页、逐表提取逻辑,自动创建输出目录,每个表格单独生成 CSV 文件,附带文本清洗逻辑:

from spire.pdf import PdfDocument, PdfTableExtractor
import csv
import os

# 初始化PDF文档对象并加载文件
pdf = PdfDocument()
pdf.LoadFromFile("Sample.pdf")

# 创建PDF表格提取器
extractor = PdfTableExtractor(pdf)

# 定义输出目录,目录不存在则自动创建
output_root = "Tables"
os.makedirs(output_root, exist_ok=True)

# 遍历PDF每一页
for page_index in range(pdf.Pages.Count):
    # 提取当前页面下所有表格
    tables = extractor.ExtractTable(page_index)
    
    # 遍历当前页面中的每一个表格
    for table_index, table in enumerate(tables):
        table_data = []
        
        # 读取表格所有行
        row_total = table.GetRowCount()
        for row in range(row_total):
            row_data = []
            # 读取当前行所有列
            col_total = table.GetColumnCount()
            for col in range(col_total):
                # 提取单元格文本,去除换行符、首尾空白字符
                cell_text = table.GetText(row, col).replace("\n", "").strip()
                row_data.append(cell_text)
            table_data.append(row_data)
        
        # 拼接CSV文件路径,按 页面-表格 编号命名
        csv_name = f"Page{page_index + 1}-Table{table_index + 1}.csv"
        csv_path = os.path.join(output_root, csv_name)
        
        # 写入CSV文件,指定UTF-8编码,newline避免多余空行
        with open(csv_path, "w", newline="", encoding="utf-8") as csvfile:
            writer = csv.writer(csvfile)
            writer.writerows(table_data)
        print(f"已导出:{csv_path}")

# 释放PDF文档资源
pdf.Dispose()
print("所有表格导出完成")

四、代码解析

4.1 核心类说明

  • PdfDocument:PDF 文档操作主类,LoadFromFile() 用于加载本地 PDF 文件,Pages.Count 获取文档总页数,Dispose() 用于释放文件流、内存等资源,批量处理文件时必须调用,防止内存堆积。
  • PdfTableExtractor:专用表格提取器,依赖已加载的 PdfDocument 对象初始化;ExtractTable(page_index) 接收页码索引,返回当前页面内所有表格对象集合。

4.2 表格数据读取方法

  • GetRowCount():获取当前表格的总行数;
  • GetColumnCount():获取当前行的总列数;
  • GetText(row, col):根据行、列索引读取单元格原始文本。

4.3 文本清洗逻辑

replace("\n", "").strip() 是实用的预处理逻辑:

  • 去除单元格内的换行符,避免 CSV 格式错乱;
  • 清除文本首尾空格、制表符,保证数据整洁。

4.4 CSV 写入关键配置

  • encoding="utf-8":统一使用 UTF-8 编码,从根源避免中文乱码;
  • newline="":Python csv 库专属配置,禁止自动插入空行,保证 CSV 格式标准;
  • os.makedirs(..., exist_ok=True):自动创建多级目录,exist_ok=True 表示目录已存在时不抛出异常。

4.5 文件命名规则

文件采用 Page页码-Table表格序号.csv 命名,可直观区分数据来源,方便后续文件管理与溯源。

五、拓展应用方向

批量处理多文件:结合 os.listdir() 遍历指定文件夹,批量读取目录下所有 PDF,循环调用封装函数实现全量表格导出。

数据二次加工:导出 CSV 后结合 pandas 库,实现数据筛选、去重、统计、格式转换等数据分析操作。

表头单独处理:识别表格第一行为表头,写入 CSV 时单独指定表头行,提升数据可读性。

过滤空表格:在代码中增加数据判空逻辑,跳过无有效内容的空白表格,减少无效文件生成。

六、知识扩展

要将PDF表格完美地转换成CSV,关键是找到匹配的解析方法。目前,camelot-pytabula-pypdfplumber是解决这类需求最核心的三个Python库,它们各有侧重,也各有适用的场景。

根据你的PDF文件类型,选择最适合的代码并运行即可。

1. camelot-py:最适合有边框的表格

这种方法对有明确线条的表格提取效果最好,安装简单,但依赖于OpenCV:

pip install camelot-py[cv]

下面的代码演示了最简洁的用法,只需几行就能提取表格并导出为CSV。

import camelot
# 读取PDF并提取表格,flavor='lattice'适用于有边框的表格
# 可以指定pages='all'来提取所有页面
tables = camelot.read_pdf('your_table.pdf', pages='1-3', flavor='lattice')
# 将所有提取的表格导出为多个CSV文件(或一个ZIP压缩包)
tables.export('output.csv', f='csv', compress=False)
# 查看第一个提取的表格
print(tables[0].df)
# 如果只想保存第一个表格
# tables[0].to_csv('single_table.csv')

2. pdfplumber:更通用和灵活

pdfplumber 在灵活性和易用性之间取得了很好的平衡,处理各种风格的表格。

pip install pdfplumber

对于大多数情况,extract_table() 方法已经足够好用。但如果遇到样式复杂的表格,extract_tables() 配合 table_settings 参数能帮你更好地控制提取逻辑。

import csv
import pdfplumber
with pdfplumber.open("your_table.pdf") as pdf:
    # 假设表格在第一页
    page = pdf.pages[0]
    # 智能提取表格(自动检测)
    # 如果效果不佳,可以尝试指定table_settings参数
    # table_settings = {"vertical_strategy": "lines", "horizontal_strategy": "lines"}
    # table = page.extract_table(table_settings=table_settings)
    table = page.extract_table()
    if table:
        with open("output.csv", "w", newline='', encoding='utf-8') as f:
            writer = csv.writer(f)
            writer.writerows(table)

pdfplumber 也支持一次性提取页面中的所有表格。

with pdfplumber.open("your_table.pdf") as pdf:
    page = pdf.pages[0]
    tables = page.extract_tables()
    for i, table in enumerate(tables):
        if table:
            with open(f"table_{i+1}.csv", "w", newline='', encoding='utf-8') as f:
                writer = csv.writer(f)
                writer.writerows(table)

3. tabula-py:快速且功能全面

tabula-py 是Java版Tabula的Python封装。使用前需安装Java 8+环境并将其添加到系统PATH环境变量中

pip install tabula-py

它的API设计非常直接,一行命令就能完成PDF到CSV的转换,对新手很友好。

import tabula
# 提取PDF中所有表格,并保存为CSV文件
tabula.convert_into("your_table.pdf", "output.csv", output_format="csv", pages='all')
# 提取表格到DataFrame列表,以便进行数据处理
# df_list = tabula.read_pdf("your_table.pdf", pages='all')
# print(df_list[0])  # 打印第一个表格

七、总结

以上 Python 示例演示了如何轻松实现 PDF 表格提取并导出为 CSV 文件。通过逐页扫描、单元格清理和标准 CSV 写入,可构建稳定可靠的数据抽取流程。在实际集成中,开发者应当关注表格边框依赖、页面限制以及资源释放等关键因素,并根据文档特性调整文本清洗规则。该方法不依赖任何中间格式或额外解析库,代码结构清晰,适用于自动化数据处理管道。

以上就是Python实现PDF表格转CSV的完整方法与代码解析的详细内容,更多关于Python PDF表格转CSV的资料请关注脚本之家其它相关文章!

相关文章

  • 浅析python中的分片与截断序列

    浅析python中的分片与截断序列

    这篇文章主要介绍python对序列的分片方法。通过分片规则可以很简单的处理一些复杂的for循环操作。很有借鉴价值,有需要的可以一起参考学习。
    2016-08-08
  • 分享5个数据处理更加灵活的pandas调用函数方法

    分享5个数据处理更加灵活的pandas调用函数方法

    这篇文章主要介绍了分享5个数据处理更加灵活的pandas调用函数方法,文章基于python的相关内容展开详细介绍,需要的小伙伴可以参考一下
    2022-04-04
  • Python利用PyPDF2库合并多个pdf文件

    Python利用PyPDF2库合并多个pdf文件

    PyPDF2库是一个用于处理PDF文件的Python库,它提供了一系列的工具来读取、编辑、合并、拆分和加密PDF文件,使得我们可以在Python环境下轻松地对PDF文件进行操作,本文将带大家介绍如何通过Python的PyPDF2库合并多个pdf文件,需要的朋友可以参考下
    2023-05-05
  • Python接口测试环境搭建过程详解

    Python接口测试环境搭建过程详解

    这篇文章主要介绍了Python接口测试环境搭建过程详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • python绘制超炫酷动态Julia集示例

    python绘制超炫酷动态Julia集示例

    大家好,本篇文章主要讲的是python绘制超炫酷动态Julia集示例,感兴趣的痛学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
    2021-12-12
  • Python面向对象之继承和组合用法实例分析

    Python面向对象之继承和组合用法实例分析

    这篇文章主要介绍了Python面向对象之继承和组合用法,结合实例形式分析了Python面向对象程序设计中组合与继承的相关原理、使用方法及操作注意事项,需要的朋友可以参考下
    2018-08-08
  • Python之Pygame的Event事件模块

    Python之Pygame的Event事件模块

    这篇文章主要介绍了Pygame的Event事件模块,事件(Event)是 Pygame 的重要模块之一,它是构建整个游戏程序的核心,Pygame 定义了一个专门用来处理事件的结构,即事件队列,本文有一定参考价值,感兴趣的同学可以阅读参考
    2023-04-04
  • Python3遍历目录树实现方法

    Python3遍历目录树实现方法

    这篇文章主要介绍了Python3遍历目录树实现方法,涉及Python目录树的遍历操作技巧,需要的朋友可以参考下
    2015-05-05
  • 浅谈Python使用Bottle来提供一个简单的web服务

    浅谈Python使用Bottle来提供一个简单的web服务

    这篇文章主要介绍了浅谈Python使用Bottle来提供一个简单的web服务,具有一定借鉴价值,需要的朋友可以参考下
    2017-12-12
  • Python图像的增强处理操作示例【基于ImageEnhance类】

    Python图像的增强处理操作示例【基于ImageEnhance类】

    这篇文章主要介绍了Python图像的增强处理操作,结合实例形式分析了使用ImageEnhance类处理图片的亮度、对比度、色度以及锐度等相关操作技巧,需要的朋友可以参考下
    2019-01-01

最新评论