Python把PDF表格完整转换成Excel的小白教程

 更新时间:2026年04月26日 15:50:43   作者:CoderJoon  
本文通过一个完整的Python示例,详细介绍了如何将多页PDF表格转换为Excel文件,文中包括整体思路、核心代码解析、示例PDF模板及预期处理结果等内容,旨在帮助用户理解和掌握PDF表格处理技巧,需要的朋友可以参考下

很多同学第一次接触 PDF 数据处理时,都会遇到一个问题:

PDF 里的表格能看,不能算,不能统计。

比如:

  • 招聘成绩公示
  • 学校成绩单
  • 名单汇总表

本文将通过一个完整可运行的 Python 示例,一步一步教你:

如何把一个多页 PDF 表格,稳定地转换成 Excel 文件

一、整体思路先说明(很重要)

在正式写代码前,你一定要明白一件事:

PDF ≠ Excel

  • Excel:天然是“行 + 列”
  • PDF:只是“排好版的页面”

所以我们要做的是:

1. 从 PDF 中提取“表格结构”
2. 把每一行数据收集起来
3. 修复列数不一致的问题
4. 再导出为 Excel

二、完整代码(先给结论)

下面是完整、可直接运行的代码,后面我会逐步拆解讲解。

import pdfplumber
import pandas as pd
import os
def pdf_to_excel(pdf_path, excel_path):
    all_rows = []
    # 打开 PDF
    with pdfplumber.open(pdf_path) as pdf:
        print(f"PDF共有 {len(pdf.pages)} 页")
        # 遍历每一页
        for page_num, page in enumerate(pdf.pages, start=1):
            print(f"正在处理第 {page_num} 页...")
            tables = page.extract_tables()
            if not tables:
                continue
            for table in tables:
                for row in table:
                    # 跳过全空行
                    if row and any(cell and cell.strip() for cell in row if isinstance(cell, str)):
                        all_rows.append(row)
    if not all_rows:
        print(" 未提取到任何表格数据")
        return
    # 计算最大列数
    max_cols = max(len(row) for row in all_rows)
    print(f"检测到最大列数:{max_cols}")
    # 统一所有行的列数
    normalized_rows = []
    for row in all_rows:
        if len(row) < max_cols:
            row = row + [None] * (max_cols - len(row))
        elif len(row) > max_cols:
            row = row[:max_cols]
        normalized_rows.append(row)
    # 第一行作为表头
    header = normalized_rows[0]
    data = normalized_rows[1:]
    # 去除重复表头行
    clean_data = []
    for row in data:
        if row != header:
            clean_data.append(row)
    # 构建 DataFrame
    df = pd.DataFrame(clean_data, columns=header)
    # 清理空行、空列
    df = df.dropna(how='all').dropna(axis=1, how='all')
    # 导出 Excel
    df.to_excel(excel_path, index=False, engine='openpyxl')
    print("\n 转换完成")
    print(f"Excel 文件路径:{excel_path}")
    print(f"数据行数:{len(df)}")
    print(f"列数:{len(df.columns)}")
    print("列名:", list(df.columns))
    print("\n前 5 行数据预览:")
    print(df.head())
if __name__ == "__main__":
    pdf_file = "Example.pdf"
    excel_file = "Result.xlsx"
    if not os.path.exists(pdf_file):
        print(f"找不到 PDF 文件:{pdf_file}")
    else:
        pdf_to_excel(pdf_file, excel_file)

三、逐步解析代码(小白重点)

1、导入库

import pdfplumber
import pandas as pd
import os

作用说明:

作用
pdfplumber读取 PDF、提取表格
pandas处理表格数据
os判断文件是否存在

2、定义核心函数

def pdf_to_excel(pdf_path, excel_path):

这个函数只做一件事:

把一个 PDF 表格文件,转换成 Excel

3、收集所有表格行

all_rows = []

为什么要这样做?

因为 PDF 是一页一页的
但 Excel 是一个整体表格

4、打开 PDF 并逐页处理

with pdfplumber.open(pdf_path) as pdf:
  • pdf.pages:PDF 的每一页
  • extract_tables():提取当前页中的表格

5、跳过空行(非常关键)

if row and any(cell and cell.strip() for cell in row if isinstance(cell, str)):

作用:

  • 防止空行进入 Excel
  • 防止生成一堆没用的数据

6、为什么要“统一列数”(核心思想)

max_cols = max(len(row) for row in all_rows)

现实中的 PDF 表格:

  • 有的页 8 列
  • 有的页 9 列
  • 有的页 10 列

如果不统一,pandas 会直接报错

所以我们要:

不足的补 None,多的截断

7、第一行作为表头

header = normalized_rows[0]

PDF 表格通常每一页都有表头,
我们只保留第一行作为最终列名。

8、去掉重复表头行

if row != header:
    clean_data.append(row)

否则 Excel 会变成:

职位代码 | 职位名称 | ...
职位代码 | 职位名称 | ...
职位代码 | 职位名称 | ...

9、导出 Excel

df.to_excel(excel_path, index=False, engine='openpyxl')

这一步就是真正生成 Excel 文件。

四、示例 PDF 模板(示意)

假设你的 PDF 表格内容长这样(每一页类似):

职位代码职位名称准考证号考场号座位号成绩
00001A001A000102012178.25
00001A001A000101011182.50

五、预期 Excel 处理结果

最终生成的 Excel 表格应为:

职位代码职位名称准考证号考场号座位号成绩
00001A001A000102012178.25
00001A001A000101011182.50

一人一行,可直接统计、排序、筛选

六、这个程序能做什么 / 不能做什么

能处理

  • 多页 PDF 表格
  • 列数不一致
  • 招聘、公示、成绩类 PDF

不能处理

  • 扫描版 PDF(图片)
  • 完全靠空格排版的“假表格”

七、总结一句话

PDF → Excel 的难点不在“读取”,而在“结构修复”。

这份代码已经解决了:

  • 多页
  • 表头重复
  • 列数不一致

以上就是Python把PDF表格完整转换成Excel的小白教程的详细内容,更多关于Python PDF表格转成Excel的资料请关注脚本之家其它相关文章!

相关文章

  • 把MySQL表结构映射为Python中的对象的教程

    把MySQL表结构映射为Python中的对象的教程

    这篇文章主要介绍了简单地把MySQL表结构映射为Python中的对象的方法,用到了Python中的SQLAlchemy库,需要的朋友可以参考下
    2015-04-04
  • 使用Python将Markdown文件转换为Word的三种方法

    使用Python将Markdown文件转换为Word的三种方法

    在当今的文档处理中,Markdown因其简洁的语法和易读性而广受欢迎,而Microsoft Word则因其广泛的兼容性和专业的排版效果成为商业文档的标准,所以本文将给大家介绍使用Python将Markdown文件转换为Word的三种方法,需要的朋友可以参考下
    2025-04-04
  • flask-socketio实现WebSocket的方法

    flask-socketio实现WebSocket的方法

    这篇文章主要介绍了flask-socketio实现WebSocket的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-07-07
  • Django 实现外键去除自动添加的后缀‘_id’

    Django 实现外键去除自动添加的后缀‘_id’

    今天小编就为大家分享一篇Django 实现外键去除自动添加的后缀‘_id’,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • Python三百行代码实现飞机大战

    Python三百行代码实现飞机大战

    飞机大战想必大家可能玩过微信的这款小游戏,给我的感觉是这款游戏怎么可以做得这么好呢,操作简单,容易上手,简直是“老少皆宜”啊,既然这款游戏这么棒,能否自己动手用 Python 来实现呢?事实证明是可以的
    2022-09-09
  • python time时间库详解

    python time时间库详解

    Python中内置了一些与时间处理相关的库,如time、datatime和calendar库,这篇文章主要介绍了python-time时间库,需要的朋友可以参考下
    2022-08-08
  • Python入门教程之pycharm安装/基本操作/快捷键

    Python入门教程之pycharm安装/基本操作/快捷键

    这篇文章主要介绍了Python入门教程之pycharm安装/基本操作/快捷键,Python是一门非常强大好用的语言,也有着易上手的特性,本文为入门教程,需要的朋友可以参考下
    2023-04-04
  • Python通过paramiko库实现远程执行linux命令的方法

    Python通过paramiko库实现远程执行linux命令的方法

    这篇文章主要介绍了Python通过paramiko库实现远程执行linux命令,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-03-03
  • 详解如何优化和调整Python中Scrapy的性能

    详解如何优化和调整Python中Scrapy的性能

    在本篇高级教程中,我们将深入探讨如何优化和调整Scrapy爬虫的性能,以及如何处理更复杂的抓取任务,如登录,处理Cookies和会话,以及避免爬虫被网站识别和封锁,需要的朋友可以参考下
    2023-09-09
  • python使用rsa加密算法模块模拟新浪微博登录

    python使用rsa加密算法模块模拟新浪微博登录

    这篇文章主要介绍了python使用rsa加密算法模块模拟新浪微博登录的示例,大家参考使用吧
    2014-01-01

最新评论