如何利用Python提取pdf中的表格数据(附实战案例)

 更新时间:2022年11月10日 09:09:16   作者:艾派森  
从PDF表格中获取数据是一项痛苦的工作,下面这篇文章主要给大家介绍了关于如何利用Python提取pdf中的表格数据的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下

前言

今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber。

pdfplumber简介

pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档

虽然pdfminer也可以对可编辑的pdf文档进行解析,但是比较而言,pdfplumber有以下优势:

  1. 二者都可以获取到每个字符、矩形框、线等对象的具体信息,但是pdfplumber在pdfminer的基础上进行了封装和处理,使得到的对象更易于使用,对用户更友好。
  2. 二者都能对文本解析,但是pdfminer输出的文本在布局上可能与原文差别比较大,但是pdfplumber抽取出的文本与原文可以有更高的一致性。
  3. pdfplumber实现了表格抽取逻辑,基于最基本的字符、线框等对象的位置信息,定位、识别pdf文档中的表格。

 首先安装

pip install pdfplumber

实战案例

本次实战,我们需要将pdf中的获奖队伍信息提取出来,然后保存到excel表格中。

​原始pdf文件中大多数都是如上图所示的表格,这里为了不泄露个人隐私,我就先打上码了哈。

接着开始敲代码提取表格数据!

import pandas as pd
import pdfplumber
 
pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
df = pd.DataFrame()
for i in range(3,53):  # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置
    page = pdf.pages[i]  # 读取pdf中的每一页
    table = page.extract_table()  # 从页数据中提取表格数据
    df = df.append(table)  # 将提取的数据转换为DataFrame二维表格形式
df.drop_duplicates(inplace=True)   # 删除重复值
df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False)  # 将提取的数据保存为excel

这里,我先是用了循环来提取多页,3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置 。

 运行之后的结果如下:

​很简单就将pdf中的表格提取出来了。

做到这里,我只是将一个pdf中的数据提取出来了,可是还有几个类似的pdf需要提取,于是我将上述代码功能进行了简单的封装(功能还比较简陋,各位可根据自己的需要进行扩展)。

def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
    '''
    params:
        file_path:需要提取表格的pdf文件的绝对路径
        start:出现表格的起始页码
        end:表格结束页码
        excel_name:最后保存excel文件的文件名(默认为原始pdf文件名)
    '''
    pdf = pdfplumber.open(file_path)
    if not excel_name:
        excel_name = file_path.split('\\')[-1].split('.')[0]
    df_result = pd.DataFrame()
    for i in range(start-1,end):
        page = pdf.pages[i]
        table = page.extract_table()
        df_result = df_result.append(table)
    df_result = df_result.drop_duplicates(inplace=True)
    df_result.to_excel(excel_name+'.xlsx',index=False)
 
pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)

以上就是本次分享的python小工具,希望对有同样需求的你有所帮助!

到此这篇关于如何利用Python提取pdf中的表格数据的文章就介绍到这了,更多相关Python提取pdf表格数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python使用BeautifulSoup分页网页中超链接的方法

    python使用BeautifulSoup分页网页中超链接的方法

    这篇文章主要介绍了python使用BeautifulSoup分页网页中超链接的方法,涉及Python使用BeautifulSoup模块操作网页链接的技巧,需要的朋友可以参考下
    2015-04-04
  • Python中Playwright的常用操作方法分享

    Python中Playwright的常用操作方法分享

    本文详细介绍了Playwright的常用操作方法,包括获取页面元素、点击按钮和链接等。这些方法可以帮助开发者更加高效地进行自动化测试和爬虫开发,需要的可以参考一下
    2023-05-05
  • Python爬虫实现模拟点击动态页面

    Python爬虫实现模拟点击动态页面

    这篇文章主要介绍了Python爬虫实现模拟点击动态页面,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-03-03
  • Python requests模块session代码实例

    Python requests模块session代码实例

    这篇文章主要介绍了Python requests模块session代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • python3通过selenium爬虫获取到dj商品的实例代码

    python3通过selenium爬虫获取到dj商品的实例代码

    这篇文章主要介绍了python3通过selenium爬虫获取到dj商品的实例代码,需要的朋友可以参考下
    2019-04-04
  • Python中Matplotlib的点、线形状、颜色以及绘制散点图

    Python中Matplotlib的点、线形状、颜色以及绘制散点图

    与线型图类似的是,散点图也是一个个点集构成的,下面这篇文章主要给大家介绍了关于Python中Matplotlib的点、线形状、颜色以及绘制散点图的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-04-04
  • Python深度学习TensorFlow神经网络基础概括

    Python深度学习TensorFlow神经网络基础概括

    这篇文章主要为大家介绍了Python深度学习中TensorFlow神经网络基础概括,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-10-10
  • 定位python内存泄漏问题及解决

    定位python内存泄漏问题及解决

    这篇文章主要介绍了定位python内存泄漏问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-11-11
  • python 项目目录结构设置

    python 项目目录结构设置

    JAVA有标准的maven目录结构,golang也有建议的目录结构,那么我想python是不是也有一个比较好的目录结构组织方式呢
    2020-02-02
  • 解决pycharm修改代码后第一次运行不生效的问题

    解决pycharm修改代码后第一次运行不生效的问题

    这篇文章主要介绍了解决pycharm修改代码后第一次运行不生效的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02

最新评论