Python利用pdfplumber库提取pdf中表格数据

 更新时间:2023年05月29日 10:04:59   作者:空空star  
pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库,它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等,本文介绍了如何通过Python的pdfplumber库提取pdf中表格数据,感兴趣的同学可以参考一下

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

num_pages = len(pdf.pages)

5.遍历每一页

for page_num in range(num_pages):

6.获取当前页内容

page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={
            "vertical_strategy": "lines",
            "horizontal_strategy": "lines",
            "intersection_x_tolerance": 15,
            "intersection_y_tolerance": 15
        })

8.输出表格数据

        for row in table:
            print(row)

9.效果

['username', 'nickname', 'article']
['weixin_38093452', '空空 star', '130889268']
['weixin_38093452', '空空 star', '130852811']
['weixin_38093452', '空空 star', '130815851']
Process finished with exit code 0

到此这篇关于Python利用pdfplumber库提取pdf中表格数据的文章就介绍到这了,更多相关Python提取pdf表格数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中的多线程实例(简单易懂)

    Python中的多线程实例(简单易懂)

    这篇文章主要介绍了Python中的多线程实例,一个CPU,将时间切成一片一片的,CPU轮转着去处理一件一件的事情,到了规定的时间片就处理下一件事情,更多的相关内容需要的小伙伴可以参考下面文章详细
    2022-06-06
  • 使用Python开发个京东上抢口罩的小实例(仅作技术研究学习使用)

    使用Python开发个京东上抢口罩的小实例(仅作技术研究学习使用)

    这篇文章主要介绍了使用Python开发个京东上抢口罩的小实例(仅作技术研究学习使用),需要的朋友可以参考下
    2020-03-03
  • python makedirs() 递归创建目录

    python makedirs() 递归创建目录

    os.makedirs()函数用于在Python中递归地创建目录,支持设置权限和处理目录已存在的情况,下面就来具体介绍一下,感兴趣的可以了解一下
    2024-12-12
  • Python 中 and, or, &, |, ^ 的使用小结

    Python 中 and, or, &, |, ^ 

    这篇文章主要介绍了Python 中 and, or, &, |, ^ 的使用小结,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2024-01-01
  • Python logging模块进行封装实现原理解析

    Python logging模块进行封装实现原理解析

    这篇文章主要介绍了Python logging模块进行封装实现原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-08-08
  • 基于SQLAlchemy实现操作MySQL并执行原生sql语句

    基于SQLAlchemy实现操作MySQL并执行原生sql语句

    这篇文章主要介绍了基于SQLAlchemy实现操作MySQL并执行原生sql语句,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Jupyter Notebook界面汉化完整步骤

    Jupyter Notebook界面汉化完整步骤

    这篇文章主要给大家介绍了关于Jupyter Notebook界面汉化的相关资料,设置成中文界面后非常利于操作,文中介绍的方法非常简单,需要的朋友可以参考下
    2023-09-09
  • Python使用大语言模型进行图表可视化

    Python使用大语言模型进行图表可视化

    Python使用matplotlib进行可视化一直有2个问题,一是代码繁琐,二是默认模板比较丑,在大模型时代,这个问题有了另一种解法,下面我们就来看看如何使用大语言模型进行图表可视化吧
    2025-04-04
  • python使用turtle库绘制树

    python使用turtle库绘制树

    这篇文章主要为大家详细介绍了python使用turtle库绘制树,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-06-06
  • 对Python协程之异步同步的区别详解

    对Python协程之异步同步的区别详解

    今天小编就为大家分享一篇对Python协程之异步同步的区别详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-02-02

最新评论