Python利用pdfplumber库提取pdf中表格数据

 更新时间:2023年05月29日 10:04:59   作者:空空star  
pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库,它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等,本文介绍了如何通过Python的pdfplumber库提取pdf中表格数据,感兴趣的同学可以参考一下

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

num_pages = len(pdf.pages)

5.遍历每一页

for page_num in range(num_pages):

6.获取当前页内容

page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={
            "vertical_strategy": "lines",
            "horizontal_strategy": "lines",
            "intersection_x_tolerance": 15,
            "intersection_y_tolerance": 15
        })

8.输出表格数据

        for row in table:
            print(row)

9.效果

['username', 'nickname', 'article']
['weixin_38093452', '空空 star', '130889268']
['weixin_38093452', '空空 star', '130852811']
['weixin_38093452', '空空 star', '130815851']
Process finished with exit code 0

到此这篇关于Python利用pdfplumber库提取pdf中表格数据的文章就介绍到这了,更多相关Python提取pdf表格数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python基础之类的定义和使用详解

    Python基础之类的定义和使用详解

    在Python中,类表示具有相同属性和方法的对象的集合。在使用类时,需要先定义类,然后再创建类的实例,通过类的实例就可以访问类中的属性和方法了。本文就来和大家一起聊聊Python中类的定义和使用,需要的可以参考一下
    2022-08-08
  • Python实现批量识别图片文字并存为Excel

    Python实现批量识别图片文字并存为Excel

    批量文字识别是Python办公自动化的基本操作,应用在我们工作生活中的方方面面。本文主要以开源免费的easyocr来实现批量识别图片文字并存为Excel,感兴趣的可以学习一下
    2022-06-06
  • 基于Python函数的作用域规则和闭包(详解)

    基于Python函数的作用域规则和闭包(详解)

    下面小编就为大家分享一篇基于Python函数的作用域规则和闭包详解,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-11-11
  • windows系统多个python中更改默认python版本

    windows系统多个python中更改默认python版本

    这篇文章主要给大家介绍了关于windows系统多个python中更改默认python版本的相关资料,在Python开发中,不同的项目往往需要使用不同的Python版本,需要的朋友可以参考下
    2023-09-09
  • Python中的程序流程控制语句

    Python中的程序流程控制语句

    这篇文章主要介绍了Python中的程序流程控制语句,本篇博客将会讲述一下Python语言中的流程控制语句,在高中我们数学中学过程序流程题,下面我们来看看python中得流程语句会是怎么样呢,需要的小伙伴可以参考一下
    2022-02-02
  • PyQt5 实现状态栏永久显示消息

    PyQt5 实现状态栏永久显示消息

    这篇文章主要介绍了PyQt5 实现状态栏永久显示消息的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03
  • python random模块常用函数基础教程

    python random模块常用函数基础教程

    这篇文章主要为大家介绍了python random模块常用函数基础教程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-06-06
  • Python中字符串转换为列表的常用方法总结

    Python中字符串转换为列表的常用方法总结

    本文将详细介绍Python中将字符串转换为列表的八种常用方法,每种方法都具有其独特的用途和适用场景,文中的示例代码讲解详细,感兴趣的可以了解下
    2023-11-11
  • Python打开与读取文件操作的常用方法

    Python打开与读取文件操作的常用方法

    这篇文章主要介绍了Python打开与读取文件操作的常用方法,通过编写代码自动化操作文件,读写文件、打开文件、写入文件、删除文件一系列都称作为电脑的操作,需要的朋友可以参考下
    2023-07-07
  • python 6种方法实现单例模式

    python 6种方法实现单例模式

    这篇文章主要介绍了python 6种方法实现单例模式,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12

最新评论