Python利用pdfplumber库提取pdf中表格数据

 更新时间:2023年05月29日 10:04:59   作者:空空star  
pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库,它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等,本文介绍了如何通过Python的pdfplumber库提取pdf中表格数据,感兴趣的同学可以参考一下

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

num_pages = len(pdf.pages)

5.遍历每一页

for page_num in range(num_pages):

6.获取当前页内容

page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={
            "vertical_strategy": "lines",
            "horizontal_strategy": "lines",
            "intersection_x_tolerance": 15,
            "intersection_y_tolerance": 15
        })

8.输出表格数据

        for row in table:
            print(row)

9.效果

['username', 'nickname', 'article']
['weixin_38093452', '空空 star', '130889268']
['weixin_38093452', '空空 star', '130852811']
['weixin_38093452', '空空 star', '130815851']
Process finished with exit code 0

到此这篇关于Python利用pdfplumber库提取pdf中表格数据的文章就介绍到这了,更多相关Python提取pdf表格数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python查询oracle数据库速度慢的解决方案

    Python查询oracle数据库速度慢的解决方案

    这篇文章主要介绍了Python查询oracle数据库速度慢的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • 用Python抢过年的火车票附源码

    用Python抢过年的火车票附源码

    离过年时间也不久了,还是预订春节火车票了,现在有好多平台都可以帮助大家抢购火车,下面小编给大家介绍用python抢过年的火车票附源码,对pthon抢火车票相关知识感兴趣的朋友一起学习吧
    2015-12-12
  • Python随机函数random随机获取数字、字符串、列表等使用详解

    Python随机函数random随机获取数字、字符串、列表等使用详解

    这篇文章主要介绍了Python随机函数random使用详解包含了Python随机数字,Python随机字符串,Python随机列表等,需要的朋友可以参考下
    2021-04-04
  • 浅谈flask截获所有访问及before/after_request修饰器

    浅谈flask截获所有访问及before/after_request修饰器

    这篇文章主要介绍了浅谈flask截获所有访问及before/after_request修饰器,具有一定借鉴价值,需要的朋友可以参考下
    2018-01-01
  • 利用matplotlib实现两张子图分别画函数图

    利用matplotlib实现两张子图分别画函数图

    这篇文章主要介绍了利用matplotlib实现两张子图分别画函数图问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python的这些库,你知道多少?

    Python的这些库,你知道多少?

    最近整理了一些好用的库但是只是初级介绍,如果大家用得到的话还请自己到官网上查一下,因为东西太多我一 一介绍的话可能不太现实,需要的朋友可以参考下
    2021-06-06
  • Python入门教程(十)Python布尔值介绍

    Python入门教程(十)Python布尔值介绍

    这篇文章主要介绍了Python入门教程(十)Python布尔值,Python是一门非常强大好用的语言,也有着易上手的特性,本文为入门教程,需要的朋友可以参考下
    2023-04-04
  • Python实现地图可视化folium完整过程

    Python实现地图可视化folium完整过程

    Folium是一个基于leaflet.js的Python地图库,其中,Leaflet是一个非常轻的前端地图可视化库,本文重点给大家介绍Python实现地图可视化folium完整过程,感兴趣的朋友跟随小编一起看看吧
    2021-05-05
  • Python sys.path详细介绍

    Python sys.path详细介绍

    这篇文章详细介绍了Python sys.path,有需要的朋友可以参考一下
    2013-10-10
  • 详解python中@classmethod和@staticmethod方法

    详解python中@classmethod和@staticmethod方法

    在python类当中,经常会遇到@classmethod和@staticmethod这两个装饰器,那么到底它们的区别和作用是啥子呢?本文结合场景分析给大家详细讲解,感兴趣的朋友跟随小编一起看看吧
    2022-10-10

最新评论