python用pdfplumber提取pdf表格数据并保存到excel文件中

 更新时间:2022年07月22日 15:58:03   作者:一位代码  
在实际研究中我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报、发行上市公告等,下面这篇文章主要给大家介绍了关于利用python提取pdf表格数据并保存到excel文件中的相关资料,需要的朋友可以参考下

pdfplumber操作pdf文件

python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者、创建时间、修改时间…)及表格、文本、图片等信息,基本可以满足较为简单的格式转换功能。

一、pdfplumber安装及导入

跟其他包一样,支持使用pip安装,安装命令:

pip install pdfplumber

安装成功后,可直接用import导入,导入命令:

import pdfplumber

二、pdfplumber基础使用

1、基础知识

(1)pdfplumber有2个基础类

PDF和Page,PDF用来处理整个文档,Page用来处理整个页面。

用法简介
pdfplumber.PDF.metadata,获取pdf基础信息,返回字典格式,包含作者、创建时间等。 .pages,返回pdfplumber.Page实例的列表,每一个实例包含pdf每一页的信息
pdfplumber.Pagepdfplumber核心功能,对PDF的大部分操作都是基于这个类,包括提取文本、表格等

(2)pdfplumber读取pdf文件方式

pdfplumber.open(‘文件路径’),返回pdfplumber.PDF类的实例。

如果pdf有密码,加入password参数:

pdfplumber.open(‘文件路径’,password=‘密码’)

2、获取pdf基础信息

读取pdf文件,并输出pdf文件的基础信息

import pdfplumber
# 打开pdf文件,有密码加入password参数
pdf_info =pdfplumber.open(r'test.pdf')
meta_data = pdf_info.metadata  # pdf的基础信息
page_con = len(pdf_info.pages)  # 获取pdf的总页数
print('pdf文件的基础信息:\n', meta_data)
print('pdf共%s页' % page_con)

3、pdfplumber提取表格数据

提取表格数据主要用到extract_tables()和extract_table()两种方法,这两种提取方式各有不同。

用以下pdf文档,作为演示文档。

(1)extract_tables()方法

输出文档所有表格,返回一个嵌套列表,其结构层次为table-row-cell。如:

#extract_tables()用法
with pdfplumber.open(r'test.pdf') as pdf_info:  # 打开pdf文件
    page_one = pdf_info.pages[0]  # 选择第一页
    page_one_table =page_one.extract_tables()  # 获取pdf文档第一页的所有表格数据
    for row in page_one_table:
       print('第一页的表格数据:', row)


(2)、extact_table()方法

不会返回文档的所有表格,仅返回行数最多的表格数据,如存在多个行数相等的表格,则默认输出顶部表格数据。返回的数据结构层次为row-cell,表格的每一行都为一个单独的列表,列表中的元素即为原表格的各个单元格的数据。如:

# extract_table()用法
with pdfplumber.open(r'test.pdf') as pdf_info:  # 打开pdf文件
    page_one = pdf_info.pages[0]  # 选择第一页
    page_one_table = page_one.extract_table()
    for row in page_one_table:
        print(row)

三、提取pdf表格数据并保存到excel中

完整版,提取pdf表格数据并保存到excel中

import pdfplumber
from openpyxl import Workbook

class PDF(object):
    def __init__(self, file_path):
        self.pdf_path = file_path
        # 读取pdf文件
        try:
            self.pdf_info = pdfplumber.open(self.pdf_path)
            print('读取文件完成!')
        except Exception as e:
            print('读取文件失败:', e)

    # 打印pdf的基本信息、返回字典,作者、创建时间、修改时间/总页数
    def get_pdf(self):
        pdf_info = self.pdf_info.metadata
        pdf_page = len(self.pdf_info.pages)
        print('pdf共%s页' % pdf_page)
        print("pdf文件基本信息:\n", pdf_info)
        self.close_pdf()

    # 提取表格数据,并保存到excel中
    def get_table(self):
        wb = Workbook()  # 实例化一个工作簿对象
        ws = wb.active  # 获取第一个sheet
        con = 0
        try:
            # 获取每一页的表格中的文字,返回table、row、cell格式:[[[row1],[row2]]]
            for page in self.pdf_info.pages:
                for table in page.extract_tables():
                    for row in table:
                        # 对每个单元格的字符进行简单清洗处理
                        row_list = [cell.replace('\n', ' ') if cell else '' for cell in row]
                        ws.append(row_list)  # 写入数据
                con += 1
                print('---------------分割线,第%s页---------------' % con)
        except Exception as e:
            print('报错:', e)
        finally:
            wb.save('\\'.join(self.pdf_path.split('\\')[:-1]) + '\pdf_excel.xlsx')
            print('写入完成!')
            self.close_pdf()

    # 关闭文件
    def close_pdf(self):
        self.pdf_info.close()

if __name__ == "__main__":
    file_path = input('请输入pdf文件路径:')
    pdf_info = PDF(file_path)
    # pdf_info.get_pdf() # 打印pdf基础信息
    # 提取pdf表格数据并保存到excel中,文件保存到跟pdf同一文件路径下
    pdf_info.get_table()

总结

到此这篇关于python用pdfplumber提取pdf表格数据并保存到excel文件中的文章就介绍到这了,更多相关python提取pdf数据保存excel内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python 实现在一张图中绘制一个小的子图方法

    python 实现在一张图中绘制一个小的子图方法

    今天小编就为大家分享一篇python 实现在一张图中绘制一个小的子图方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python Numpy运行报错:IndexError: too many indices for array的分析及解决

    Python Numpy运行报错:IndexError: too many in

    在使用Numpy进行数组操作时,经常会遇到各种错误,其中,IndexError: too many indices for array是一种常见的错误,它通常发生在尝试使用一个过多维度的索引来访问一个较低维度的数组时,本文介绍了Python Numpy报错的解决办法,需要的朋友可以参考下
    2024-07-07
  • Python常用基础模块之os.path模块详解

    Python常用基础模块之os.path模块详解

    这篇文章主要介绍了Python常用基础模块之os.path模块详解,os模块的子模块os.path 是专门用于进行路径操作的模块,常用的路径操作主要有判断目录是否存在、创建目录、删除目录和遍历目录等,需要的朋友可以参考下
    2023-08-08
  • Python split() 函数拆分字符串将字符串转化为列的方法

    Python split() 函数拆分字符串将字符串转化为列的方法

    今天小编就为大家分享一篇Python split() 函数拆分字符串将字符串转化为列的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python如何限制输入的数范围

    Python如何限制输入的数范围

    在Python中,我们可以使用多种方法来限制用户输入的数值范围,今天通过实例代码给大家分享Python限制输入的数范围,感兴趣的朋友一起看看吧
    2024-05-05
  • python文件处理详解

    python文件处理详解

    这篇文章主要介绍了Python 处理文件的几种方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-10-10
  • TensorFlow深度学习之实现合并与分割的示例代码

    TensorFlow深度学习之实现合并与分割的示例代码

    这篇文章主要为大家详细介绍了TensorFlow中实现合并与分割的四位函数以及它们的用法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2023-07-07
  • Python基础之数据类型知识汇总

    Python基础之数据类型知识汇总

    今天带大家复习一下Python基础知识,文中对数据类型相关知识做了详细的汇总,对刚入门python的小伙伴很有帮助哟,需要的朋友可以参考下
    2021-05-05
  • Python可视化库之HoloViews的使用教程

    Python可视化库之HoloViews的使用教程

    本文主要为大家介绍了Python中一个优秀的可视化库—HoloViews,不仅能实现一些常见的统计图表绘制,而且其还拥有Matplotlib、Seaborn等库所不具备的交互效果,快跟随小编一起了解一下吧
    2022-02-02
  • 利用Pandas读取表格行数据判断是否相同的方法

    利用Pandas读取表格行数据判断是否相同的方法

    这篇文章主要给大家介绍了关于利用Pandas读取表格行数据判断是否相同的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03

最新评论