Python使用PDFMiner.six解析PDF数据详解

 更新时间:2025年03月10日 09:53:07   作者:梦想画家  
PDFMiner.six 是基于 PDFMiner 项目开发的增强版,用于从PDF文档中提取文本和结构信息,下面我们就来学习一下如何使用PDFMiner.six解析PDF数据吧

PDF(可移植文档格式)文件是由Adobe创建的一种灵活的文件格式,它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述,包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享,因为它们能够保持原始格式。然而,以编程方式解析和解释PDF内容可能是一项挑战。这些困难包括pdf的复杂结构、不同的文本编码、复杂的布局、压缩的内容和嵌入的字体等问题。

我们最近评估了几个流行的Python PDF库,如PyPDF/PyPDF2, PDFMiner.six, PyMuPDF, PDFplumber2,等。有些库适合提取文本,有些适合提取图像,有些速度很快,等等。在本文中,我们将重点介绍如何开始使用PDFMiner.six。最新信息请随时关注官方网站。

环境准备

安装依赖包:

pip install pdfminer.six
pip install 'pdfminer.six[image]'

示例PDF文件可以在这里找到,当然你也可以自己准备。让我们看看如何使用这些api:

从PDF中提取文本

从PDF中提取图像

迭代PDF中的所有对象

从PDF中提取TableOfContent (ToC)

抽取文本

通过高级API可用于从PDF中提取文本。

from pdfminer.high_level import extract_text
from os import path

path = path.abspath(path.dirname(__file__))
print(path)

pdf_file = path + '/sample01.pdf'
text = extract_text(pdf_file)
print(text)

抽取每一页

from io import StringIO

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.utils import open_filename

from os import path

path = path.abspath(path.dirname(__file__))
print(path)


def iter_text_per_page(pdf_file, password='', page_numbers=None, maxpages=0,
                 caching=True, codec='utf-8', laparams=None):
    if laparams is None:
        laparams = LAParams()

    with open_filename(pdf_file, "rb") as fp:
        rsrcmgr = PDFResourceManager(caching=caching)

        idx = 1
        for page in PDFPage.get_pages(
                fp,
                page_numbers,
                maxpages=maxpages,
                password=password,
                caching=caching,
        ):
            with StringIO() as output_string:
                device = TextConverter(rsrcmgr, output_string, codec=codec,
                                       laparams=laparams)
                interpreter = PDFPageInterpreter(rsrcmgr, device)
                interpreter.process_page(page)
                yield idx, output_string.getvalue()
                idx += 1


def main():
    pdf_file = path + '/sample02.pdf'
    for count, page_text in iter_text_per_page(pdf_file):
        print(f'page# {count}:\n{page_text}')
        print()


if __name__ == "__main__":
    main()

输出内容截取如下:

page# 1:

产品主要功能包括数据采集、数据治理以及数据产品应用。企业典型应用场景利用 AI 算法实现业务分类、聚类、回归预测以及时间序列预测等。在销售领域基于历史数据实现销售预测,基于用户特征数据对客户分类实现精准营销;在采购领域利用历史数据预测采购价格,基于多维度指标实现供应商综合评价模型等。

page# 2:
各类政策法规进行整理和归纳,帮助用户更加方便快捷地获取所需的政策信息。。。。

抽取图像

提取图像的最简单方法是调用命令行工具pdf2txt.py。它是在安装PDFMiner时安装的,并且位于Python可执行文件的相同位置。使用的操作系统。可执行文件’查找Python二进制文件的位置。

下面是示例用法:

usage: pdf2txt.py [-h] [--version] [--debug] [--disable-caching] [--page-numbers PAGE_NUMBERS [PAGE_NUMBERS ...]]
                  [--pagenos PAGENOS] [--maxpages MAXPAGES] [--password PASSWORD] [--rotation ROTATION] [--no-laparams]
                  [--detect-vertical] [--line-overlap LINE_OVERLAP] [--char-margin CHAR_MARGIN] [--word-margin WORD_MARGIN]
                  [--line-margin LINE_MARGIN] [--boxes-flow BOXES_FLOW] [--all-texts] [--outfile OUTFILE]
                  [--output_type OUTPUT_TYPE] [--codec CODEC] [--output-dir OUTPUT_DIR] [--layoutmode LAYOUTMODE]
                  [--scale SCALE] [--strip-control]
                  files [files ...]

To extract all text from pdf:
pdf2txt.py --all-texts ../samples/manual.pdf

To extract all images from pdf:
pdf2txt.py --output-dir images ../sample03.pdf

如果希望将其集成到应用程序中,只需从pdf2txt.py复制源代码即可.

获取页数

from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from pdfminer.pdftypes import resolve1

pdf_file = '../samples/brocher1.pdf'

with open(pdf_file, 'rb') as f:
    parser = PDFParser(f)
    doc = PDFDocument(parser)
    parser.set_document(doc)
    pages = resolve1(doc.catalog['Pages'])
    pages_count = pages.get('Count', 0)
    print(pages_count)

抽取表格数据

pdfminer抽取表格的输出看起来比PyPDF2好得多,我们可以很容易地使用regex或split()提取所需的数据。但是在现实世界中,PDF文档包含很多噪声,id可以是不同的格式等等。我无法想象一个算法会考虑所有的事情。为了简化和加快我们的工作,我建议将PDF文件转换为HTML格式:

from io import StringIO
from pdfminer.high_level import extract_text_to_fp
from pdfminer.layout import LAParams

output = StringIO()
with open('example.pdf', 'rb') as pdf_file:
    extract_text_to_fp(pdf_file, output, laparams=LAParams(), output_type='html', codec=None)
with open('example.html', 'a') as html_file:
    html_file.write(output.getvalue())

然后再利用html标签处理库抽取文本,这种方法准确率应该能得到保障。

到此这篇关于Python使用PDFMiner.six解析PDF数据详解的文章就介绍到这了,更多相关Python解析PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python中不可变数据类型原理与实战全解析

    Python中不可变数据类型原理与实战全解析

    在Python的世界里,数据对象被明确划分为两大阵营:可变(Mutable)与不可变(Immutable),而本文将为大家详细介绍一下其中的不可变数据,感兴趣的可以了解下
    2025-04-04
  • Python多维/嵌套字典数据无限遍历的实现

    Python多维/嵌套字典数据无限遍历的实现

    下面小编就为大家带来一篇Python多维/嵌套字典数据无限遍历的实现。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2016-11-11
  • python如何获取.csv文件中的某一列或者某些列

    python如何获取.csv文件中的某一列或者某些列

    这篇文章主要介绍了python如何获取.csv文件中的某一列或者某些列问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python2随机数列生成器简单实例

    Python2随机数列生成器简单实例

    这篇文章主要介绍了Python2随机数列生成器,结合简单实例形式分析了Python基于random模块操作随机数的相关实现技巧,需要的朋友可以参考下
    2017-09-09
  • Python免登录实现域名解析的示例详解

    Python免登录实现域名解析的示例详解

    这篇文章主要介绍了如何利用编写python脚本,实现通过dnspod api获取个人域名内的dns解析记录,从而实现域名的解析、修改和删除,需要的可以参考一下
    2023-03-03
  • python同步windows和linux文件

    python同步windows和linux文件

    这篇文章主要为大家详细介绍了python同步windows和linux文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-08-08
  • python访问类中docstring注释的实现方法

    python访问类中docstring注释的实现方法

    这篇文章主要介绍了python访问类中docstring注释的实现方法,涉及python类注释的访问技巧,非常具有实用价值,需要的朋友可以参考下
    2015-05-05
  • Python进阶之协程详解

    Python进阶之协程详解

    这篇文章主要为大家介绍了Python进阶之协程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • 在Linux上安装Python的Flask框架和创建第一个app实例的教程

    在Linux上安装Python的Flask框架和创建第一个app实例的教程

    这篇文章主要介绍了在Linux上安装Python的Flask框架和创建第一个app实例,包括创建一个HTML模版和利用Jinja2模板引擎来做渲染的步骤,需要的朋友可以参考下
    2015-03-03
  • Python 私有属性与私有方法

    Python 私有属性与私有方法

    这篇文章主要介绍了Python 私有属性与私有方法,私有属性是指在 Python 的面向对象开发过程中,对象的某些属性只想在对象的内部被使用,但不想在外部被访问到这些属,下面我们就进入文章一起了解更多信息内容吧
    2022-03-03

最新评论