Python使用PDFMiner.six解析PDF数据详解

更新时间：2025年03月10日 09:53:07 作者：梦想画家

PDFMiner.six 是基于 PDFMiner 项目开发的增强版,用于从PDF文档中提取文本和结构信息,下面我们就来学习一下如何使用PDFMiner.six解析PDF数据吧

PDF（可移植文档格式）文件是由Adobe创建的一种灵活的文件格式，它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述，包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享，因为它们能够保持原始格式。然而，以编程方式解析和解释PDF内容可能是一项挑战。这些困难包括pdf的复杂结构、不同的文本编码、复杂的布局、压缩的内容和嵌入的字体等问题。

我们最近评估了几个流行的Python PDF库，如PyPDF/PyPDF2, PDFMiner.six, PyMuPDF, PDFplumber2,等。有些库适合提取文本，有些适合提取图像，有些速度很快，等等。在本文中，我们将重点介绍如何开始使用PDFMiner.six。最新信息请随时关注官方网站。

环境准备

安装依赖包：

pip install pdfminer.six
pip install 'pdfminer.six[image]'

示例PDF文件可以在这里找到，当然你也可以自己准备。让我们看看如何使用这些api：

从PDF中提取文本

从PDF中提取图像

迭代PDF中的所有对象

从PDF中提取TableOfContent （ToC）

抽取文本

通过高级API可用于从PDF中提取文本。

from pdfminer.high_level import extract_text
from os import path

path = path.abspath(path.dirname(__file__))
print(path)

pdf_file = path + '/sample01.pdf'
text = extract_text(pdf_file)
print(text)

抽取每一页

from io import StringIO

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.utils import open_filename

from os import path

path = path.abspath(path.dirname(__file__))
print(path)


def iter_text_per_page(pdf_file, password='', page_numbers=None, maxpages=0,
                 caching=True, codec='utf-8', laparams=None):
    if laparams is None:
        laparams = LAParams()

    with open_filename(pdf_file, "rb") as fp:
        rsrcmgr = PDFResourceManager(caching=caching)

        idx = 1
        for page in PDFPage.get_pages(
                fp,
                page_numbers,
                maxpages=maxpages,
                password=password,
                caching=caching,
        ):
            with StringIO() as output_string:
                device = TextConverter(rsrcmgr, output_string, codec=codec,
                                       laparams=laparams)
                interpreter = PDFPageInterpreter(rsrcmgr, device)
                interpreter.process_page(page)
                yield idx, output_string.getvalue()
                idx += 1


def main():
    pdf_file = path + '/sample02.pdf'
    for count, page_text in iter_text_per_page(pdf_file):
        print(f'page# {count}:\n{page_text}')
        print()


if __name__ == "__main__":
    main()

输出内容截取如下：

page# 1:

产品主要功能包括数据采集、数据治理以及数据产品应用。企业典型应用场景利用 AI 算法实现业务分类、聚类、回归预测以及时间序列预测等。在销售领域基于历史数据实现销售预测，基于用户特征数据对客户分类实现精准营销；在采购领域利用历史数据预测采购价格，基于多维度指标实现供应商综合评价模型等。

page# 2:
各类政策法规进行整理和归纳，帮助用户更加方便快捷地获取所需的政策信息。。。。

抽取图像

提取图像的最简单方法是调用命令行工具pdf2txt.py。它是在安装PDFMiner时安装的，并且位于Python可执行文件的相同位置。使用的操作系统。可执行文件’查找Python二进制文件的位置。

下面是示例用法：

usage: pdf2txt.py [-h] [--version] [--debug] [--disable-caching] [--page-numbers PAGE_NUMBERS [PAGE_NUMBERS ...]]
                  [--pagenos PAGENOS] [--maxpages MAXPAGES] [--password PASSWORD] [--rotation ROTATION] [--no-laparams]
                  [--detect-vertical] [--line-overlap LINE_OVERLAP] [--char-margin CHAR_MARGIN] [--word-margin WORD_MARGIN]
                  [--line-margin LINE_MARGIN] [--boxes-flow BOXES_FLOW] [--all-texts] [--outfile OUTFILE]
                  [--output_type OUTPUT_TYPE] [--codec CODEC] [--output-dir OUTPUT_DIR] [--layoutmode LAYOUTMODE]
                  [--scale SCALE] [--strip-control]
                  files [files ...]

To extract all text from pdf:
pdf2txt.py --all-texts ../samples/manual.pdf

To extract all images from pdf:
pdf2txt.py --output-dir images ../sample03.pdf

如果希望将其集成到应用程序中，只需从pdf2txt.py复制源代码即可.

获取页数

from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from pdfminer.pdftypes import resolve1

pdf_file = '../samples/brocher1.pdf'

with open(pdf_file, 'rb') as f:
    parser = PDFParser(f)
    doc = PDFDocument(parser)
    parser.set_document(doc)
    pages = resolve1(doc.catalog['Pages'])
    pages_count = pages.get('Count', 0)
    print(pages_count)

抽取表格数据

pdfminer抽取表格的输出看起来比PyPDF2好得多，我们可以很容易地使用regex或split()提取所需的数据。但是在现实世界中，PDF文档包含很多噪声，id可以是不同的格式等等。我无法想象一个算法会考虑所有的事情。为了简化和加快我们的工作，我建议将PDF文件转换为HTML格式：

from io import StringIO
from pdfminer.high_level import extract_text_to_fp
from pdfminer.layout import LAParams

output = StringIO()
with open('example.pdf', 'rb') as pdf_file:
    extract_text_to_fp(pdf_file, output, laparams=LAParams(), output_type='html', codec=None)
with open('example.html', 'a') as html_file:
    html_file.write(output.getvalue())

然后再利用html标签处理库抽取文本，这种方法准确率应该能得到保障。

到此这篇关于Python使用PDFMiner.six解析PDF数据详解的文章就介绍到这了,更多相关Python解析PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python
PDF

Python OpenCV Canny边缘检测算法的原理实现详解
这篇文章主要介绍了Python OpenCV Canny边缘检测算法的原理实现详解，由于边缘检测对噪声敏感，因此对图像应用高斯平滑以帮助减少噪声，具体详情需要的小伙伴可以参考一下
2022-07-07
anaconda创建、查看、激活与删除虚拟环境指令总结
在跑项目时常常会安装很多的包,也通常会遇到需要安装指定版本的包,以及包与包不兼容的问题,下面这篇文章主要给大家介绍了关于anaconda创建、查看、激活与删除虚拟环境指令的相关资料,需要的朋友可以参考下
2022-11-11
对python:循环定义多个变量的实例详解
今天小编就为大家分享一篇对python:循环定义多个变量的实例详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
Python爬虫获取基金净值信息详情
这篇文章主要介绍了Python爬虫获取基金净值信息详情，文章基于钱两篇文章的内容围绕python的相关资料展开详细介绍，需要的小伙伴可以参考一下
2022-05-05
Python中的哈希算法模块hashlib详解
这篇文章主要介绍了Python中的哈希算法模块hashlib详解,hashlib模块实现了多种哈希算法，包括MD5以及SHA家族的算法，通过algorithms_guaranteed可以查看hashlib中封装的所有算法,需要的朋友可以参考下
2023-08-08
Python中的闭包总结
这篇文章主要介绍了Python中的闭包总结,本文讲解了闭包的概念、为什么使用闭包、使用闭包实例等内容,需要的朋友可以参考下
2014-09-09
Python实现曲线点抽稀算法的示例
本篇文章主要介绍了Python实现曲线点抽稀算法的示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-10-10
linux系统使用python获取内存使用信息脚本分享
这篇文章主要介绍了linux系统使用python获取内存使用情况信息，大家参考使用吧
2014-01-01
Django Session和Cookie分别实现记住用户登录状态操作
这篇文章主要介绍了Django Session和Cookie分别实现记住用户登录状态操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-07-07
TensorFlow 张量操作的实现
本文介绍了TensorFlow中的张量基础操作,涵盖张量创建、数学运算、形状操作、索引切片、广播机制、聚合操作、排序及高级操作等核心内容,具有一定的参考价值,感兴趣的可以了解一下
2025-08-08