Python实现读取PDF并提取文本和图片

更新时间：2026年04月28日 08:14:19 作者：LSTM97

在日常工作和学习中，我们经常会遇到需要从 PDF 文件中批量提取文本或图片的情况。比如，整理一份扫描版合同中的条款，或者收集一份产品手册里所有的配图。之前处理 PDF 可能会让人感到头疼，但有了合适

1. 加载 PDF 文档

在进行任何操作之前，首先需要将 PDF 文件加载到我们的代码中。Spire.PDF 非常灵活，支持 从文件路径加载 ，也支持 从数据流（Stream）加载 。

方式一：从文件加载

这是最直接的方式，适用于本地磁盘上的固定文件。

from spire.pdf import PdfDocument

# 创建一个 PdfDocument 实例
pdf = PdfDocument()
# 加载本地的 PDF 文档
pdf.LoadFromFile("sample.pdf")

方式二：从数据流加载

如果你的 PDF 数据是从网络接口接收到的，或者是通过其他方式在内存中生成的字节数据，这种方式就非常实用。

from spire.pdf import PdfDocument, Stream

# 将文件读取为字节数组（这里演示从文件读，实际也可以来自网络）
with open("sample.pdf", "rb") as f:
    byte_data = f.read()

# 创建数据流对象
pdfStream = Stream(byte_data)
# 从流中加载 PDF
pdf = PdfDocument(pdfStream)

2. 提取文本

文本提取是处理文档最常用的功能之一。下面的代码演示了如何遍历 PDF 的所有页面，并将每一页的文本拼接起来。

主要用到 PdfTextExtractor 和 PdfTextExtractOptions 这两个辅助类。设置 IsExtractAllText = True 可以确保提取出页面上的大部分可见文本。

# 假设 pdf 对象已经通过上面的方式加载完成
all_text = ""

# 循环遍历每一页
for pageIndex in range(pdf.Pages.Count):
    # 根据索引获取当前页
    page = pdf.Pages.get_Item(pageIndex)

    # 创建文本提取器
    text_extractor = PdfTextExtractor(page)

    # 配置提取选项
    options = PdfTextExtractOptions()
    options.IsExtractAllText = True
    options.IsSimpleExtraction = True

    # 执行提取并累加
    all_text += text_extractor.ExtractText(options)

# 打印结果
print(all_text)

3. 提取图片

很多时候，PDF 里的关键信息其实藏在插图或图表里。Spire.PDF 同样为我们准备了非常便捷的图片提取方案。

通过 PdfImageHelper 帮助类，我们可以直接获取页面上的图片信息，然后一键保存为图片文件（如 .png 格式）。

# 获取第一页（索引为0）
page = pdf.Pages.get_Item(0)

# 创建图片辅助对象
image_helper = PdfImageHelper()
# 获取该页面上的所有图片信息
images_info = image_helper.GetImagesInfo(page)

# 遍历并保存每一张图片
for i in range(len(images_info)):
    # 保存为 PNG 格式
    images_info[i].Image.Save(f"output/Images/image_{i}.png")

print(f"成功提取 {len(images_info)} 张图片")

注意：如果是扫描件（图片型 PDF），提取出来的其实是一整张扫描图；如果是电子文档生成的 PDF，则能精准提取出嵌入的独立图标或照片。

4. 进阶提示

虽然上述代码已经覆盖了基础需求，但在实际应用中还有几点值得注意：

分页处理 ：示例中为了演示，提取了所有文本。如果你想按页处理，只需在循环中控制 pageIndex 即可。
中文支持 ：该库对中文支持良好，提取中文 PDF 时只要保持编码环境为 UTF-8 即可。
免费版限制 ：如果你使用的是免费版的 Spire.PDF，请注意它通常对处理的页数有限制（例如仅支持前 10 页）。如果需要处理页数较多的文档，可能需要评估商业版。

5.方法补充

提取 PDF 中的文本和图片，关键在于根据文档类型和需求选择合适的库。如果追求通用与平衡，PyMuPDF (fitz) 是首选：它速度极快，能同时完美提取文本和图片，且支持对扫描版 PDF 进行光学字符识别 (OCR)。

主流 Python PDF 提取工具对比

库名	核心特长	处理速度	推荐指数	最佳适用场景
PyMuPDF (fitz)	全能、高速、稳定	极快	★★★★★	大多数通用场景，尤其是需要同时提取文本和图片时。
pdfplumber	表格提取精准、API 友好	较慢	★★★★☆	处理需要精确提取复杂表格的金融、数据类报告。
pdf-oxide	极致性能	最快	★★★★☆	性能瓶颈项目、大规模批量处理；纯文本提取极快。
pypdf	轻量、功能基础	一般	★★★☆☆	仅需快速提取纯文本或合并、拆分 PDF 等操作。
pdfminer.six	布局分析准确	一般	★★☆☆☆	需要深入了解页面布局坐标，且有能力二次开发的场景。

如果你的 PDF 是扫描件（由图片组成），PyMuPDF 仍是首选，因为它集成了 OCR 功能。对于纯文本提取速度有极致要求，可以尝试新的高性能库 pdf-oxide。

这里用最小化代码来演示最核心的三个库。

1. PyMuPDF (fitz) - 全能首选

PyMuPDF 是处理 PDF 的瑞士军刀，以其卓越的性能和对文本、图片完美支持而闻名。

安装：

pip install PyMuPDF

提取文本和图片的完整示例：

下面的代码展示了如何打开一个 PDF 文件，遍历每一页，提取其中的所有文本，并将页面上的所有图片保存下来。

import fitz  # PyMuPDF 的导入名
def extract_text_and_images(pdf_path):
    """从PDF中提取文本并保存所有图片"""
    doc = fitz.open(pdf_path)
    full_text = ""
    for page_num in range(len(doc)):
        page = doc[page_num]
        # 1. 提取当前页的文本
        page_text = page.get_text()
        full_text += page_text
        # 2. 提取当前页的图片
        image_list = page.get_images(full=True)
        for img_index, img in enumerate(image_list):
            xref = img[0]  # 图片的引用ID
            base_image = doc.extract_image(xref)
            image_bytes = base_image["image"]
            image_ext = base_image["ext"]  # 图片扩展名，如 'png', 'jpeg'
            with open(f"image_page{page_num+1}_{img_index}.{image_ext}", "wb") as img_file:
                img_file.write(image_bytes)
    doc.close()
    return full_text
# 使用示例
text_content = extract_text_and_images("your_document.pdf")
print(text_content[:500]) # 打印前500个字符

2. pdfplumber - 表格提取的利器

当你的 PDF 包含表格时，pdfplumber 的 extract_table() 方法非常强大，可以智能解析并提取表格结构。

安装：

pip install pdfplumber

提取表格并打印：

import pdfplumber
with pdfplumber.open("table_file.pdf") as pdf:
    first_page = pdf.pages[0]
    # 尝试自动识别并提取页面上的第一个表格
    table = first_page.extract_table()
    if table:
        for row in table:
            print(row)   # 打印表格的每一行

3. pypdf - 简单文本提取

如果你只需要提取纯文本，不关心图片和格式，pypdf 是一个轻量级的选择。

安装：

pip install pypdf

基础文本提取：

from pypdf import PdfReader
reader = PdfReader("example.pdf")
text = ""
for page in reader.pages:
    text += page.extract_text()
print(text)

进阶技巧：处理扫描版 PDF（OCR）

如果 PDF 是扫描件或图片型 PDF（无法直接选中文字），PyMuPDF 内部集成了对 Tesseract 的支持。

import pymupdf
doc = pymupdf.open("scanned.pdf")
for page in doc:
    # 获取 OCR 文本页，如果已有文本层，常规方法也能拿到
    tp = page.get_textpage_ocr()
    text = page.get_text(textpage=tp)
    print(text)

6.总结

通过 Spire.PDF for Python，你会发现处理 PDF 文件变得如此简单。无论是读取文件、逐页分析文字，还是把珍贵的插图保存下来，只需要短短的十几行代码就能搞定。这大大提升了文档处理的效率，让你能专注于下一步的数据分析或业务逻辑。

现在就去试试吧，用代码解放你的双手！

到此这篇关于Python实现读取PDF并提取文本和图片的文章就介绍到这了,更多相关Python提取PDF文本和图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

浅谈Python中range与Numpy中arange的比较
这篇文章主要介绍了浅谈Python中range与Numpy中arange的比较，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
一文详解NumPy分割与搜索数组
NumPy 提供了 np.array_split() 函数来分割数组,将一个数组拆分成多个较小的子数组和提供了多种方法来搜索数组中的元素,并返回匹配项的索引,本文将给大家详细介绍NumPy分割与搜索数组,需要的朋友可以参考下
2024-05-05
python实现感知机线性分类模型示例代码
这篇文章主要给大家介绍了关于python实现感知机线性分类模型的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用python具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2019-06-06
简单了解python装饰器原理及使用方法
这篇文章主要介绍了简单了解python装饰器原理及使用方法,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-12-12
python嵌套字典比较值与取值的实现示例
这篇文章主要给大家介绍了关于python嵌套字典比较值与取值的实现方法，详细介绍了python字典嵌套字典的情况下获取某个key的value的相关内容，分享出来供大家参考学习，需要的朋友们下面来一起看看吧。
2017-11-11
python如何用columns参数获取DataFrame各列的表头名
这篇文章主要介绍了python如何用columns参数获取DataFrame各列的表头名问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-03-03
Python环境搭建以及Python与PyCharm安装详细图文教程
PyCharm是一种PythonIDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,这篇文章主要给大家介绍了关于Python环境搭建以及Python与PyCharm安装的详细图文教程,需要的朋友可以参考下
2024-03-03
python处理文本文件并生成指定格式的文件
本节主要介绍了python如何处理文本文件并生成指定格式的文件,需要的朋友可以参考下
2014-07-07
python 成功引入包但无法正常调用的解决
这篇文章主要介绍了python 成功引入包但无法正常调用的解决，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
Python中往列表中插入字典时,数据重复问题
这篇文章主要介绍了Python中往列表中插入字典时,数据重复问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2024-02-02