Python实现读取PDF并提取文本和图片
在日常工作和学习中,我们经常会遇到需要从 PDF 文件中批量提取文本或图片的情况。比如,整理一份扫描版合同中的条款,或者收集一份产品手册里所有的配图。
之前处理 PDF 可能会让人感到头疼,但有了合适的库,这一切都变得简单。今天,我们将介绍如何使用 Spire.PDF for Python 这个强大的库,仅需几行代码,就能轻松搞定 PDF 中的文本和图片提取)。

在开始之前,请确保你已经安装了 Spire.PDF 库:
pip install Spire.PDF
1. 加载 PDF 文档
在进行任何操作之前,首先需要将 PDF 文件加载到我们的代码中。Spire.PDF 非常灵活,支持 从文件路径加载 ,也支持 从数据流(Stream)加载 。
方式一:从文件加载
这是最直接的方式,适用于本地磁盘上的固定文件。
from spire.pdf import PdfDocument
# 创建一个 PdfDocument 实例
pdf = PdfDocument()
# 加载本地的 PDF 文档
pdf.LoadFromFile("sample.pdf")
方式二:从数据流加载
如果你的 PDF 数据是从网络接口接收到的,或者是通过其他方式在内存中生成的字节数据,这种方式就非常实用。
from spire.pdf import PdfDocument, Stream
# 将文件读取为字节数组(这里演示从文件读,实际也可以来自网络)
with open("sample.pdf", "rb") as f:
byte_data = f.read()
# 创建数据流对象
pdfStream = Stream(byte_data)
# 从流中加载 PDF
pdf = PdfDocument(pdfStream)
2. 提取文本
文本提取是处理文档最常用的功能之一。下面的代码演示了如何遍历 PDF 的所有页面,并将每一页的文本拼接起来。
主要用到 PdfTextExtractor 和 PdfTextExtractOptions 这两个辅助类。设置 IsExtractAllText = True 可以确保提取出页面上的大部分可见文本。
# 假设 pdf 对象已经通过上面的方式加载完成
all_text = ""
# 循环遍历每一页
for pageIndex in range(pdf.Pages.Count):
# 根据索引获取当前页
page = pdf.Pages.get_Item(pageIndex)
# 创建文本提取器
text_extractor = PdfTextExtractor(page)
# 配置提取选项
options = PdfTextExtractOptions()
options.IsExtractAllText = True
options.IsSimpleExtraction = True
# 执行提取并累加
all_text += text_extractor.ExtractText(options)
# 打印结果
print(all_text)
3. 提取图片
很多时候,PDF 里的关键信息其实藏在插图或图表里。Spire.PDF 同样为我们准备了非常便捷的图片提取方案。
通过 PdfImageHelper 帮助类,我们可以直接获取页面上的图片信息,然后一键保存为图片文件(如 .png 格式)。
# 获取第一页(索引为0)
page = pdf.Pages.get_Item(0)
# 创建图片辅助对象
image_helper = PdfImageHelper()
# 获取该页面上的所有图片信息
images_info = image_helper.GetImagesInfo(page)
# 遍历并保存每一张图片
for i in range(len(images_info)):
# 保存为 PNG 格式
images_info[i].Image.Save(f"output/Images/image_{i}.png")
print(f"成功提取 {len(images_info)} 张图片")
注意 :如果是扫描件(图片型 PDF),提取出来的其实是一整张扫描图;如果是电子文档生成的 PDF,则能精准提取出嵌入的独立图标或照片。
4. 进阶提示
虽然上述代码已经覆盖了基础需求,但在实际应用中还有几点值得注意:
- 分页处理 :示例中为了演示,提取了所有文本。如果你想按页处理,只需在循环中控制
pageIndex即可。 - 中文支持 :该库对中文支持良好,提取中文 PDF 时只要保持编码环境为 UTF-8 即可。
- 免费版限制 :如果你使用的是免费版的 Spire.PDF,请注意它通常对处理的页数有限制(例如仅支持前 10 页)。如果需要处理页数较多的文档,可能需要评估商业版。
5.方法补充
提取 PDF 中的文本和图片,关键在于根据文档类型和需求选择合适的库。如果追求通用与平衡,PyMuPDF (fitz) 是首选:它速度极快,能同时完美提取文本和图片,且支持对扫描版 PDF 进行光学字符识别 (OCR)。
主流 Python PDF 提取工具对比
| 库名 | 核心特长 | 处理速度 | 推荐指数 | 最佳适用场景 |
|---|---|---|---|---|
| PyMuPDF (fitz) | 全能、高速、稳定 | 极快 | ★★★★★ | 大多数通用场景,尤其是需要同时提取文本和图片时。 |
| pdfplumber | 表格提取精准、API 友好 | 较慢 | ★★★★☆ | 处理需要精确提取复杂表格的金融、数据类报告。 |
| pdf-oxide | 极致性能 | 最快 | ★★★★☆ | 性能瓶颈项目、大规模批量处理;纯文本提取极快。 |
| pypdf | 轻量、功能基础 | 一般 | ★★★☆☆ | 仅需快速提取纯文本或合并、拆分 PDF 等操作。 |
| pdfminer.six | 布局分析准确 | 一般 | ★★☆☆☆ | 需要深入了解页面布局坐标,且有能力二次开发的场景。 |
如果你的 PDF 是扫描件(由图片组成),PyMuPDF 仍是首选,因为它集成了 OCR 功能。对于纯文本提取速度有极致要求,可以尝试新的高性能库 pdf-oxide。
这里用最小化代码来演示最核心的三个库。
1. PyMuPDF (fitz) - 全能首选
PyMuPDF 是处理 PDF 的瑞士军刀,以其卓越的性能和对文本、图片完美支持而闻名。
安装:
pip install PyMuPDF
提取文本和图片的完整示例:
下面的代码展示了如何打开一个 PDF 文件,遍历每一页,提取其中的所有文本,并将页面上的所有图片保存下来。
import fitz # PyMuPDF 的导入名
def extract_text_and_images(pdf_path):
"""从PDF中提取文本并保存所有图片"""
doc = fitz.open(pdf_path)
full_text = ""
for page_num in range(len(doc)):
page = doc[page_num]
# 1. 提取当前页的文本
page_text = page.get_text()
full_text += page_text
# 2. 提取当前页的图片
image_list = page.get_images(full=True)
for img_index, img in enumerate(image_list):
xref = img[0] # 图片的引用ID
base_image = doc.extract_image(xref)
image_bytes = base_image["image"]
image_ext = base_image["ext"] # 图片扩展名,如 'png', 'jpeg'
with open(f"image_page{page_num+1}_{img_index}.{image_ext}", "wb") as img_file:
img_file.write(image_bytes)
doc.close()
return full_text
# 使用示例
text_content = extract_text_and_images("your_document.pdf")
print(text_content[:500]) # 打印前500个字符2. pdfplumber - 表格提取的利器
当你的 PDF 包含表格时,pdfplumber 的 extract_table() 方法非常强大,可以智能解析并提取表格结构。
安装:
pip install pdfplumber
提取表格并打印:
import pdfplumber
with pdfplumber.open("table_file.pdf") as pdf:
first_page = pdf.pages[0]
# 尝试自动识别并提取页面上的第一个表格
table = first_page.extract_table()
if table:
for row in table:
print(row) # 打印表格的每一行3. pypdf - 简单文本提取
如果你只需要提取纯文本,不关心图片和格式,pypdf 是一个轻量级的选择。
安装:
pip install pypdf
基础文本提取:
from pypdf import PdfReader
reader = PdfReader("example.pdf")
text = ""
for page in reader.pages:
text += page.extract_text()
print(text)进阶技巧:处理扫描版 PDF(OCR)
如果 PDF 是扫描件或图片型 PDF(无法直接选中文字),PyMuPDF 内部集成了对 Tesseract 的支持。
import pymupdf
doc = pymupdf.open("scanned.pdf")
for page in doc:
# 获取 OCR 文本页,如果已有文本层,常规方法也能拿到
tp = page.get_textpage_ocr()
text = page.get_text(textpage=tp)
print(text)6.总结
通过 Spire.PDF for Python,你会发现处理 PDF 文件变得如此简单。无论是读取文件、逐页分析文字,还是把珍贵的插图保存下来,只需要短短的十几行代码就能搞定。这大大提升了文档处理的效率,让你能专注于下一步的数据分析或业务逻辑。
现在就去试试吧,用代码解放你的双手!
到此这篇关于Python实现读取PDF并提取文本和图片的文章就介绍到这了,更多相关Python提取PDF文本和图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
使用Python的Tornado框架实现一个Web端图书展示页面
Tornado是Python的一款高人气Web开发框架,这里我们来展示使用Python的Tornado框架实现一个Web端图书展示页面的实例,通过该实例可以清楚地学习到Tornado的模板使用及整个Web程序的执行流程.2016-07-07
在pycharm中执行 os.makedirs 提示用户名或密码不正确的问题及解决方法
这篇文章主要介绍了在pycharm中执行 os.makedirs 提示用户名或密码不正确的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧2024-01-01


最新评论