Python结合OCR实现从扫描件PDF中提取文本

 更新时间:2025年10月26日 09:15:50   作者:Eiceblue  
扫描件 PDF 本质是 “图像集合”,无法直接复制或编辑文本,要提取其中的内容,需借助OCR,下面我们就来看看如何通过 Python 结合 OCR 技术实现从扫描件 PDF 中提取文本吧

扫描件 PDF 本质是 “图像集合”(每一页都是一张图片),无法直接复制或编辑文本。要提取其中的内容,需借助OCR(光学字符识别)技术。本文将介绍如何通过 Python 结合 OCR 技术实现从扫描件 PDF 中提取文本,涵盖环境搭建及示例代码。

一、核心原理

提取 PDF 扫描件的文本的流程可拆解为 3 步:

  • PDF 转图像:将扫描件 PDF 的每一页拆分为独立图像(如 PNG/JPG);
  • OCR 识别:用 OCR 工具分析图像,将其中的文字转换为可编辑文本;
  • 结果保存:将识别后的文本汇总到文件中(如 TXT)。

二、所需工具

要完成OCR PDF 的任务,需安装以下两个核心库,分工明确:

  • Spire.PDF for Python: 将 PDF 页面转换为图像(轻量、兼容性好)
  • Spire.OCR for Python:对转换后的图像执行OCR文本识别 (支持多语言)

安装命令:

打开终端/命令提示符,输入以下pip命令,依次安装两个库:

# 安装PDF转图像库
pip install Spire.PDF
# 安装OCR识别库
pip install Spire.OCR

背景知识:Spire.OCR的用法之前已经详细讲解过,可参考:Python利用Spire.OCR for Python实现从图片中提取文本和坐标

二、PDF文字识别提取步骤

下面我们以 “提取扫描 (图片型)PDF 中的中文文本” 为例,步骤如下。

步骤1:导入核心模块

首先导入两个库的核心类,后续所有操作都基于这些模块:

# 导入Spire.PDF的核心类(用于PDF加载和转图像)
from spire.pdf import *
# 导入Spire.OCR的核心类(用于OCR引擎初始化和文本识别)
from spire.ocr import *

步骤2:初始化 OCR 引擎(关键配置)

OCR识别的准确率,很大程度取决于引擎的配置—尤其是模型路径和识别语言,这两步错了会直接导致识别失败。

# 初始化 OcrScanner
ocr_scanner = OcrScanner()

# 配置 OCR 依赖
config = ConfigureOptions()
# 设置OCR模型路径 (模型需提前下载,链接在另一篇文章)
config.ModelPath = "F:\\OCR Model\\win-x64"
# 设置识别语言(支持多语言,如"Chinese"“Japanese”“French”)
config.Language = "Chinese"

# 将配置应用到 OCR 引擎
ocr_scanner.ConfigureDependencies(config)

步骤3:加载 PDF 并转换为图像

扫描PDF的本质是“一页页的图像”,所以需要先把PDF的每一页拆成独立图像(建议用PNG格式,无损压缩不影响识别):

# 加载目标 PDF 文件
pdf_doc = PdfDocument()
pdf_doc.LoadFromFile("示例.pdf")  # 替换为你的PDF实际路径

# 循环遍历PDF的每一页,转换为图像并保存
for page_index in range(pdf_doc.Pages.Count):
    with pdf_doc.SaveAsImage(page_index) as page_image:
        page_image.Save(f"Pdf图片_{page_index}.png")  # 保存为PNG格式,文件名按页码命名
                # 扫描图像
        ocr_scanner.Scan(f"Pdf图片_{page_index}.png")

步骤4:OCR识别图像并保存文本

最后一步,对每个图像执行OCR识别,再将结果汇总到文本文件中(支持追加写入,避免覆盖):

        # 从图像中提取文本
        scan_result = ocr_scanner.Text.ToString()
        
        # 将提取的文本追加写入文件
        with open("PDF文本.txt", 'a', encoding='utf-8') as file:
            file.write(scan_result + '\n')

输出结果:

运行代码后,你会得到两个类型的文件:

1.图像文件:如Pdf图片_1.png、Pdf图片_2.png,对应PDF的每一页;

2.文本文件PDF文本.txt,里面包含每一页的识别文本,示例如下:

四、常见问题&解决方案

常见问题可能原因解决方案
OCR识别结果乱码/错字多1. 图像分辨率低、模糊;2. 语言设置错误;3. 对比度低1. 确保PDF扫描分辨率≥300DPI;2. 核对Language参数(如中文设为"Chinese");3. 用图像工具提升对比度
OCR引擎初始化失败1. 模型路径错误;2. 模型文件缺失1. 用绝对路径+原始字符串r"";2. 重新下载完整模型包
PDF加载失败1. 文件路径错误;2. PDF文件损坏;3. 无读取权限1. 检查路径是否有空格/特殊字符;2. 用Adobe打开验证文件完整性;3. 赋予文件“读取”权限

到此这篇关于Python结合OCR实现从扫描件PDF中提取文本的文章就介绍到这了,更多相关Python提取PDF扫描件文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 一文学会如何将Python打包后的exe还原成.py

    一文学会如何将Python打包后的exe还原成.py

    反编译的第一步就是要将exe文件转换成py文件,下面这篇文章主要给大家介绍了如何通过一文学会将Python打包后的exe还原成.py的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-11-11
  • Python之字典添加元素的几种方法

    Python之字典添加元素的几种方法

    这篇文章主要介绍了Python之字典添加元素的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09
  • Python数据库小程序源代码

    Python数据库小程序源代码

    这篇文章主要介绍了Python数据库小程序源代码,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • Python中JSON常见用法(json.load()、json.loads()、json.dump()、json.dumps())

    Python中JSON常见用法(json.load()、json.loads()、json.dump()、json.du

    本文主要介绍了Python中JSON常见用法(json.load()、json.loads()、json.dump()、json.dumps()),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-06-06
  • Python文件读取read() readline() readlines()函数使用场景技巧示例

    Python文件读取read() readline() readlines()函数使用场景技巧示例

    这篇文章主要介绍了Python文件读取read() readline()及readlines()函数使用场景技巧示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-08-08
  • Python命令行参数定义及需要注意的地方

    Python命令行参数定义及需要注意的地方

    这篇文章主要介绍了Python命令行参数定义及需要注意的地方,帮助大家更好的理解和学习python,感兴趣的朋友可以了解下
    2020-11-11
  • 跟老齐学Python之Python文档

    跟老齐学Python之Python文档

    文档,这个词语在经常在程序员的嘴里冒出来,有时候他们还经常以文档有没有或者全不全为标准来衡量一个软件项目是否高大上。那么,软件中的文档是什么呢?有什么要求呢?python文档又是什么呢?文档有什么用呢?
    2014-10-10
  • python实现树的深度优先遍历与广度优先遍历详解

    python实现树的深度优先遍历与广度优先遍历详解

    这篇文章主要介绍了python实现树的深度优先遍历与广度优先遍历,详细分析了树的深度优先遍历与广度优先遍历原理及Python相关实现技巧,需要的朋友可以参考下
    2019-10-10
  • python如何用columns参数获取DataFrame各列的表头名

    python如何用columns参数获取DataFrame各列的表头名

    这篇文章主要介绍了python如何用columns参数获取DataFrame各列的表头名问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-03-03
  • python windows安装cuda+cudnn+pytorch教程

    python windows安装cuda+cudnn+pytorch教程

    这篇文章主要介绍了python windows安装cuda+cudnn+pytorch教程,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-05-05

最新评论