Python实现识别图片和扫描PDF中的文字

更新时间：2025年02月12日 08:14:46 作者：nuclear2011

在处理扫描的PDF和图片时,文字信息往往无法直接编辑、搜索或复制,这给信息提取和分析带来了诸多不便,所以本文将介绍如何使用Python及相关OCR库实现对图片和扫描PDF中文字的识别,需要的可以了解下

在处理扫描的PDF和图片时，文字信息往往无法直接编辑、搜索或复制，这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费力，还容易出错。光学字符识别（OCR）技术能够将图片中的文字转换为可编辑文本，使信息提取和处理更加高效。如今，OCR已广泛应用于扫描文件的转换、数字化文档的整理、以及自动化数据输入等领域。本文将介绍如何使用Python及相关OCR库，实现对图片和扫描PDF中文字的识别。

工具与设置

要在Python中实现从图片和扫描PDF中提取文本，我们需要选择一个适当的OCR库。本文所选择的库是Spire.OCR for Python。该库支持多种语言，包括英语、法语、德语、简体中文、繁体中文、日语、韩语等。在使用该库之前，我们需要完成以下两个步骤：

步骤1：安装Spire.OCR for Python

在终端中运行以下命令安装Spire.OCR for Python：

pip install Spire.OCR

步骤2：下载OCR模型

Spire.OCR for Python提供了支持Windows（64位）、Linux（64位）和MacOS（10.15及以上）操作系统的三种模型。我们需要根据自己的系统下载适合的模型：

下载完成后，将它解压并保存到特定的目录下。

完成以上两个步骤后，我们就可以使用该库实现识别图片和扫描PDF中的文字。

Python 识别图片中的文字

从图片中提取文本的过程比较简单。首先，需要配置 OCR 扫描器的相关设置（例如：文本识别语言和OCR模型的路径）；然后对图片进行扫描；最后将识别的文字保存为文本文件。

以下是从图片中提取文本的关键步骤：

初始化 OCR 扫描器：创建 OcrScanner 对象。
配置 OCR 设置：通过 OcrScanner 对象的 ConfigureDependencies 方法，设置 OCR 模型的路径和文本识别语言。
扫描图片：使用 OcrScanner 对象的 Scan() 方法，从图片中识别文本。
保存文本：获取识别出的文本并保存为文本文件。

实现代码：

from spire.ocr import *
 
# 初始化OcrScanner对象
scanner = OcrScanner()
 
# 配置OCR设置（文本识别语言和OCR模型路径）
# 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等
configureOptions = ConfigureOptions()
configureOptions.ModelPath = r'D:\OCR\win-x64'
configureOptions.Language = 'Chinese'
scanner.ConfigureDependencies(configureOptions)
 
# 扫描图片
scanner.Scan(r'测试.png')
 
# 获取识别的文本
text = scanner.Text.ToString() + '\n'
 
# 将文本保存到文本文件
with open('输出.txt', 'a', encoding='utf-8') as file:
file.write(text + '\n')

原始图片和识别结果：

Python 识别图片中的文字及其坐标位置

有时除了识别文本外，还需要获取文本在图片中的坐标位置。Spire.OCR也支持提取这些信息。

以下是从图片中识别文本并获取其坐标位置的关键步骤：

初始化OCR扫描器：创建OcrScanner对象。
配置OCR设置：通过OcrScanner对象的ConfigureDependencies方法设置OCR模型的路径和文本识别语言。
扫描图片：使用OcrScanner 对象的Scan() 方法从图片中识别文本。
获取边框坐标：遍历识别的文本中的文本块，获取每个文本块的边框信息（x, y坐标及其宽度和高度）。
保存文本和坐标：将文本及其坐标保存到文本文件中。

实现代码：

from spire.ocr import *
 
# 初始化OcrScanner对象
scanner = OcrScanner()
 
# 配置OCR设置（文本识别语言和OCR模型路径）
# 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等
configureOptions = ConfigureOptions()
configureOptions.ModelPath = r'D:\OCR\win-x64'
configureOptions.Language = 'Chinese'
scanner.ConfigureDependencies(configureOptions)
 
# 扫描图片
scanner.Scan(r'测试.png')
 
# 遍历识别的文本中的文本块，提取每个文本块的文本和坐标位置等信息
text = ''
for block in scanner.Text.Blocks:
    rectangle = block.Box
    positions = f'{block.Text} -> x: {rectangle.X}, y: {rectangle.Y}, w: {rectangle.Width}, h: {rectangle.Height}'
    text += positions + '\n'
 
# 将文本和坐标保存到文本文件
with open('图片文字及坐标.txt', 'a', encoding='utf-8') as file:
    file.write(text + '\n')

Python 识别扫描PDF中的文字

对于扫描的PDF文档，需先将每一页转换为图片格式。可以借助Spire.PDF for Python库来实现这一点。将PDF页面转换为图片后，即可对每张图片执行 OCR 处理。

在使用以下代码之前，请先通过以下命令安装Spire.PDF：

pip install Spire.PDF

以下是从扫描PDF中提取文本的关键步骤：

将PDF页面转换为图片：使用Spire.PDF加载扫描的PDF文档，然后使用PdfDocument.SaveAsImage()方法将文档的每一页保存为图片。
执行OCR：使用Spire.OCR识别每张图片中的文本。
保存识别的文本：将识别的文本保存到文本文件中。

实现代码：

from spire.pdf import *
from spire.ocr import *
import io
 
# 将PDF页面转换为图片
def convert_pdf_page_to_image(pdf, page_index):
    return pdf.SaveAsImage(page_index)
 
# 从图片中识别文本
def recognize_text_from_image(imgName, language, model_path):
    # 初始化OCR扫描器并配置OCR模型的路径和文本识别语言
    scanner = OcrScanner()
    configure_options = ConfigureOptions()
    configure_options.Language = language
    configure_options.ModelPath = model_path
    scanner.ConfigureDependencies(configure_options)
 
    # 执行OCR并返回识别的文本
    scanner.Scan(imgName)
    data = scanner.Text.ToString()
    return data
 
# 加载扫描PDF文档
pdf = PdfDocument()
pdf.LoadFromFile('扫描.pdf')
 
# 创建文本文件以保存提取的文本
with open('扫描PDF.txt', 'a', encoding='utf-8') as writer:
    for page_index in range(pdf.Pages.Count):
        # 将PDF页面转换为图片
        image = convert_pdf_page_to_image(pdf, page_index)
        imgName="toImage_"+str(page_index)+".png"
        image.Save(imgName)
 
        # 从图片中识别文本
        recognized_text = recognize_text_from_image(imgName, 'Chinese', r'D:\OCR\win-x64')
 
        # 将识别的文本写入文本文件
        writer.write(f'Page {page_index + 1}:\n')
        writer.write(recognized_text)
        writer.write('\n\n')  # 在页面之间添加两个换行符
 
print('文本已成功保存到"扫描PDF.txt"。')

注意事项

OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好，不模糊、倾斜的图片，可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同，一些特定语言或字体可能识别效果较差。因此在识别完成后，最好再人工校对一遍。

到此这篇关于Python实现识别图片和扫描PDF中的文字的文章就介绍到这了,更多相关Python识别图片和PDF内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python实现PS滤镜特效Marble Filter玻璃条纹扭曲效果示例
这篇文章主要介绍了Python实现PS滤镜特效Marble Filter玻璃条纹扭曲效果,涉及Python基于skimage库实现图形条纹扭曲效果的相关操作技巧,需要的朋友可以参考下
2018-01-01
Python中的Logging模块在项目应用小结
Python标准库中的logging模块为我们提供了强大而灵活的日志记录功能，本文将介绍如何使用logging模块，并探讨其在Python开发中的实际应用，感兴趣的朋友一起看看吧
2024-04-04
Python基于Flask框架配置依赖包信息的项目迁移部署
这篇文章主要介绍了Python基于Flask框架配置依赖包信息的项目迁移部署小技巧,非常不错，具有参考借鉴价值，需要的朋友可以参考下
2018-03-03
matplotlib设置坐标轴标签和间距的实现
本文主要介绍了matplotlib设置坐标轴标签和间距的实现，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-10-10
django中上传图片分页三级联动效果的实现代码
这篇文章主要介绍了django中上传图片分页三级联动效果的实现代码，非常不错，具有一定的参考借鉴价值，需要的朋友参考下吧
2019-08-08
python中ctypes使用方法
这篇文章主要介绍了python中ctypes使用方法,包括 python和c中类型映射,操作结构体和联合体,需要定义结构体或联合体的类型,然后可以创建实例、访问其成员等,感兴趣的朋友跟随小编一起看看吧
2024-04-04
在django项目中导出数据到excel文件并实现下载的功能
这篇文章主要介绍了在django项目中导出数据到excel文件并实现下载的功能，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-03-03
python 绘制国旗的示例
这篇文章主要介绍了python 绘制国旗的示例，帮助大家利用python绘制，处理图像，感兴趣的朋友可以了解下
2020-09-09
基于python 处理中文路径的终极解决方法
下面小编就为大家分享一篇基于python 处理中文路径的终极解决方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
利用Python编写个冷笑话生成器
这篇文章主要为大家分享了如何利用Python编写一个简易的冷笑话生成器，这样再惹女朋友生气，就可以说笑话哄她啦，快跟随小编一起学习一下
2022-04-04