使用python进行图片的文字识别详细代码

更新时间：2023年05月21日 15:00:23 作者：CS@zeny

Tesseract OCR是一款由Google团队开发的开源OCR引擎，用于将图片、PDF 等格式中的文本转换为可编辑的文本格式，本文主要介绍了Python进行图片的文字识别功能OCR的相关知识,需要的朋友可以参考下

安装 Tesseract OCR

Tesseract OCR 是一款由 Google 团队开发的开源 OCR（Optical Character Recognition，光学字符识别）引擎，用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来，它已经经历了多个版本和改进，并成为目前最受欢迎的 OCR 引擎之一。
Tesseract OCR 支持多种语言，包括英语、中文、日语、俄语等等，而且具有较高的准确率和稳定性，尤其在处理大量文字的场景下表现突出。同时，该引擎还支持多线程处理，可以有效地提高识别速度。
下载地址:Home · UB-Mannheim/tesseract Wiki (github.com)
Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe

请添加图片描述

注意：这是Windows64位系统安装包.

tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine ,有能力的可以自行编译源代码

安装过程

双击tesseract-ocr-w64-setup-5.3.1.20230401.exe安装包进行安装

请添加图片描述

首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。

点Next

请添加图片描述

点I Agree

请添加图片描述

默认为这台电脑进行安装

请添加图片描述

因为需要在 Tesseract OCR 中识别中文简体等非英语文本，所有需要安装相应的语言数据。

请添加图片描述

可以只安装特定语言, 比如中文简体

请添加图片描述

选择安装路径, 比如我选的是D:\Tesseract-OCR，待会配系统环境变量可能会用到这个安装路径。

请添加图片描述

创建快捷图标

请添加图片描述

安装中

请添加图片描述

Finish

请添加图片描述

可以在开始菜单栏中看到Console

请添加图片描述

点进去就能直接进入控制台了

请添加图片描述

输入:tesseract --help试试

请添加图片描述

因为我们不是直接使用命令去操作这个tesseract, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它，需要检查系统的环境变量有没有设置好。

在Windows操作系统中，环境变量用于存储一些系统或用户自定义的参数和路径信息。这些参数和路径信息可以帮助操作系统找到系统中安装的软件和程序，以便正确地运行它们。

重新开个命令窗口

请添加图片描述

输入tesseract -v查看版本号，你可能会出现上面的情况, 就是没有配置好系统的环境变量，那就需要配置环境变量

配置系统的环境变量

以windows10的电脑为例, 打开电脑设置

请添加图片描述

点击系统, 找到关于,侧边有个高级系统设置, 点击去

请添加图片描述

可以看到环境变量, 点进去

请添加图片描述

找到系统变量中的Path选中, 再点击编辑

请添加图片描述

进入后点击新建

请添加图片描述

将安装路径复制进去,比如我安装的路径为D:\Tesseract-OCR

请添加图片描述

复制进去后点击确认

请添加图片描述

重新进入到命令行中

输入tesseract -v, 若出现版本号则设置成功

请添加图片描述

OK， tesseract算是安装完成了, 接下来使用python去操作它了!

安装python的第三方库

Pytesseract库

Pytesseract 是一个 Python 的 OCR（Optical Character Recognition，光学字符识别）库，可以用来将图片、PDF 等文件中的文本转换为可编辑的文本格式。它基于 Google 的 Tesseract OCR 引擎，支持多种语言，并且具有较高的准确率和稳定性。
安装 Pytesseract 库可以使用 pip 工具快速完成。按照以下步骤进行操作：
- 打开命令行工具（Windows: cmd，Linux/macOS: Terminal）。
- 输入以下命令来安装 Pytesseract：

pip install pytesseract

等待安装完成即可。

请添加图片描述

有一点需要注意的是，Pytesseract 库依赖于 Tesseract OCR 引擎，因此在安装 Pytesseract 之前请确保已安装 Tesseract OCR。如果还没有安装 Tesseract OCR，请先下载和安装它，然后再安装 Pytesseract。

可以使用pip list 命令列出你已经安装的python库

请添加图片描述

Pillow库

Pillow 是一个功能强大的图像处理库，可以处理多种格式的图像文件，支持图像处理、图像增强、图像转换等多种操作。
因为识别图片需要用到PIL（Python Imaging Library）库中的 Image 模块

使用 pip 工具来安装 Pillow 库。以下是安装 Pillow 库的命令：

pip install pillow

安装完成后，就可以在 Python 中使用 from PIL import Image 来进行图像处理和操作了。

运行个demo

比如识别这张图

请添加图片描述

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img)

# 输出识别结果
print(text)

注意: 默认识别英文和数字

识别效果:

请添加图片描述

因为都是中文, 识别不出来

若要识别中文, 得进行配置 (前提是安装tesseract时要选择下载好中文简体数据包才能进行使用)

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别, 将语言设置成中文
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)

请添加图片描述

这个识别的正确率还可以, 这取决于图片的质量和文字的清晰规整程度

OK，上述只是简单的小例子，更多用法可以自行探索，还可以设置其他参数来提高文字的识别正确率！

使用说明文档https://github.com/madmaze/pytesseract/blob/master/README.rst

比如下面是官方的说明例子:

from PIL import Image

import pytesseract

# 如果您的PATH中没有tesseract可执行文件，请包括以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# 示例 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'

# 简单的图像转字符串
print(pytesseract.image_to_string(Image.open('test.png')))

# 为了绕过pytesseract的图像转换，只需使用相对或绝对图像路径
# 注意:在这种情况下，您应该提供tesseract支持的图像，否则tesseract将返回错误
print(pytesseract.image_to_string('test.png'))

# 可用语言列表
print(pytesseract.get_languages(config=''))

# 将法语文本图像转换为字符串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

# 使用包含多个图像文件路径列表的单个文件进行批处理
print(pytesseract.image_to_string('images.txt'))

# 在一段时间后超时/终止tesseract作业
try:
    print(pytesseract.image_to_string('test.jpg', timeout=2)) # 在2秒后超时
    print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # 半秒后超时
except RuntimeError as timeout_error:
    # tesseract处理已终止
    pass

# 获取边界框估计
print(pytesseract.image_to_boxes(Image.open('test.png')))

# 获取详细数据，包括框、置信度、行和页码
print(pytesseract.image_to_data(Image.open('test.png')))

# 获取有关方向和脚本检测的信息
print(pytesseract.image_to_osd(Image.open('test.png')))

# 获取可搜索的PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:
    f.write(pdf) # pdf类型默认为bytes

# 获取HOCR输出
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr')

# 获取ALTO XML输出
xml = pytesseract.image_to_alto_xml('test.png')

以上就是使用python进行图片的文字识别详细代码的详细内容，更多关于python 图片文字识别的资料请关注脚本之家其它相关文章！

您可能感兴趣的文章:

python中的字符串内部换行方法
今天小编就为大家分享一篇python中的字符串内部换行方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
基于Django的ModelForm组件(详解)
下面小编就为大家分享一篇基于Django的ModelForm组件详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2017-12-12
基于Python实现网络流量监控的方法详解
本文主要介绍了一种使用Python和psutil库在KaliLinux环境下监控网络流量的方法,包括接收速率、发送速率、吞吐量和丢包率的计算,旨在提升网络性能和稳定性,通过实时监控并根据结果进行调整,确保网络高效运行,希望对大家有所帮助
2026-04-04
Python 防止死锁的方法
这篇文章主要介绍了Python 防止死锁的方法，文中讲解非常细致，代码帮助大家更好的理解和学习，感兴趣的朋友可以了解下
2020-07-07
基于PyQt5制作一个表情包下载器
每次和朋友聊天苦于没有表情包，而别人的表情包似乎是取之不尽、用之不竭。作为一个程序员哪能甘愿认输，所以本文将用Python制作一个表情包下载器供大家斗图，需要的可以参考一下
2022-03-03
Python面向对象类编写细节分析【类,方法,继承,超类,接口等】
这篇文章主要介绍了Python面向对象类编写细节,较为详细的分析了Python面向对象程序设计中类,方法,继承,超类,接口等相关概念、使用技巧与注意事项,需要的朋友可以参考下
2019-01-01
Python实现控制PDF页面大小、页边距、页面方向与缩放
本文将详细介绍如何使用 Python,通过 Spire.PDF for Python 库调整 PDF 的各种页面设置,包括自定义尺寸、页边距、纸张方向以及内容画布的移动与缩放,帮助你通过自动化脚本快速创建符合不同要求的 PDF 文档,省去手动操作的繁琐与时间
2026-04-04
Python pickle类库介绍（对象序列化和反序列化）
这篇文章主要介绍了Python pickle类库介绍（对象序列化和反序列化）,本文讲解了pickle库的作用、pickle的运行过程、使用实例、修改picklable类型的默认行为等内容,需要的朋友可以参考下
2014-11-11
一文分享20个必学的Excel表格操作Python脚本
这篇文章主要为大家详细介绍了20个必学的Excel表格操作Python脚本,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
2025-11-11
python神经网络之批量学习tf.train.batch函数示例
这篇文章主要为大家介绍了python神经网络之批量学习tf.train.batch函数示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05