使用python进行图片的文字识别详细代码

 更新时间:2023年05月21日 15:00:23   作者:CS@zeny  
Tesseract OCR是一款由Google团队开发的开源OCR引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式,本文主要介绍了Python进行图片的文字识别功能OCR的相关知识,需要的朋友可以参考下

安装 Tesseract OCR

  • Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Character Recognition,光学字符识别)引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来,它已经经历了多个版本和改进,并成为目前最受欢迎的 OCR 引擎之一。
  • Tesseract OCR 支持多种语言,包括英语、中文、日语、俄语等等,而且具有较高的准确率和稳定性,尤其在处理大量文字的场景下表现突出。同时,该引擎还支持多线程处理,可以有效地提高识别速度。
  • 下载地址:Home · UB-Mannheim/tesseract Wiki (github.com)
  • Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe

请添加图片描述

注意: 这是Windows64位系统安装包.

tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine ,有能力的可以自行编译源代码

安装过程

  • 双击tesseract-ocr-w64-setup-5.3.1.20230401.exe安装包进行安装

请添加图片描述

首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。

  • Next

请添加图片描述

  • I Agree

请添加图片描述

  • 默认为这台电脑进行安装

请添加图片描述

  • 因为需要在 Tesseract OCR 中识别中文简体等非英语文本,所有需要安装相应的语言数据。

请添加图片描述

可以只安装特定语言, 比如中文简体

请添加图片描述

  • 选择安装路径, 比如我选的是D:\Tesseract-OCR,待会配系统环境变量可能会用到这个安装路径。

请添加图片描述

  • 创建快捷图标

请添加图片描述

  • 安装中

请添加图片描述

  • Next

请添加图片描述

  • Finish

请添加图片描述

  • 可以在开始菜单栏中看到Console

请添加图片描述

  • 点进去就能直接进入控制台了

请添加图片描述

  • 输入:tesseract --help试试

请添加图片描述

因为我们不是直接使用命令去操作这个tesseract, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它, 需要检查系统的环境变量有没有设置好。

在Windows操作系统中,环境变量用于存储一些系统或用户自定义的参数和路径信息。这些参数和路径信息可以帮助操作系统找到系统中安装的软件和程序,以便正确地运行它们。

  • 重新开个命令窗口

请添加图片描述

输入tesseract -v查看版本号,你可能会出现上面的情况, 就是没有配置好系统的环境变量,那就需要配置环境变量

配置系统的环境变量

  • 以windows10的电脑为例, 打开电脑设置

请添加图片描述

  • 点击系统, 找到关于,侧边有个高级系统设置, 点击去

请添加图片描述

  • 可以看到环境变量, 点进去

请添加图片描述

  • 找到系统变量中的Path选中, 再点击编辑

请添加图片描述

  • 进入后点击新建

请添加图片描述

  • 将安装路径复制进去,比如我安装的路径为D:\Tesseract-OCR

请添加图片描述

  • 复制进去后点击确认

请添加图片描述

  • 重新进入到命令行中

输入tesseract -v, 若出现版本号则设置成功

请添加图片描述

OK, tesseract算是安装完成了, 接下来使用python去操作它了!

安装python的第三方库

Pytesseract库

  • Pytesseract 是一个 Python 的 OCR(Optical Character Recognition,光学字符识别)库,可以用来将图片、PDF 等文件中的文本转换为可编辑的文本格式。它基于 Google 的 Tesseract OCR 引擎,支持多种语言,并且具有较高的准确率和稳定性。
  • 安装 Pytesseract 库可以使用 pip 工具快速完成。按照以下步骤进行操作:
    • 打开命令行工具(Windows: cmd,Linux/macOS: Terminal)。
    • 输入以下命令来安装 Pytesseract:
pip install pytesseract
  • 等待安装完成即可。

请添加图片描述

有一点需要注意的是,Pytesseract 库依赖于 Tesseract OCR 引擎,因此在安装 Pytesseract 之前请确保已安装 Tesseract OCR。如果还没有安装 Tesseract OCR,请先下载和安装它,然后再安装 Pytesseract。

  • 可以使用pip list 命令列出你已经安装的python库

请添加图片描述

请添加图片描述

Pillow库

  • Pillow 是一个功能强大的图像处理库,可以处理多种格式的图像文件,支持图像处理、图像增强、图像转换等多种操作。
  • 因为识别图片需要用到PIL(Python Imaging Library)库中的 Image 模块

使用 pip 工具来安装 Pillow 库。以下是安装 Pillow 库的命令:

pip install pillow

安装完成后,就可以在 Python 中使用 from PIL import Image 来进行图像处理和操作了。

运行个demo

比如识别这张图

请添加图片描述

import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别
text = pytesseract.image_to_string(img)

# 输出识别结果
print(text)

注意: 默认识别英文和数字

识别效果:

请添加图片描述

因为都是中文, 识别不出来

  • 若要识别中文, 得进行配置 (前提是安装tesseract时要选择下载好中文简体数据包才能进行使用)
import pytesseract
from PIL import Image

# 加载图片
img = Image.open('images/demo.png')

# 转换为灰度图像
img = img.convert('L')

# 识别文本, 使用pytesseract库进行OCR识别, 将语言设置成中文
text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出识别结果
print(text)

请添加图片描述

这个识别的正确率还可以, 这取决于图片的质量和文字的清晰规整程度

OK, 上述只是简单的小例子,更多用法可以自行探索, 还可以设置其他参数来提高文字的识别正确率!

  • 使用说明文档https://github.com/madmaze/pytesseract/blob/master/README.rst

比如下面是官方的说明例子:

from PIL import Image

import pytesseract

# 如果您的PATH中没有tesseract可执行文件,请包括以下内容:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# 示例 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract'

# 简单的图像转字符串
print(pytesseract.image_to_string(Image.open('test.png')))

# 为了绕过pytesseract的图像转换,只需使用相对或绝对图像路径
# 注意:在这种情况下,您应该提供tesseract支持的图像,否则tesseract将返回错误
print(pytesseract.image_to_string('test.png'))

# 可用语言列表
print(pytesseract.get_languages(config=''))

# 将法语文本图像转换为字符串
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

# 使用包含多个图像文件路径列表的单个文件进行批处理
print(pytesseract.image_to_string('images.txt'))

# 在一段时间后超时/终止tesseract作业
try:
    print(pytesseract.image_to_string('test.jpg', timeout=2)) # 在2秒后超时
    print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # 半秒后超时
except RuntimeError as timeout_error:
    # tesseract处理已终止
    pass

# 获取边界框估计
print(pytesseract.image_to_boxes(Image.open('test.png')))

# 获取详细数据,包括框、置信度、行和页码
print(pytesseract.image_to_data(Image.open('test.png')))

# 获取有关方向和脚本检测的信息
print(pytesseract.image_to_osd(Image.open('test.png')))

# 获取可搜索的PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f:
    f.write(pdf) # pdf类型默认为bytes

# 获取HOCR输出
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr')

# 获取ALTO XML输出
xml = pytesseract.image_to_alto_xml('test.png')


以上就是使用python进行图片的文字识别详细代码的详细内容,更多关于python 图片文字识别的资料请关注脚本之家其它相关文章!

相关文章

  • python使用json序列化datetime类型实例解析

    python使用json序列化datetime类型实例解析

    这篇文章主要介绍了python使用json序列化datetime类型实例解析,分享了相关代码示例,小编觉得还是挺不错的,具有一定借鉴价值,需要的朋友可以参考下
    2018-02-02
  • Python中如何实现MOOC扫码登录

    Python中如何实现MOOC扫码登录

    这篇文章主要介绍了Python中如何实现MOOC扫码登录,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-01-01
  • JAVA SWT事件四种写法实例解析

    JAVA SWT事件四种写法实例解析

    这篇文章主要介绍了JAVA SWT事件四种写法实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • Python实现优先级队列结构的方法详解

    Python实现优先级队列结构的方法详解

    优先级队列(priority queue)是0个或多个元素的集合,每个元素都有一个优先权,接下来就来看一下简洁的Python实现优先级队列结构的方法详解:
    2016-06-06
  • linux上运行python脚本,SyntaxError: invalid syntax的解决

    linux上运行python脚本,SyntaxError: invalid syntax的解决

    这篇文章主要介绍了linux上运行python脚本,SyntaxError: invalid syntax的解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-12-12
  • 基于python制作简易版学生信息管理系统

    基于python制作简易版学生信息管理系统

    这篇文章主要介绍了基于python制作简易版学生信息管理系统,文中有非常详细的代码示例,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
    2021-04-04
  • Python正则表达式的另类解答

    Python正则表达式的另类解答

    这篇文章主要为大家详细介绍了Python正则表达式,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-02-02
  • Python实现的括号匹配判断功能示例

    Python实现的括号匹配判断功能示例

    这篇文章主要介绍了Python实现的括号匹配判断功能,涉及Python栈与列表的存储、遍历、判断等相关操作技巧,需要的朋友可以参考下
    2018-08-08
  • 如何解决import torchvision报错问题 DLL:找不到模块

    如何解决import torchvision报错问题 DLL:找不到模块

    这篇文章主要介绍了如何解决import torchvision报错问题 DLL:找不到模块,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-01-01
  • 使用Python制作微信跳一跳辅助

    使用Python制作微信跳一跳辅助

    Python火到微信去了,辅助微信跳一跳,让你玩到朋友圈第一,今天就跟着我来试试用python实现制作跳一跳辅助,并把代码分享给大家
    2018-01-01

最新评论