Python如何基于Tesseract实现识别文字功能

 更新时间:2020年06月05日 09:43:17   作者:程序员的人生A  
这篇文章主要介绍了Python如何基于Tesseract实现识别文字功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

机器视觉

从Google的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

这里我们将重点介绍机器视觉的一个分支:文字识别。介绍如何用一些Python库来识别和使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数存贮器没法读取的图片,这时验证码(CAPTCHA)就出现了。验证码读取的难易程序也大不相同。

将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR的底层库并不多,目前很多库都是使用共同的几个底层OCR库,或者是在上面进行定制。

OCR库概述

在读取和处理图像、图像相差的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。虽然有很多库可以进行图像处理,但是这里我们只介绍Tesseract库。

Tesseract

Tesseract是一个OCR库,目前由Google赞助。Tesseract是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何Unicode字符。

安装Tesseract:Windows系统

下载可执行安装文件安装即可。

安装pytesseract

Tesseract是一个Python的命令行工具,不是通过import语句导入的库。安装之后,要用tesseract命令在Python的外面运行,但我们可以通过pip安装支持Python版本的Tesseract库:

pip install pytesseract

处理规范的文字

你要处理的大多数文字都是比较干净、格式规范的。格式霍英东的文字通常具有以下特点:

使用统一的标准字体(不包含手写体、草书或者十分“花哨”的字体),复印或者拍照但是字体清晰、没有多余的痕迹或者污点。

排列整齐,没有歪歪斜斜的字。

没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘。

文字的一些格式问题在图片预处理时可以进行解决。例如,可以把图片转换成灰度图,调整亮度和对比度,还可以根据需要进行裁剪和旋转,在这里不作介绍。

示例:

英文:

F:DE209_F>tesseract english.jpg text
Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica
 
F:DE209_F>type text.txt
This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()

识别结果的准确率还是挺高的。

通过Python代码实现

英文:

中文:

#!/usr/bin/python3
# -*- coding:utf-8 -*- 
import pytesseract
from PIL import Image
 
# 打开图像:英文
image = Image.open('english.jpg')
 
# OCR识别:lang默认英文
text = pytesseract.image_to_string(image)
 
# 打印识别后的文本
print(text)
 
# 我是分割线
print("*" * 30)
 
# 打开图像:英文
image = Image.open('china.png')
 
# OCR识别:lang指定中文
text = pytesseract.image_to_string(image, lang = 'chi_sim')
 
# 打印识别后的文本
print(text)

运行结果:

This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()
******************************
中 华 人 民 共 和 国

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • python + pyqt5制作一个串口助手

    python + pyqt5制作一个串口助手

    这篇文章主要介绍了python + pyqt5制作一个串口助手,串口助手是串口通信使用的工具,为整合知识,打算做个串口助手,本文给大家讲解的非常详细,需要的朋友可以参考下
    2023-04-04
  • Python条件语句与循环语句

    Python条件语句与循环语句

    这篇文章主要介绍了Python条件语句与循环语句,条件语句就是通过指定的表达式的运行结果来判断当前是执行还是跳过某些指定的语句块,循环语句就是对某些语句的重复执行,这个重复执行是通过指定表达式来控制的,下面来看具体内容及续航管案例吧,需要的朋友可以参考一下
    2021-11-11
  • 简单了解Python matplotlib线的属性

    简单了解Python matplotlib线的属性

    这篇文章主要介绍了简单了解Python matplotlib线的属性,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-06-06
  • 基于python判断字符串括号是否闭合{}[]()

    基于python判断字符串括号是否闭合{}[]()

    这篇文章主要介绍了基于python判断字符串括号是否闭合{}[](),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • 使用 Python 读取电子表格中的数据实例详解

    使用 Python 读取电子表格中的数据实例详解

    这篇文章主要介绍了使用 Python 读取电子表格中的数据,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • Django ORM 多表查询示例代码

    Django ORM 多表查询示例代码

    这篇文章主要介绍了Django ORM 多表查询,本文通过示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-09-09
  • Python eval函数原理及用法解析

    Python eval函数原理及用法解析

    这篇文章主要介绍了Python eval函数原理及用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Matplotlib实现各种条形图绘制

    Matplotlib实现各种条形图绘制

    这篇文章主要介绍了Matplotlib实现各种条形图绘制,文章通过利用 plt.bar 方法实现各种条形图绘制,内容详细具有一定的参考价值,需要的小伙伴可以参考一下
    2022-03-03
  • 浅析Git版本控制器使用

    浅析Git版本控制器使用

    本片文章主要给大家介绍了Git版本控制器的使用心得和技巧分享,需要的朋友学习参考下吧。
    2017-12-12
  • python操作文件的参数整理

    python操作文件的参数整理

    在本篇文章中我们给大家总结了关于python操作文件的相关参数以及用法内容,需要的朋友们学习下。
    2019-06-06

最新评论