Python通过Tesseract库实现文字识别

更新时间：2020年03月05日 12:09:11 作者：骑着螞蟻流浪

这篇文章主要介绍了Python通过Tesseract库实现文字识别,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

机器视觉

从Google的无人驾驶汽车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

这里我们将重点介绍机器视觉的一个分支：文字识别。介绍如何用一些Python库来识别和使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字，但是机器阅读这些图片就会非常困难，利用这种人类用户可以正常读取但是大多数存贮器没法读取的图片，这时验证码（CAPTCHA）就出现了。验证码读取的难易程序也大不相同。

将图像翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR的底层库并不多，目前很多库都是使用共同的几个底层OCR库，或者是在上面进行定制。

OCR库概述

在读取和处理图像、图像相差的机器学习以及创建图像等任务中，Python一直都是非常出色的语言。虽然有很多库可以进行图像处理，但是这里我们只介绍Tesseract库。

Tesseract

Tesseract是一个OCR库，目前由Google赞助。Tesseract是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度，Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体，也可以识别出任何Unicode字符。

安装Tesseract：Windows系统

　　下载可执行安装文件安装即可。

安装pytesseract

Tesseract是一个Python的命令行工具，不是通过import语句导入的库。安装之后，要用tesseract命令在Python的外面运行，但我们可以通过pip安装支持Python版本的Tesseract库：

　　pip install pytesseract

处理规范的文字

你要处理的大多数文字都是比较干净、格式规范的。格式霍英东的文字通常具有以下特点：

使用统一的标准字体（不包含手写体、草书或者十分“花哨”的字体），复印或者拍照但是字体清晰、没有多余的痕迹或者污点排列整齐，没有歪歪斜斜的字没有超出图片范围，也没有残缺不全，或紧紧贴在图片的边缘

文字的一些格式问题在图片预处理时可以进行解决。例如，可以把图片转换成灰度图，调整亮度和对比度，还可以根据需要进行裁剪和旋转，在这里不作介绍。

示例：

英文：

识别结果的准确率还是挺高的。

通过Python代码实现

英文：

中文：

运行结果

This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()
******************************
中华人民共和国

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python实现PS滤镜功能之波浪特效示例
这篇文章主要介绍了Python实现PS滤镜功能之波浪特效,结合实例形式分析了Python实现PS滤镜波浪特效的原理与相关操作技巧,需要的朋友可以参考下
2018-01-01
python脚本实现查找webshell的方法
这篇文章主要介绍了python脚本实现查找webshell的方法,是很实用的一个功能,需要的朋友可以参考下
2014-07-07
Python3去除头尾指定字符的函数strip()、lstrip()、rstrip()用法详解
这篇文章主要介绍了Python3去除头尾指定字符的函数strip()、lstrip()、rstrip()用法详解,需要的朋友可以参考下
2021-04-04
python3实现TCP协议的简单服务器和客户端案例(分享)
下面小编就为大家带来一篇python3实现TCP协议的简单服务器和客户端案例(分享)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-06-06
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析（显卡MX250+CUDA9.
这篇文章主要介绍了Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程（显卡MX250+CUDA9.0+cudnn），本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下
2020-02-02
Python删除列表中多个元素的四种方法总结
这篇文章主要给大家介绍了关于Python删除列表中多个元素的四种方法,在Python中想要删除列表的某个元素,可以使用本文介绍的方法,文中通过代码介绍的非常详细,需要的朋友可以参考下
2023-09-09
python列表list的index方法的用法和实例代码
这篇文章主要介绍了python列表list的index方法的用法和实例代码,本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-05-05
Django框架信号调度原理解析
这篇文章主要介绍了Django框架信号调度原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-09-09
如何基于pythonnet调用halcon脚本
这篇文章主要介绍了如何基于pythonnet调用halcon脚本,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-01-01
Python+Kivy编写一个乒乓球游戏
Kivy 是用 Python 和 Cython 编写的，基于 OpenGL ES 2，支持各种输入设备并拥有丰富的部件库。本文将教你如何使用 Kivy 编写一款乒乓球游戏，感兴趣的可以动手试一试
2022-05-05

Python通过Tesseract库实现文字识别

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具