python3安装OCR识别库tesserocr过程图解

 更新时间:2020年04月02日 09:20:49   作者:广州萤火虫  
这篇文章主要介绍了python3安装OCR识别库tesserocr过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

OCR简介

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程,对应图形验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术来讲其转化为电子文本,然后将结果提取交给服务器,便可以达到自动识别验证码的过程。

window环境

环境材料准备

  • Window10
  • Python-3.7.3.tgz
  • tesserocr安装包

安装tesserocr

1、打开链接,https://digi.bib.uni-mannheim.de/tesseract/,见下图。


下载最新版的tesseract-ocr-w64-setup-v5.0.0.20190623.exe,然后安装,本人直接安装在C盘目录下。安装完毕后,如下图。


配置环境变量,有两个步骤。

在系统变量里,修改path,如下图。


在系统变量里,创建一个新的变量名为:TESSDATA_PREFIX,值为:C:\Program Files\Tesseract-OCR\tessdata(根据自己安装的tesserocr安装路径为准),如下图。


检查Tesseract-OCR是否安装完成,如下图。

Python3.7加载tesserocr

1、安装Python的OCR识别库

pip install Pillow
pip install pytesseract

2、python加载Window的tesserocr应用,要修改pytesseract三方库的pytesseract.py脚本。

打开pytesseract.py,将Window的tesserocr应用的tesserocr.exe绑定好。


3、到这里Python的绑定window的tesserocr应用已经完成。

读取验证码图片

from PIL import Image
import pytesseract


def read_text(text_path):
  """
  传入文本(jpg、png)的绝对路径,读取文本
  :param text_path:
  :return: 文本内容
  """
  # 验证码图片转字符串
  im = Image.open(text_path)
  # 转化为8bit的黑白图片
  imgry = im.convert('L')
  # 二值化,采用阈值分割算法,threshold为分割点
  threshold = 140
  table = []
  for j in range(256):
    if j < threshold:
      table.append(0)
    else:
      table.append(1)
  out = imgry.point(table, '1')
  # 识别文本
  text = pytesseract.image_to_string(out, lang="eng", config='--psm 6')
  return text


if __name__ == '__main__':
  print(read_text("d://v3.png"))

输出:

读取中文文本图片

1、因为OCR读取不同语言需要加载语言包,因此需要下载简体中文语言包。
从这个链接下载:https://github.com/tesseract-ocr/tessdata,下载红圈的简体中文包。然后将此文件放置window的安装目录下。如下两个图。


现在,我们来读取如下图片的中文文本内容。


代码如下:

from PIL import Image
import pytesseract


def read_text(text_path):
  """
  传入文本(jpg、png)的绝对路径,读取文本
  :param text_path:
  :return: 文本内容
  """
  # 验证码图片转字符串
  im = Image.open(text_path)
  # 转化为8bit的黑白图片
  imgry = im.convert('L')
  # 二值化,采用阈值分割算法,threshold为分割点
  threshold = 140
  table = []
  for j in range(256):
    if j < threshold:
      table.append(0)
    else:
      table.append(1)
  out = imgry.point(table, '1')
  # 识别文本,lang参数改为chi_sim,其他代码与上面的读取验证码代码一致。
  text = pytesseract.image_to_string(out, lang="chi_sim", config='--psm 6')
  return text
if __name__ == '__main__':
  print(read_text("d://v7.png"))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python实现计算最小编辑距离

    Python实现计算最小编辑距离

    这篇文章主要介绍了Python实现计算最小编辑距离的相关代码,有需要的小伙伴可以参考下
    2016-03-03
  • 用selenium解决滑块验证码的实现步骤

    用selenium解决滑块验证码的实现步骤

    验证码作为一种自然人的机器人的判别工具,被广泛的用于各种防止程序做自动化的场景中,下面这篇文章主要给大家介绍了关于用selenium解决滑块验证码的实现步骤,需要的朋友可以参考下
    2023-02-02
  • Python提取JSON格式数据实战案例

    Python提取JSON格式数据实战案例

    这篇文章主要给大家介绍了关于Python提取JSON格式数据的相关资料, Python提供了内置的json模块,用于处理JSON数据,文中给出了详细的代码示例,需要的朋友可以参考下
    2023-07-07
  • python 实现Harris角点检测算法

    python 实现Harris角点检测算法

    这篇文章主要介绍了python 实现Harris角点检测算法,帮助大家更好的利用python处理图像,感兴趣的朋友可以了解下
    2020-12-12
  • Django入门使用示例

    Django入门使用示例

    这篇文章主要介绍了Django入门使用示例,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • python使用递归实现斐波那契数列的示例详解

    python使用递归实现斐波那契数列的示例详解

    这篇文章主要给大家介绍了python使用递归实现斐波那契数列的示例,文中通过示例代码介绍的非常详细,对大家的学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起来学习吧
    2024-01-01
  • Python实现删除文件中含“指定内容”的行示例

    Python实现删除文件中含“指定内容”的行示例

    这篇文章主要介绍了Python实现删除文件中含“指定内容”的行功能,涉及Python针对文件读取及字符串遍历、判断等相关操作技巧,需要的朋友可以参考下
    2017-06-06
  • Python集合的基础操作

    Python集合的基础操作

    这篇文章主要介绍了Python集合的基础操作,Python中的集合和数学上的集合基本是没有区别的,是无序的,即不可以使用索引访问的,集合中是不能出现重复元素的。想着情了解具体内容的小伙伴可以参考下面文章内容
    2021-11-11
  • Python中lambda表达式的用法示例小结

    Python中lambda表达式的用法示例小结

    本文主要展示了一些lambda表达式的使用示例,通过这些示例,我们可以了解到lambda表达式的常用语法以及使用的场景,感兴趣的朋友跟随小编一起看看吧
    2024-04-04
  • Python利用百度地图获取两地距离(附demo)

    Python利用百度地图获取两地距离(附demo)

    本文主要介绍了Python利用百度地图获取两地距离,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-07-07

最新评论