python利用Tesseract识别验证码的方法示例

 更新时间:2019年01月21日 14:16:52   作者:老_大叔o  
无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块Tesseract,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocrpytesseracttesserocrpytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract

下载安装

下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe

下载完成后,双击安装,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件,解压后将tessdata-master中的文件复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR添加到环境变量中。进入命令提示符,输入tesseract,显示下图结果,说明配置完成

查看安装了的语言包:tesseract --list-langs

显示我一共安装了167种语言包,里边包含英文或者其他字符。

测试

实验用的二维码

基本使用语法
tesseract image.png result (tesseract 图片名称 生成文件名称)

结果

由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

import pytesseract
from PIL import Image
im=Image.open('pin.png')
print(pytesseract.image_to_string(im))

结果

这样识别的结果同样跟上文一样,个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

import pytesseract
from PIL import Image
im=Image.open('5.jpg')
#进行置灰处理
im=im.convert('L')
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
 if i<threshold:
  table.append(0)
 else:
  table.append(1)
#通过表格转换成二进制图片,1的作用是白色,0就是黑色
im=im.point(table,"1")
im.show()
print(pytesseract.image_to_string(im))

原图

置灰和二值化后

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Python3.7下安装pyqt5的方法步骤(图文)

    Python3.7下安装pyqt5的方法步骤(图文)

    这篇文章主要介绍了Python3.7下安装pyqt5的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-05-05
  • Python可视化神器pyecharts之绘制地理图表练习

    Python可视化神器pyecharts之绘制地理图表练习

    这篇文章主要介绍了Python可视化神器pyecharts之绘制地理图表,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-07-07
  • Django安装配置mysql的方法步骤

    Django安装配置mysql的方法步骤

    这篇文章主要介绍了Django安装配置mysql的方法步骤,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-10-10
  • python实现的接收邮件功能示例【基于网易POP3服务器】

    python实现的接收邮件功能示例【基于网易POP3服务器】

    这篇文章主要介绍了python实现的接收邮件功能,结合实例形式分析了Python基于网易POP3服务器接收邮件相关操作技巧,需要的朋友可以参考下
    2019-09-09
  • Python中Tkinter组件Menu的具体使用

    Python中Tkinter组件Menu的具体使用

    本文主要介绍了Python中Tkinter组件Menu的具体使用,Menu组件用于实现顶级菜单、下拉菜单和弹出菜单,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • tensorflow实现简单的卷积神经网络

    tensorflow实现简单的卷积神经网络

    这篇文章主要为大家详细介绍了tensorflow实现简单的卷积神经网络,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • python+pytest接口自动化之session会话保持的实现

    python+pytest接口自动化之session会话保持的实现

    在接口测试的过程中,经常会遇到有些接口需要在登录的状态下才能请求,本文主要介绍了python+pytest接口自动化之session会话保持的实现,感兴趣的可以了解一下
    2022-06-06
  • Python制作简单的剪刀石头布游戏

    Python制作简单的剪刀石头布游戏

    这篇文章主要介绍了Python制作剪刀石头布游戏的方法,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12
  • Python入门教程(二十五)Python的作用域

    Python入门教程(二十五)Python的作用域

    这篇文章主要介绍了Python入门教程(二十五)Python的作用域,Python是一门非常强大好用的语言,也有着易上手的特性,本文为入门教程,需要的朋友可以参考下
    2023-04-04
  • Django时区详解

    Django时区详解

    这篇文章主要介绍了Django时区详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07

最新评论