python简单验证码识别的实现过程

 更新时间:2021年06月20日 12:11:13   作者:冰履踏青云  
很多网站登录都需要输入验证码,如果要实现自动登录就不可避免的要识别验证码,这篇文章主要给大家介绍了关于python简单验证码识别的实现过程,需要的朋友可以参考下

1. 环境准备

1.1 安装pillow 和 pytesseract

python模块库需要 pillow 和 pytesseract 这两个库,直接pip install 安装就好了。

pip install pillow
pip install pytesseract 

1.2 安装Tesseract-OCR.exe

下载地址:ocr下载地址

建议下载最新稳定版本:

tesseract-ocr-w64-setup-v5.0.0.20190623.exe。

安装过程很简单,直接点击下一步就完事了,其间可以默认安装路径,也可以自定义安装路径,装好之后,把它的安装路径添加到环境变量中即可,如我的这样:

我的安装位置:

在这里插入图片描述

环境变量就这样加:

在这里插入图片描述

1.3 更改pytesseract.py的ocr路径

我们pip install pytesseract 之后,在python解释器安装位置包里可以找到pytesseract.py文件如下:

在这里插入图片描述

打开之后,更改:

在这里插入图片描述

至此,环境准备工作算是大功告成了。

2. 测试识别效果

ocr一直默认安装,起始就可以支持数字和英文字母识别的,接下来

我们准备一张验证码图片:

在这里插入图片描述

将图片,命名为captcha.png,放到程序同一目录下

import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))

效果:

在这里插入图片描述

我们再尝试一下中文识别。

在进行识别之前我们要先下载好中文拓展语言包,
语言包地址

下载需要的的语言包,如下图,红框内为中文简体语言包:

在这里插入图片描述

下载后将该包直接放在ocr程序安装目录的tessdata文件夹里面即可。

在这里插入图片描述

找一张图片测试一下:

在这里插入图片描述

import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))

效果:

在这里插入图片描述

有时候文本识别率并不高,建议图像识别前,先对图像进行灰度化和 二值化

代码示例:

import pytesseract
from PIL import Image
file = r"00.jpg"

# 先对图像进行灰度化和 二值化
image = Image.open(file)
Img = image.convert('L')   # 灰度化
#自定义灰度界限,这里可以大于这个值为黑色,小于这个值为白色。threshold可根据实际情况进行调整(最大可为255)。
threshold = 180
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
photo = Img.point(table, '1')  #图片二值化
#保存处理好的图片
photo.save('01.jpg')

image = Image.open('01.jpg')
# 解析图片,lang='chi_sim'表示识别简体中文,默认为English
# 如果是只识别数字,可再加上参数config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
content = pytesseract.image_to_string(image, lang='chi_sim')
print(content)

3. 实战案例–实现古诗文网验证码自动识别登录

import pytesseract
from PIL import Image
from selenium import webdriver


def save_captcha(path):
    driver = webdriver.Chrome()  # 创建浏览器对象
    driver.maximize_window()
    driver.implicitly_wait(10)
    driver.get(url=url)
    image = driver.find_element_by_id('imgCode')
    image.screenshot(path)
    return driver


def recognize_captcha(captcha_path):
    captcha = Image.open(captcha_path)  # 打开图片
    grap = captcha.convert('L')  # 对图片进行灰度化处理
    data = grap.load()  # 将图片对象加载成数据
    w, h = captcha.size  # 获取图片的大小(宽度,高度)
    # 图片二值化处理
    for x in range(w):
        for y in range(h):
            if data[x, y] < 140:
                data[x, y] = 0
            else:
                data[x, y] = 255
    code = pytesseract.image_to_string(grap)  # 对图片进行识别
    return code


def login(driver, code):
    flag = True
    email = '1242931802@qq.com' # 注册的古诗文网账号和密码
    password = 'xxxx'
    try:
        driver.find_element_by_id('email').send_keys(email)
        driver.find_element_by_id('pwd').send_keys(password)
        driver.find_element_by_id('code').send_keys(code)
        driver.implicitly_wait(10)
        driver.find_element_by_id('denglu').click()
    except Exception as ex:
        flag = False
    return flag


if __name__ == '__main__':
    url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
    captcha_path = './captcha.png'
    count = 1
    driver = save_captcha(captcha_path)  # 获取驱动
    code = recognize_captcha(captcha_path)  # 获取验证码
    print('识别验证码为:', code)
    if login(driver, code):
        driver.quit()

效果如下(有时候第一次可能识别失败,可以写个循环逻辑让它多识别几次,一般程序运行1-3次基本会识别成功):

在这里插入图片描述

总结

到此这篇关于python实现简单验证码识别的文章就介绍到这了,更多相关python验证码识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python Pexpect 实现输密码 scp 拷贝的方法

    python Pexpect 实现输密码 scp 拷贝的方法

    今天小编就为大家分享一篇python Pexpect 实现输密码 scp 拷贝的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python中itertools库的四个函数介绍

    Python中itertools库的四个函数介绍

    这篇文章主要介绍了Python中itertools库的四个函数,主要讨论itertools库中的十分使用的几个函数,并重点介绍什么时候我们应该考虑使用它们,需要的朋友可以参考一下
    2022-04-04
  • pandas如何将DataFrame 转为txt文本去除引号

    pandas如何将DataFrame 转为txt文本去除引号

    这篇文章主要介绍了pandas如何将DataFrame 转为txt文本去除引号,文中补充介绍了DataFrame导CSV txt || 每行有双引号的原因及解决办法,感兴趣的朋友跟随小编一起看看吧
    2024-01-01
  • Python之freegames 零代码的22个小游戏集合

    Python之freegames 零代码的22个小游戏集合

    这篇文章主要介绍了,Python之freegames 零代码的22个小游戏集合,文章内容详细,简单易懂,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2023-01-01
  • Python之Class&Object用法详解

    Python之Class&Object用法详解

    今天小编就为大家分享一篇Python之Class&Object用法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • python中什么是面向对象

    python中什么是面向对象

    在本篇文章里小编给大家分享了关于python面向对象的相关基础知识点,有兴趣的朋友们跟着学习下。
    2020-06-06
  • Python实战之看图猜字游戏的实现

    Python实战之看图猜字游戏的实现

    看图猜成语,是考验一个人的反应能力,也考验一个人的右脑思维。据说越聪明的人,这道题的完成率越高。本文就来用Python实现这一经典小游戏,需要的可以参考一下
    2023-02-02
  • pythonfor循环中range与len区别

    pythonfor循环中range与len区别

    这篇文章主要介绍了pythonfor循环中range与len区别,文章围绕主题展开详细的内容介绍,具有一定参考价值,需要的小伙伴可以参考一下
    2022-06-06
  • 介绍Python中的一些高级编程技巧

    介绍Python中的一些高级编程技巧

    这篇文章主要介绍了介绍Python中的一些高级编程技巧,包括推导师和装饰器等重要的进阶知识点,皆为深入学习Python开发的必备基本功,需要的朋友可以参考下
    2015-04-04
  • python2和python3的输入和输出区别介绍

    python2和python3的输入和输出区别介绍

    这篇文章主要介绍了python2和python3的输入和输出区别介绍,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-11-11

最新评论