Python验证码识别方式(使用pytesseract库)

 更新时间:2025年06月04日 10:50:09   作者:深海蓝山的博客  
这篇文章主要介绍了Python验证码识别方式(使用pytesseract库),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

python中使用pytesseract库进行ocr识别,需要安装Tesseract-OCR,通过指定pytesseract.tesseract_cmd路径,可以将esseract-OCR集成到pytho程序中,避免客户端电脑的依赖。

1、安装Tesseract-OCR

Tesseract是一个高度精确的开源OCR(光学字符识别)系统,广泛应用于文本识别项目中。

下载地址:

安装程序:下载后安装程序

中文包下载:

  • 地址:https://gitcode.com/open-source-toolkit/90e2f
  • 下载了最新版本的chi-sim.traineddata文件,复制到Tesseract的tessdata目录下
  • 通常,路径类似于C:\Program Files\tesseract\tessdata(Windows)
  • 或 /usr/share/tesseract-ocr/4.00/tessdata(Linux)。

2、在python中使用

安装依赖

pip install pytesseract

3、本地图片识别

import pytesseract
from PIL import Image

# 获取文件的绝对路径
def get_abspath(filename):
    try:
        current_dir = os.getcwd()
        filename = os.path.normpath(os.path.join(current_dir, filename))
        # print(f"get_abspath文件路径:{filename}")
        return filename
    except Exception as e:
        print(f"获取文件绝对路径时出现错误: {e}")
        return ""
        
# 手动指定路径(Windows常见) Tesseract 系统路径
driver_path = r"Tesseract-OCR\\tesseract.exe"
pytesseract.pytesseract.tesseract_cmd = get_abspath(driver_path)

#使用示例
if __name__ == "__main__":
  # 1 识别本地图片 
  # 英文识别
  current_dir = os.getcwd()
    filename = os.path.normpath(os.path.join(current_dir, f"code.jpg"))
    file = Image.open(filename)
    text = pytesseract.image_to_string(file, lang="eng")
    print(text)
  #中文识别,需要下载语言包
    filename = os.path.normpath(os.path.join(current_dir, f"sushi.png"))
    file = Image.open(filename)
    text = pytesseract.image_to_string(file, lang='chi_sim') 
    print(f"识别结果:{text}")

识别结果示例:

4、结合playwright动态识别网站验证码

import os
import pytesseract
from PIL import Image
from playwright.sync_api import Playwright
import tools.pwHander as pwHander
from PIL import Image

# 获取文件的绝对路径
def get_abspath(filename):
    try:
        current_dir = os.getcwd()
        filename = os.path.normpath(os.path.join(current_dir, filename))
        # print(f"get_abspath文件路径:{filename}")
        return filename
    except Exception as e:
        print(f"获取文件绝对路径时出现错误: {e}")
        return ""
        
# 手动指定路径(Windows常见) Tesseract 系统路径
driver_path = r"Tesseract-OCR\\tesseract.exe"
pytesseract.pytesseract.tesseract_cmd = get_abspath(driver_path)

# 验证码图片识别
def get_captcha(page: Playwright, element_selector="img#captcha", file_name="code.jpg"):
    try:
        current_dir = os.getcwd()
        filename = os.path.normpath(os.path.join(current_dir, f"{file_name}"))
               
        # 通过class选择器获取img元素
        code_img = page.locator(element_selector)
        if not code_img:
            raise ValueError("验证码元素未找到!")

        # 刷新验证码
        # code_img.click()

        # 下载验证码图片
        code_img.screenshot(path=filename)

        file = Image.open(filename)
        text = pytesseract.image_to_string(file, lang="eng")
        print("验证码识别结果:", text)
        return text.strip()
    except Exception as e:
        print(f"获取验证码 失败:{str(e)}")
        return ""
#使用示例
if __name__ == "__main__":
  # 2 动态识别网站验证码
  with sync_playwright() as p:
   		browser = p.chromium.launch(headless=False, slow_mo=1000)
        context = browser.new_context()
        page = context.new_page()
        page.goto("测试网址")
	    # 验证码图片下载
	    imgText = get_captcha(page, "img#jcaptcha")
	    print(f"验证码:{imgTest}")

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python与QT联合的详细步骤记录

    python与QT联合的详细步骤记录

    这篇文章主要介绍了python与QT联合的详细步骤,文章还展示了如何在Python中调用QT的.ui文件来实现GUI界面,并介绍了多窗口的应用,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-12-12
  • 用Python将GIF动图分解成多张静态图片

    用Python将GIF动图分解成多张静态图片

    今天给大家带来的是关于Python的相关知识,文章围绕着如何用Python将GIF动图分解成多张静态图片展开,文中有非常详细的介绍,需要的朋友可以参考下
    2021-06-06
  • 使用OpenCV校准鱼眼镜头的方法

    使用OpenCV校准鱼眼镜头的方法

    这篇文章主要介绍了使用OpenCV校准鱼眼镜头的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-11-11
  • 对numpy数据写入文件的方法讲解

    对numpy数据写入文件的方法讲解

    今天小编就为大家分享一篇对numpy数据写入文件的方法讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-07-07
  • Python实现遍历数据库并获取key的值

    Python实现遍历数据库并获取key的值

    本文给大家分享的是Python实现遍历数据库并获取key的值的方法,主要是使用for循环来实现,有需要的小伙伴可以参考下。
    2015-05-05
  • pytorch tensor内所有元素相乘实例

    pytorch tensor内所有元素相乘实例

    这篇文章主要介绍了pytorch tensor内所有元素相乘实例,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-07-07
  • Python实现用手机监控远程控制电脑的方法

    Python实现用手机监控远程控制电脑的方法

    这篇文章主要介绍了Python实现用手机监控远程控制电脑的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • python正则匹配查询办理进度示例分享

    python正则匹配查询办理进度示例分享

    分享原创的一段查询通行证办理进度查询的python 3.3代码,利用socket请求相关网站,获得结果后利用正则找出办理进度
    2013-12-12
  • 基于Python利用Faker批量测试数据

    基于Python利用Faker批量测试数据

    这篇文章主要介绍了基于Python利用Faker批量测试数据。测试过程中,经常需要批量去造数据,方法有很多,最简单方便的应该是使用python 的一个三方库Faker。下面我们就来看看三方库Faker如何批量测试数据,需要的朋友可以参考一下
    2022-03-03
  • Python下线程之间的共享和释放示例

    Python下线程之间的共享和释放示例

    这篇文章主要用示例简单介绍了Python下线程之间的共享和释放,线程一直是Python开发者中的热点问题,需要的朋友可以参考下
    2015-05-05

最新评论