Python通过pytesseract库实现识别图片中的文字

 更新时间:2023年05月06日 14:03:37   作者:空空star  
Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。本文就来用pytesseract库实现识别图片中的文字,感兴趣的可以了解一下

前言

大家好,我是空空star,本篇给大家分享一下通过Python的pytesseract库识别图片中的文字。

本篇所用软件相关版本:

macOS 11.6.5
Python 3.8.9
pytesseract 0.3.10
Pillow 9.4.0

一、pytesseract

1.pytesseract是什么

Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。Pytesseract基于Google的Tesseract OCR引擎,具有较高的准确性和可靠性。它可以读取多种格式的图片,包括PNG、JPEG、GIF等。Pytesseract可以应用于自然语言处理、数据挖掘、OCR识别等领域。

2.安装pytesseract

pip install pytesseract

3.查看pytesseract版本

pip show pytesseract

Name: pytesseract
Version: 0.3.10
Summary: Python-tesseract is a python wrapper for Google’s Tesseract-OCR
Home-page: https://github.com/madmaze/pytesseract
Author: Samuel Hoffstaetter
Author-email: samuel@hoffstaetter.com
License: Apache License 2.0
Requires: packaging, Pillow
Required-by:

4.安装PIL

Pillow库是Python图像处理库,pytesseract使用它来处理图像。

pip install pillow

5.查看PIL版本

pip show pillow

Name: Pillow
Version: 9.4.0
Summary: Python Imaging Library (Fork)
Home-page: https://python-pillow.org
Author: Alex Clark (PIL Fork Author)
Author-email: aclark@python-pillow.org
License: HPND
Requires:
Required-by: image, imageio, matplotlib, pytesseract, wordcloud

二、Tesseract OCR

1.Tesseract OCR是什么

Tesseract OCR是一种开源的OCR(Optical Character Recognition,光学字符识别)引擎,它能够将图像中的文本内容识别并转换为可编辑的文本格式。它最初由惠普实验室开发,现在由谷歌维护和更新。Tesseract OCR支持超过100种语言,包括中文、英文、法文、德文等。它可以在多种操作系统上运行,包括Windows、Linux、macOS等。Tesseract OCR被广泛应用于数字化文档、自动化数据输入、智能搜索等方面。

2.安装Tesseract OCR

macOS下:

brew install tesseract

3.安装 Tesseract OCR 语言包

macOS下:

brew install tesseract-lang

三、使用方法

1.引入库

import pytesseract
from PIL import Image

2.打开图片文件

img = Image.open("demo.png")

3.使用Tesseract进行文字识别

text = pytesseract.image_to_string(img, lang='chi_sim')

4.输出识别结果

print(text)

原图

识别出的文字截图

总结

image_to_string是一个Python函数,它是由tesseract OCR引擎提供的。这个函数的作用是将一个图像中的文本转换成字符串,也就是把图像中的文字识别出来,并把它们转换成计算机可以处理的字符串格式。这个函数可以接受多种格式的图像,例如JPEG、PNG、BMP等。在使用这个函数前,需要确保已经安装了tesseract OCR引擎。

以上就是Python通过pytesseract库实现识别图片中的文字的详细内容,更多关于Python pytesseract识别图片中文字的资料请关注脚本之家其它相关文章!

相关文章

  • Python的Scrapy框架基本使用详解

    Python的Scrapy框架基本使用详解

    这篇文章主要介绍了Python的Scrapy框架基本使用详解,Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试,需要的朋友可以参考下
    2023-12-12
  • python画一个圣诞树实现示例

    python画一个圣诞树实现示例

    这篇文章主要为大家介绍了使用python画一个圣诞树实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-05-05
  • 深入解析Python中BeautifulSoup4的基础知识与实战应用

    深入解析Python中BeautifulSoup4的基础知识与实战应用

    BeautifulSoup4正是一款功能强大的解析器,能够轻松解析HTML和XML文档,本文将介绍BeautifulSoup4的基础知识,并通过实际代码示例进行演示,感兴趣的可以了解下
    2024-02-02
  • Python面向对象程序设计之静态方法、类方法、属性方法原理与用法分析

    Python面向对象程序设计之静态方法、类方法、属性方法原理与用法分析

    这篇文章主要介绍了Python面向对象程序设计之静态方法、类方法、属性方法,结合实例形式分析了Python静态方法、类方法、属性方法相关概念、原理、用法及相关操作注意事项,需要的朋友可以参考下
    2020-03-03
  • 通过 Django Pagination 实现简单分页功能

    通过 Django Pagination 实现简单分页功能

    这篇文章主要介绍了通过 Django Pagination 实现简单分页功能,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-11-11
  • Python+Jmeter实现自动化性能压测的流程步骤

    Python+Jmeter实现自动化性能压测的流程步骤

    性能测试是一个全栈工程师/架构师必会的技能之一,只有学会性能测试,才能根据得到的测试报告进行分析,找到系统性能的瓶颈所在,而这也是优化架构设计中重要的依据,本文给大家介绍了Python+Jmeter实现自动化性能压测的流程步骤,需要的朋友可以参考下
    2024-05-05
  • 详解Python matplotlib中的色彩使用详解

    详解Python matplotlib中的色彩使用详解

    matplotlib中提供了一些常见颜色的字符串,并封装成了几个颜色字典,这篇文章主要来和大家讲解一下matplotlib中的色彩使用,需要的可以参考一下
    2023-07-07
  • Pycharm安装PyQt5的详细教程

    Pycharm安装PyQt5的详细教程

    PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍一下Pycharm安装PyQt5的详细教程,感兴趣的朋友跟随小编一起看看吧
    2021-12-12
  • Pandas实现数据类型转换的一些小技巧汇总

    Pandas实现数据类型转换的一些小技巧汇总

    这篇文章主要给大家汇总介绍了关于Pandas实现数据类型转换的一些小技巧,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-05-05
  • python3实现用turtle模块画一棵随机樱花树

    python3实现用turtle模块画一棵随机樱花树

    今天小编就为大家分享一篇python3实现用turtle模块画一棵随机樱花树,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11

最新评论