如何使用Python进行PDF图片识别OCR

 更新时间:2021年01月22日 15:53:43   作者:许鸿飞  
这篇文章主要介绍了如何使用Python进行PDF图片识别OCR,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下

使用场景

使用图片识别可以快速提取图片中的信息,方便高效。

Python并不能直接对PDF进行识别,所以如果是识别PDF的话,需要先将PDF转化为图片,然后再进行识别。

必备工具

  • Python 

可以安装3.7及以上版本

  • tesseract-ocr 

下载地址: https://github.com/UB-Mannheim/tesseract/wiki 使用最新版本即可

  • 需要用到的库
pip install pillow
pip install opencv-python
pip install fitz
pip install PyMuPDF
pip install pytesseract

代码示例

from PIL import Image
import os
import pytesseract 
import cv2 as cv
import fitz

def pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle):
  # 打开PDF文件
  pdf = fitz.open(pdfPath)
  # 逐页读取PDF
  for pg in range(0, pdf.pageCount):
    page = pdf[pg]
    # 设置缩放和旋转系数
    trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle)
    pm = page.getPixmap(matrix=trans, alpha=False)
    # 开始写图像
    pm.writePNG(imgPath+str(pg)+".png")
    #pm.writePNG(imgPath)
  pdf.close()
pdf_path ='D:/123.pdf'
img_path ='D:/123.png'
pdf_image(pdf_path,img_path,5,5,0)
# 依赖opencv
img=cv.imread(img_path)
text=pytesseract.image_to_string(Image.fromarray(img),lang='chi_tra')
# 不依赖opencv写法
# text=pytesseract.image_to_string(Image.open(img_path))
print(text)

总结

识别清晰的文字图片的时候准确率非常高

但是识别手写体的话效果不太好

注意事项

在安装tesseract-ocr 的时候一定要记得选择对应的语言,不然是无法正常使用的。

以上就是如何使用Python进行PDF图片识别OCR的详细内容,更多关于python pdf图片识别ocr的资料请关注脚本之家其它相关文章!

相关文章

  • Windows下实现将Pascal VOC转化为TFRecords

    Windows下实现将Pascal VOC转化为TFRecords

    今天小编就为大家分享一篇Windows下实现将Pascal VOC转化为TFRecords,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-02-02
  • Windows系统下安装Python的SSH模块教程

    Windows系统下安装Python的SSH模块教程

    这篇文章主要介绍了Windows系统下安装Python的SSH模块教程,本文涵盖了pycrypto、ecdsa、paramiko、OpenSSH、SSH等模块的安装,需要的朋友可以参考下
    2015-02-02
  • 关于Python参数解析器argparse的应用场景

    关于Python参数解析器argparse的应用场景

    这篇文章主要介绍了关于Python参数解析器argparse的应用场景,argparse 模块使编写用户友好的命令行界面变得容易,程序定义了所需的参数,而 argparse 将找出如何从 sys.argv 中解析这些参数,需要的朋友可以参考下
    2023-08-08
  • Django objects的查询结果转化为json的三种方式的方法

    Django objects的查询结果转化为json的三种方式的方法

    这篇文章主要介绍了Django objects的查询结果转化为json的三种方式的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-11-11
  • 浅析python表达式4+0.5值的数据类型

    浅析python表达式4+0.5值的数据类型

    在本篇文章里小编给大家整理的是一篇关于python表达式4+0.5值的数据类型的知识点内容,需要的的朋友们学习下。
    2020-02-02
  • python实现超级玛丽游戏

    python实现超级玛丽游戏

    这篇文章主要为大家详细介绍了python实现超级玛丽游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2020-03-03
  • pandas round方法保留两位小数的设置实现

    pandas round方法保留两位小数的设置实现

    本文主要介绍了pandas round方法保留两位小数的设置实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-08-08
  • 使用python进行图片的文字识别详细代码

    使用python进行图片的文字识别详细代码

    Tesseract OCR是一款由Google团队开发的开源OCR引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式,本文主要介绍了Python进行图片的文字识别功能OCR的相关知识,需要的朋友可以参考下
    2023-05-05
  • python pandas库读取excel/csv中指定行或列数据

    python pandas库读取excel/csv中指定行或列数据

    通过阅读表格,可以发现Pandas中提供了非常丰富的数据读写方法,下面这篇文章主要给大家介绍了关于python利用pandas库读取excel/csv中指定行或列数据的相关资料,需要的朋友可以参考下
    2022-02-02
  • python读写ini配置文件方法实例分析

    python读写ini配置文件方法实例分析

    这篇文章主要介绍了python读写ini配置文件方法,实例分析了Python针对ini配置文件的相关读写技巧,需要的朋友可以参考下
    2015-06-06

最新评论