使用Python实现pdf转图片再进行OCR识别

更新时间：2025年04月21日 09:49:29 作者：阿友不错哦

这篇文章主要为大家详细介绍了如何使用Python实现pdf转图片再进行OCR识别功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下

1.先pdf转图片

示例代码

import os
from pdf2image import convert_from_path

# PDF文件路径
pdf_path = '/Users/xxx/2022.pdf'
# 输出图片的文件夹
output_folder = './output_images2022'
# 输出图片的命名格式
output_name = 'page'

# 如果输出文件夹不存在，创建它
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# 将PDF转换为图像列表，设置分辨率为300 DPI
images = convert_from_path(pdf_path, dpi=300)

# 保存每一页为PNG图片
for i, image in enumerate(images):
    image.save(f'{output_folder}/{output_name}_{i+1}.png', 'PNG')

2.OCR识别

示例代码

from PIL import ImageEnhance
import pytesseract
from PIL import Image
from openpyxl import Workbook

# 配置 Tesseract 的路径（如果需要）
# pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/tesseract'  # Mac 的路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # Windows 的路径

# 打开图片
# image_path = "/Users/xxx/page_3.png"  # 替换为你的图片路径


def enhance_image(img):
    img = img.convert('L')  # 转灰度
    img = ImageEnhance.Contrast(img).enhance(2.0)
    return img


def allimngs(image_path):

    image = Image.open(image_path)

    image = enhance_image(image)

    # 使用 pytesseract 进行 OCR
    text = pytesseract.image_to_string(image, lang="chi_sim")  # 中文

    # # 打印提取的文本
    # print("提取的文本：")
    # print(text.replace(' ', ''))

    return text.replace(' ', '')


# 统计子字符串出现次数

class TrieNode:
    def __init__(self):
        self.children = {}
        self.keywords = []


class Trie:
    def __init__(self):
        self.root = TrieNode()

    def insert(self, keyword):
        node = self.root
        for char in keyword:
            if char not in node.children:
                node.children[char] = TrieNode()
            node = node.children[char]
        node.keywords.append(keyword)


def count_keywords(text, keywords):
    # 去重关键词以确保唯一性
    keywords = list(set(keywords))

    # 构建Trie树
    trie = Trie()
    for kw in keywords:
        trie.insert(kw)

    # 初始化计数器
    counters = {kw: 0 for kw in keywords}
    i = 0
    n = len(text)

    while i < n:
        current_node = trie.root
        max_len = 0
        current_len = 0
        end_pos = i

        # 寻找从当前位置开始的最长匹配关键词
        for j in range(i, n):
            char = text[j]
            if char in current_node.children:
                current_node = current_node.children[char]
                current_len += 1
                if current_node.keywords:  # 当前节点是某个关键词的结尾
                    max_len = current_len
                    end_pos = j + 1  # 更新结束位置为当前字符的下一个位置
            else:
                break  # 无后续匹配，退出循环

        if max_len > 0:
            # 更新所有匹配的关键词计数器
            for kw in current_node.keywords:
                counters[kw] += 1
            i = end_pos  # 跳跃到已匹配部分的末尾
        else:
            i += 1  # 无匹配，移动到下一个字符

    return counters


if __name__ == "__main__":
    keywords = ['矮小',
                '安于现状',
                '暗藏',
                '暗淡',
                '暗黑']
    all_text = ''
    workbook = Workbook()
    sheet = workbook.active

    for i in range(108):
        i = i+1
        image_path = f"/Users/xxx/output_images2022/page_{i}.png"
        all_text = all_text + allimngs(image_path)

    all_text = all_text.replace(' ', '').replace('\n', '')

    result = count_keywords(all_text, keywords)

    num = 1

    for k, v in result.items():
        sheet[f'A{num}'] = k
        sheet[f'B{num}'] = v
        print(k, v, num)
        num = num + 1

    workbook.save(filename='2022.xlsx')

3.知识补充

Python中图片与pdf识别文本的OCR方法

1、PaddleOCR：

基于百度飞桨框架开发，模型丰富，支持多语言识别，包括中文、英文等。性能强大，适合复杂场景的文字识别

安装 PaddleOCR 库：

pip install paddleocr

示例代码

from paddleocr import PaddleOCR, draw_ocr
from PIL import Image
 
# 初始化 PaddleOCR
# 参数解释：
# `lang`：指定语言模型，如 'en'（英文）、'ch'（中文）等。
# `use_angle_cls`：是否启用文字方向分类器。
ocr = PaddleOCR(use_angle_cls=True, lang='en')  # 也可以设置为 'ch' 用于中文[^28^]
 
# 指定图片路径
img_path = 'example.jpg'  # 替换为你的图片路径
 
# 执行 OCR 识别
result = ocr.ocr(img_path, cls=True)  # `cls=True` 表示启用方向分类器
 
# 打印识别结果
for line in result:
    print(line)
 
# 可选：绘制识别结果并保存
if result:
    image = Image.open(img_path).convert('RGB')
    boxes = [line[0] for line in result]  # 提取文字框
    txts = [line[1][0] for line in result]  # 提取文字内容
    scores = [line[1][1] for line in result]  # 提取置信度
 
    # 绘制结果
    im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/PaddleOCR/doc/fonts/simfang.ttf')
    im_show = Image.fromarray(im_show)
    im_show.save('result.jpg')  # 保存绘制后的图片[^28^]

2、RapidOCR

首先，确保安装了 RapidOCR 的 ONNXRuntime 版本，这是一个轻量级且高效的推理引擎：

pip install rapidocr_onnxruntime

示例代码：识别数字和字母

以下代码展示了如何使用 RapidOCR 识别图片中的数字和字母，并仅打印识别结果：

from rapidocr_onnxruntime import RapidOCR
 
# 初始化 OCR 引擎
ocr = RapidOCR()
 
# 指定图片路径
img_path = 'example.jpg'  # 替换为你的图片路径
 
# 执行识别
result, _ = ocr(img_path)
 
# 提取并打印识别结果（仅数字和字母）
if result:
    for line in result:
        text = line[1]  # 提取文字内容
        # 筛选只包含数字和字母的文本
        if text.isalnum():
            print(text)
else:
    print("未识别到文字")

注意事项

图片路径：确保 img_path 指向的图片包含数字或字母。
语言设置：默认情况下，RapidOCR 支持中英文混合识别。如果需要识别其他语言，可以参考文档进行配置。
环境要求：确保 Python 版本为 3.6 或更高。

3、EasyOCR

特点：易于使用，支持多种语言（包括中文、英文等），基于深度学习技术，适合初学者和快速集成。

安装方法：

pip install easyocr

使用示例：

import easyocr
 
reader = easyocr.Reader(['en', 'ch_sim'])  # 支持多语言
img_path = 'example.jpg'
result = reader.readtext(img_path)
for line in result:
    print(line[1])  # 打印识别结果

4、Pytesseract

特点：Tesseract 的 Python 封装，支持多种语言，使用简单，适合传统 OCR 任务。

安装方法：

pip install pytesseract

需要先安装 Tesseract OCR，可以从 Tesseract 官网下载。

使用示例：

from PIL import Image
import pytesseract
 
img_path = 'example.jpg'
text = pytesseract.image_to_string(Image.open(img_path), lang='eng')
print(text)  # 打印识别结果

5、DocTR

特点：专注于文档分析和表格识别，能够提取文档中的结构化信息，适合处理复杂布局的文档。

安装方法：

pip install python-doctr

使用示例：

from doctr.models import ocr_predictor
from doctr.io import DocumentFile
 
img_path = 'example.jpg'
doc = DocumentFile.from_images(img_path)
model = ocr_predictor(pretrained=True)
result = model(doc)
for block in result.pages[0].blocks:
    for line in block.lines:
        for word in line.words:
            print(word.value)  # 打印识别结果

6、PyOCR

特点：封装了多个 OCR 引擎（如 Tesseract、Cuneiform 等），提供了统一的接口。

安装方法：

pip install pyocr

使用示例：

import pyocr
from PIL import Image
 
tools = pyocr.get_available_tools()
ocr_tool = tools[0]
img_path = 'example.jpg'
text = ocr_tool.image_to_string(Image.open(img_path), lang='eng')
print(text)  # 打印识别结果

选择建议：

速度优先：推荐使用 RapidOCR 或 EasyOCR。

准确性优先：推荐使用 PaddleOCR。

易用性优先：推荐使用 EasyOCR。

文档分析优先：推荐使用 docTR。

注意：根据你的具体需求（如语言支持、应用场景、性能要求等），可以选择最适合的 OCR 库。

到此这篇关于使用Python实现pdf转图片再进行OCR识别的文章就介绍到这了,更多相关Python pdf转图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Django 解决由save方法引发的错误
这篇文章主要介绍了Django 解决由save方法引发的错误，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-05-05
利用Python连接Oracle数据库的基本操作指南
由于之前的在职的公司没有机会接触到Oralce数据库,所以就没有用python连接过Oralce,之前大多集中在连接mysql和sql server,最近在做一下web自动化的工作,所以简单的记录一下,下面这篇文章主要给大家介绍了关于利用Python连接Oracle数据库的基本操作,需要的朋友可以参考下
2022-06-06
Python 惰性导入的项目实践
Python3.15引入了lazyimports特性,允许在导入模块时延迟执行,从而避免启动阶段的高成本导入,本文就来详细的介绍一下惰性导入的项目实践,感兴趣的可以了解一下
2026-04-04
Django 后台获取文件列表 InMemoryUploadedFile的例子
今天小编就为大家分享一篇Django 后台获取文件列表 InMemoryUploadedFile的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
Python内存优化之如何创建大量实例时节省内存
在Python开发中,内存消耗是一个经常被忽视但至关重要的问题,本文将深入探讨Python中各种内存优化技术,感兴趣的小伙伴可以跟随小编一起学习一下
2025-10-10
Python控制鼠标键盘代码实例
这篇文章主要介绍了Python控制鼠标键盘代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-12-12
从基础到高级详解Python中HTTP请求处理实战指南
HTTP 是互联网数据通信的基石,它定义了客户端（如浏览器或 Python 脚本）如何与服务器进行交互,下面小编就带大家深入了解一下Python中HTTP请求处理的相关知识吧
2026-02-02
Django中使用Celery的方法示例
这篇文章主要介绍了Django中使用Celery的方法示例，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-11-11
Python检验用户输入密码的复杂度
这篇文章主要介绍了Python检验用户输入密码的复杂度,在用户设置密码的时候检测输入的密码大小写数字等,需要的朋友可以参考下
2023-04-04
Python学习之线程池与GIL全局锁详解
本文我们将学习线程池的创建与全局锁。线程池的创建于进程池的原理是相同的；关于GIL全局锁，暂时没有代码上的练习，而是对其概念进行一个简单的启蒙，感兴趣的可以了解一下
2022-04-04

使用Python实现pdf转图片再进行OCR识别

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具